DukeDuke
主页
项目文档
技术文档
  • 单机版
  • 微服务
  • 代办项目
  • 优鲜项目
项目管理
关于我们
主页
项目文档
技术文档
  • 单机版
  • 微服务
  • 代办项目
  • 优鲜项目
项目管理
关于我们
  • 技术文档

    • 网络原理

      • 交换机
      • 路由器
      • TCP/IP协议
      • HTTP 与 HTTPS
    • 软件架构

      • 什么是软件架构
      • 分层架构
      • 微服务架构
      • 事件驱动架构
      • 领域驱动设计(DDD)
      • 架构图
      • 高并发系统
    • Vue3

      • Vue3简介
      • Vue3响应式系统
      • Vue3组合式API
      • Vue3生命周期
      • Vue3模板语法
      • Vue3组件系统
      • Vue3 路由系统
      • Vue3 状态管理
      • Vue3 性能优化
      • Vue3 TypeScript 支持
      • Vue3 项目实战
      • VUE 面试题大全
      • Node.js 安装
    • JAVA

      • JVM

        • 认识JVM
        • JVM类加载器
        • 运行时数据区
        • 执行引擎
        • 本地方法接口
        • 本地方法库
        • JVM垃圾回收
        • JVM性能监控
        • JVM调优
      • 设计模式
        • 单例模式
        • 工厂模式
        • 策略模式
        • 适配器模式
        • 建造者模式
        • 原型模式
        • 装饰器模式
        • 代理模式
        • 外观模式
        • 享元模式
        • 组合模式
        • 桥接模式
      • Java多线程

        • Java 线程基础详解
        • Java 线程池详解
        • Java ThreadLocal 详解
        • Java volatile 详解
        • Java 线程间通信详解
        • Java 线程安全详解
        • Java 线程调度详解
        • Java 线程优先级详解

        • Java 线程中断详解
        • Java 线程死锁详解
      • Java反射
      • Java 面试题

        • Java 基础概念面试题
        • Java 面向对象编程面试题
        • Java 集合框架面试题
        • Java 多线程与并发面试题
        • JVM 与内存管理面试题
        • Java I/O 与 NIO 面试题
        • Java 异常处理面试题
        • Java 反射与注解面试题
        • Java Spring 框架面试题
        • Java 数据库与 JDBC 面试题
        • Java 性能优化面试题
        • Java 实际项目经验面试题
        • Java 高级特性面试题
        • Java 面试准备建议
    • Python

      • Python简介
      • Python安装
      • Python hello world
      • Python基础语法
      • Python数据类型
      • Python数字
      • Python字符串
      • Python列表
      • Python元组
      • Python字典
      • Python日期时间
      • Python文件操作
      • Python异常处理
      • Python函数
      • Python类
      • Python模块
      • Python包
      • Python多线程
      • Python面向对象
      • Python爬虫
      • Django web框架
      • Python 面试题

        • Python 面试题导航
        • Python 基础概念
        • Python 面向对象编程
        • Python 数据结构
        • Python 高级特性
        • Python 框架
        • Python 性能优化
        • Python 项目经验
    • Spring

      • Spring
      • Springboot
      • Spring Security 安全框架
      • SpringBoot 中的事件详解
      • SpringBoot 中的定时任务详解
      • SpringBoot 自动装配原理与源码解释
    • Mybatis

      • Mybatis
      • Mybatis-Plus
    • 数据库

      • Redis

        • Redis简介
        • Redis(单机)安装
        • Redis配置
        • Redis数据结构
        • RDB、AOF 和混合持久化机制
        • Redis内存管理
        • Redis缓存一致性
        • Redis缓存穿透
        • Redis缓存击穿
        • Redis缓存雪崩
        • Redis Lua脚本
        • Redis主从复制
        • Redis哨兵模式
        • Redis集群
        • Redis数据分片
        • Redis CPU使用率过高
        • Redis面试题
      • MySQL

        • MySQL简介
        • MySQL安装
        • MySQL配置
        • MYSQL日常维护
        • MYSQL优化-慢查询
        • MYSQL优化-索引
        • MYSQL数据库设计规范
    • 消息队列

      • RocketMQ
      • Kafka
      • RabbitMQ
      • 消息队列面试题
    • 微服务

      • SpringCloud 微服务
      • Eureka 注册中心
      • Nacos 注册中心
      • Gateway 网关
      • Feign 服务调用
      • Sentinel 限流 与 熔断
      • Seata 分布式事务
      • CAP 理论
      • Redis 分布式锁
      • 高并发系统设计
    • ELK日志分析系统

      • Elasticsearch 搜索引擎
      • Logstash 数据处理
      • Kibana 可视化
      • ELK 实战
    • 开放API

      • 开放API设计
      • 开放API示例项目
    • 人工智能

      • 人工智能简介
      • 机器学习

      • 深度学习

      • 自然语言处理

      • 计算机视觉

        • CUDA与cuDNN详细安装
        • Conda 安装
        • Pytorch 深度学习框架
        • yolo 目标检测
        • TensorRT 深度学习推理优化引擎
        • TensorFlow 机器学习
        • CVAT 图像标注
        • Windows 下安装 CUDA、cuDNN、TensorRT、TensorRT-YOLO 环境
        • Windows10+CUDA+cuDNN+TensorRT+TensorRT-YOLO 部署高性能YOLO11推理
    • 大数据

      • 大数据简介
      • Hadoop 数据存储
      • Flume 数据采集
      • Sqoop 数据导入导出
      • Hive 数据仓库
      • Spark 数据处理
      • Flink 数据处理
      • Kafka 数据采集
      • HBase 数据存储
      • Elasticsearch 搜索引擎
    • 图像处理

      • 图像处理简介
      • 医学图像web呈现
      • 医学图像处理
      • 切片细胞分离问题
    • 服务器&运维

      • Linux 系统

        • Linux 系统管理
        • Linux 网络管理
        • Linux 文件管理
        • Linux 命令大全
      • Nginx Web 服务器

        • Nginx 安装 与 配置
        • Nginx 负载均衡
        • Nginx SSL证书配置
        • Nginx Keepalived 高可用
      • Docker 容器

        • Docker 简介
        • Docker 安装与配置
        • Docker 命令
        • Docker 部署 Nginx
        • Docker 部署 MySQL
        • Docker 部署 Redis
      • 服务器

        • 塔式服务器
        • 机架式服务器
        • 刀片服务器
      • Git 版本控制
      • Jenkins 持续集成
      • Jmeter 性能测试
      • Let's Encrypt 免费SSL证书
    • 简历

      • 项目经理简历
      • 开发工程师简历

Python 爬虫

什么是爬虫?

爬虫就像是一个自动化的"网络收集员",它会自动访问网页,把网页上的信息(比如文字、图片、链接等)抓取下来,然后保存到本地或者数据库里。就像你手动复制网页内容一样,但是爬虫可以自动完成,而且速度很快。

为什么需要爬虫?

  • 数据收集:比如收集商品价格、新闻资讯、股票数据等
  • 信息监控:监控网站更新、价格变化等
  • 数据分析:为后续的数据分析提供原始数据
  • 自动化测试:测试网站功能是否正常

常用的 Python 爬虫库

1. requests - 发送 HTTP 请求

这是最基础的库,用来向网站发送请求获取网页内容。

import requests

# 获取网页内容
response = requests.get('https://www.baidu.com')
print(response.text)  # 打印网页的HTML内容

2. BeautifulSoup - 解析 HTML

用来解析网页的 HTML 结构,提取我们需要的信息。

from bs4 import BeautifulSoup
import requests

# 获取网页
response = requests.get('https://www.baidu.com')
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

3. Scrapy - 专业爬虫框架

功能强大的爬虫框架,适合大规模爬取。

实际案例

案例 1:爬取天气信息

import requests
from bs4 import BeautifulSoup
import json

def get_weather():
    """爬取北京天气信息"""
    url = "http://www.weather.com.cn/weather/101010100.shtml"

    # 设置请求头,模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }

    try:
        # 发送请求
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'  # 设置编码

        # 解析HTML
        soup = BeautifulSoup(response.text, 'html.parser')

        # 找到天气信息
        weather_div = soup.find('div', class_='weather')
        if weather_div:
            temperature = weather_div.find('span', class_='temperature').text
            weather_desc = weather_div.find('span', class_='weather-desc').text

            print(f"北京天气:{weather_desc}")
            print(f"温度:{temperature}")
        else:
            print("未找到天气信息")

    except Exception as e:
        print(f"爬取失败:{e}")

# 运行爬虫
get_weather()

案例 2:爬取新闻标题

import requests
from bs4 import BeautifulSoup
import time

def get_news_titles():
    """爬取新浪新闻首页的新闻标题"""
    url = "https://news.sina.com.cn/"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8'

        soup = BeautifulSoup(response.text, 'html.parser')

        # 找到新闻标题(这里需要根据实际网站结构调整选择器)
        news_titles = soup.find_all('h1', class_='news-title')

        print("今日新闻标题:")
        for i, title in enumerate(news_titles[:10], 1):  # 只显示前10条
            print(f"{i}. {title.text.strip()}")

    except Exception as e:
        print(f"爬取失败:{e}")

get_news_titles()

案例 3:爬取图片并保存

import requests
import os
from urllib.parse import urljoin

def download_images():
    """下载网页中的图片"""
    url = "https://example.com"  # 替换为实际网站

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }

    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')

        # 找到所有图片
        images = soup.find_all('img')

        # 创建保存目录
        if not os.path.exists('downloaded_images'):
            os.makedirs('downloaded_images')

        for i, img in enumerate(images):
            img_url = img.get('src')
            if img_url:
                # 处理相对URL
                if not img_url.startswith('http'):
                    img_url = urljoin(url, img_url)

                # 下载图片
                img_response = requests.get(img_url, headers=headers)

                # 保存图片
                filename = f"downloaded_images/image_{i}.jpg"
                with open(filename, 'wb') as f:
                    f.write(img_response.content)

                print(f"已下载:{filename}")

    except Exception as e:
        print(f"下载失败:{e}")

# download_images()  # 取消注释运行

爬虫的基本步骤

  1. 分析目标网站:了解网站结构,找到需要的数据在哪里
  2. 发送请求:使用 requests 库向网站发送 HTTP 请求
  3. 解析数据:使用 BeautifulSoup 解析 HTML,提取需要的信息
  4. 保存数据:将数据保存到文件或数据库
  5. 处理异常:处理网络错误、解析错误等异常情况

重要注意事项

1. 遵守 robots.txt

每个网站都有 robots.txt 文件,告诉爬虫哪些页面可以爬取,哪些不可以。要遵守这个规则。

import requests

def check_robots_txt(url):
    """检查网站的robots.txt"""
    robots_url = url + '/robots.txt'
    try:
        response = requests.get(robots_url)
        print("robots.txt内容:")
        print(response.text)
    except:
        print("无法获取robots.txt")

2. 设置请求间隔

不要频繁请求,会给服务器造成压力。建议每次请求之间间隔 1-3 秒。

import time

def polite_crawler():
    """有礼貌的爬虫"""
    urls = ['url1', 'url2', 'url3']

    for url in urls:
        # 发送请求
        response = requests.get(url)
        # 处理数据...

        # 等待2秒再请求下一个
        time.sleep(2)

3. 使用请求头

模拟真实浏览器访问,避免被网站识别为爬虫。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding': 'gzip, deflate',
    'Connection': 'keep-alive',
}

4. 异常处理

网络请求可能失败,要做好异常处理。

def safe_request(url):
    """安全的请求函数"""
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()  # 检查HTTP状态码
        return response
    except requests.exceptions.Timeout:
        print("请求超时")
    except requests.exceptions.RequestException as e:
        print(f"请求失败:{e}")
    except Exception as e:
        print(f"未知错误:{e}")
    return None

进阶技巧

1. 使用代理

如果 IP 被限制,可以使用代理。

proxies = {
    'http': 'http://proxy.example.com:8080',
    'https': 'https://proxy.example.com:8080'
}

response = requests.get(url, proxies=proxies)

2. 处理 JavaScript 渲染的页面

有些网站的内容是通过 JavaScript 动态加载的,需要使用 Selenium。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def get_js_content(url):
    """获取JavaScript渲染后的内容"""
    chrome_options = Options()
    chrome_options.add_argument('--headless')  # 无界面模式

    driver = webdriver.Chrome(options=chrome_options)
    driver.get(url)

    # 等待页面加载
    time.sleep(3)

    content = driver.page_source
    driver.quit()

    return content

3. 数据存储

将爬取的数据保存到文件或数据库。

import json
import csv

def save_data(data, filename='data.json'):
    """保存数据到JSON文件"""
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)

def save_to_csv(data, filename='data.csv'):
    """保存数据到CSV文件"""
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['标题', '链接', '时间'])  # 表头
        for item in data:
            writer.writerow([item['title'], item['link'], item['time']])

总结

Python 爬虫是一个强大的工具,可以帮助我们自动化收集网络信息。但是要记住:

  1. 合法合规:遵守网站的使用条款和 robots.txt
  2. 有礼貌:不要频繁请求,给服务器留出休息时间
  3. 有技术:使用合适的库和技巧,提高爬取效率
  4. 有备份:做好异常处理,避免程序崩溃

通过以上案例和技巧,你就可以开始你的爬虫之旅了!记住,爬虫技术要用于正当用途,不要做违法的事情。

最近更新:: 2025/8/14 09:20
Contributors: Duke
Prev
Python面向对象
Next
Django web框架