0

0

Python爬虫应对反爬机制:从requests到Selenium的进阶策略

DDD

DDD

发布时间:2025-09-09 18:12:34

|

931人浏览过

|

来源于php中文网

原创

Python爬虫应对反爬机制:从requests到Selenium的进阶策略

本文探讨Python爬虫在面对反爬机制,特别是Cloudflare等防护时,requests库可能遇到的访问障碍。教程将详细介绍如何利用selenium模拟真实浏览器行为,有效绕过此类限制,成功抓取动态渲染的网页内容,并提供实用的代码示例和注意事项,帮助开发者构建更健壮的爬虫系统。

1. 理解传统HTTP请求的局限性

在进行网页数据抓取时,requests库是python中最常用且高效的工具之一。它能够发送http请求并接收响应,适用于抓取静态html内容。然而,当目标网站部署了高级反爬机制(如cloudflare、akamai等)或页面内容需要javascript动态渲染时,requests库往往会遭遇瓶颈,导致无法成功获取预期数据。

考虑以下使用requests库尝试抓取网页的示例代码:

import requests

url = "https://cafe.bithumb.com/view/boards/43?keyword=¬iceCategory=9"

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    "Referer": "https://cafe.bithumb.com/",
}

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status() # 检查HTTP状态码,如果不是200则抛出异常

    print(response.text)
except requests.exceptions.RequestException as err:
    print(f"请求发生错误: {err}")

尽管代码中设置了User-Agent和Referer等HTTP头信息,尝试模拟浏览器访问,但如果网站使用了Cloudflare等安全服务进行流量过滤,或者页面内容在客户端通过JavaScript动态加载,requests库将无法执行这些JavaScript代码,从而获取到的可能是一个空白页面、一个验证码页面,或者直接被拒绝访问。此时,即使在浏览器中可以正常访问,requests也可能失败。

2. 引入Selenium进行浏览器自动化

为了应对上述挑战,我们需要一个能够模拟真实浏览器行为的工具,即能够执行JavaScript、处理Cookie、渲染页面并与页面元素进行交互。Selenium正是这样一款强大的浏览器自动化测试框架,它可以通过驱动真实的浏览器(如Chrome、Firefox)来访问网页。

2.1 Selenium的工作原理

Selenium通过WebDriver协议与浏览器进行通信。当你使用Selenium时,它会启动一个真实的浏览器实例(可以是无头模式),然后像用户一样操作这个浏览器:输入URL、点击按钮、填写表单,并等待页面加载和JavaScript执行完毕。这意味着Selenium可以有效绕过那些依赖JavaScript验证或动态渲染的反爬机制。

立即学习Python免费学习笔记(深入)”;

2.2 环境准备

在开始使用Selenium之前,需要安装selenium库并下载对应浏览器的WebDriver。

奇布塔
奇布塔

基于AI生成技术的一站式有声绘本创作平台

下载
  1. 安装Selenium库:
    pip install selenium
  2. 下载WebDriver: 以Chrome浏览器为例,你需要下载ChromeDriver。
    • 首先,查看你本地Chrome浏览器的版本(在Chrome浏览器中输入chrome://version)。
    • 然后,访问ChromeDriver官方下载页面(https://sites.google.com/chromium.org/driver/),下载与你Chrome版本兼容的ChromeDriver。
    • 将下载的chromedriver可执行文件放置在系统PATH中,或者指定其完整路径给webdriver.Chrome()。

2.3 使用Selenium抓取网页内容

以下是使用Selenium(Chrome浏览器)抓取之前无法访问的网站的示例代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By # 导入By模块用于元素定位
from selenium.webdriver.support.ui import WebDriverWait # 导入WebDriverWait用于等待元素
from selenium.webdriver.support import expected_conditions as EC # 导入expected_conditions用于设置等待条件

url = "https://cafe.bithumb.com/view/boards/43?keyword=¬iceCategory=9"

# 配置Chrome浏览器选项
chrome_options = Options()
# 设置User-Agent,进一步模拟真实浏览器
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36')
# 启用无头模式,即不显示浏览器界面,在服务器环境或后台运行时非常有用
chrome_options.add_argument('--headless')
# 其他常用选项,可根据需要添加
chrome_options.add_argument('--disable-gpu') # 禁用GPU加速,在无头模式下可能有用
chrome_options.add_argument('--no-sandbox') # 禁用沙箱模式,在某些Linux环境下可能需要
chrome_options.add_argument('--disable-dev-shm-usage') # 解决/dev/shm分区太小的问题

# 初始化WebDriver,启动Chrome浏览器
# 如果chromedriver不在系统PATH中,需要指定executable_path
# driver = webdriver.Chrome(executable_path='/path/to/chromedriver', options=chrome_options)
driver = webdriver.Chrome(options=chrome_options)

try:
    print(f"正在访问URL: {url}")
    driver.get(url) # 访问目标URL

    # 可以添加等待机制,确保页面完全加载和JavaScript执行完毕
    # 例如,等待某个特定元素出现,表示页面内容已加载
    # WebDriverWait(driver, 10).until(
    #     EC.presence_of_element_located((By.CSS_SELECTOR, 'div.some-content-class'))
    # )

    # 获取当前页面的完整HTML源代码
    page_source = driver.page_source
    print("成功获取页面内容,前500字符:")
    print(page_source[:500]) # 打印部分内容以验证

except Exception as e:
    print(f"访问或获取页面内容时发生错误: {e}")

finally:
    # 无论是否发生错误,都确保关闭浏览器实例,释放资源
    print("关闭浏览器实例。")
    driver.quit()

2.4 代码解析与注意事项

  • from selenium import webdriver: 导入WebDriver模块。
  • from selenium.webdriver.chrome.options import Options: 导入Options类,用于配置Chrome浏览器行为。
  • chrome_options.add_argument(...): 添加启动参数。
    • 'user-agent=...': 设置User-Agent,进一步模拟真实浏览器。
    • '--headless': 关键参数,使Chrome在后台运行,不显示图形界面。这对于服务器部署和提高效率非常重要。
    • 其他参数如--disable-gpu、--no-sandbox等有助于在特定环境下(如Linux服务器)稳定运行。
  • driver = webdriver.Chrome(options=chrome_options): 初始化Chrome WebDriver,并应用配置的选项。
  • driver.get(url): 浏览器访问指定的URL。Selenium会自动等待页面加载完成(包括JavaScript执行)。
  • WebDriverWait 和 expected_conditions: 这是Selenium中非常重要的等待机制。当页面内容是动态加载时,仅仅driver.get()可能不足以确保所有元素都已渲染。通过WebDriverWait,我们可以设置一个最长等待时间,并指定一个条件(如某个元素出现),直到条件满足或超时为止。这能有效提高爬虫的健壮性。
  • page_source = driver.page_source: 获取当前页面加载完成后的完整HTML源代码。
  • driver.quit(): 非常重要,关闭浏览器实例并终止WebDriver进程。如果不调用此方法,浏览器进程可能会持续运行,占用系统资源。

3. 总结与选择建议

当传统的requests库无法满足爬取需求时,Selenium提供了一个强大的替代方案,尤其适用于以下场景:

  • 反爬机制复杂:网站采用Cloudflare、Akamai等高级反爬技术。
  • 动态内容渲染:页面内容主要通过JavaScript在客户端动态生成。
  • 需要模拟用户交互:如点击按钮、填写表单、滚动页面等。

然而,Selenium并非没有缺点:

  • 性能开销大:每次请求都需要启动一个完整的浏览器实例,资源消耗远高于requests。
  • 速度较慢:页面加载和JavaScript执行需要时间,抓取效率低于requests。
  • 环境配置复杂:需要安装WebDriver并确保与浏览器版本兼容。

因此,在实际开发中,应根据具体需求选择合适的工具:

  • 优先使用requests:如果目标网站内容静态、反爬机制不强,requests是更高效、更轻量级的选择。
  • 在必要时使用Selenium:当requests无法解决问题时,再考虑引入Selenium。可以尝试结合使用,例如先用requests获取部分静态数据,再用Selenium处理动态部分。

通过灵活运用requests和Selenium,开发者可以构建出更加健壮和高效的Python爬虫系统,应对各种复杂的网页抓取挑战。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

830

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

743

2023.11.06

cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6427

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

347

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

411

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

92

2025.08.19

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

413

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

418

2023.11.14

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

1

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3万人学习

CSS教程
CSS教程

共754课时 | 24.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号