Python动态网页爬取方法_selenium与requests结合【指导】

冰川箭仙

发布时间：2025-12-23 22:58:47

965人浏览过

来源于php中文网

原创

动态网页爬取需结合selenium与requests：selenium模拟浏览器执行js并获取渲染后html或提取api参数，requests高效调用接口；登录等交互用selenium，后续数据请求交由requests，并注意cookie、headers一致性及反爬规避。

python动态网页爬取方法_selenium与requests结合【指导】

动态网页爬取不能只靠 requests，因为很多内容由 JavaScript 渲染，服务器返回的 HTML 源码里压根没有目标数据。这时候得让浏览器“真打开页面、执行 JS、等加载完”，再把渲染后的 HTML 或接口数据拿回来——Selenium 负责模拟真实浏览行为，requests 负责高效获取接口或静态资源，二者配合才是实用解法。

先用 Selenium 获取渲染后的真实 HTML

适用于页面结构依赖 JS 初始化（比如点击加载、滚动触底、Vue/React 渲染的列表），且你只需要最终 DOM 内容。

启动 ChromeDriver（推荐无头模式： options.add_argument('--headless=new')）
用 driver.get(url) 打开页面，再用 WebDriverWait 等待关键元素出现（别用 time.sleep）
调用 driver.page_source 获取完整渲染后的 HTML，之后可交给 BeautifulSoup 解析
示例：等 class="item-list" 的 div 加载完成再取源码

用 Selenium 提取请求参数，再用 requests 发起真实 API 调用

很多动态页背后是 Ajax 接口（如 XHR/Fetch），Selenium 可以帮你“看懂”这些请求怎么发的，而 requests 更快更轻量，适合批量抓取。

Favird No-Code Tools

无代码工具的聚合器

下载

在 Selenium 中打开开发者工具（Network → XHR），手动操作触发目标数据加载，记下请求 URL、Headers（尤其是 Cookie、User-Agent、X-Requested-With）、Query 参数和 POST Body
用 driver.get_cookie('name') 或 driver.execute_script("return document.cookie") 提取登录态 Cookie
用 requests.Session() 复用会话，设置相同 headers 和 cookies，直接调用接口获取 JSON 数据
优势：绕过浏览器渲染，速度快；适合翻页、分页拉取大量数据

混合策略：Selenium 做登录/跳转，requests 接管后续所有接口

登录态往往需要交互（验证码、滑块、OAuth 跳转），Selenium 更可靠；但登录成功后，几乎所有业务数据都走接口，这时切回 requests 更稳。

立即学习“Python免费学习笔记（深入）”；

用 Selenium 完成账号密码输入、点击登录、等待跳转到首页或用户中心
提取当前 driver 的 cookies 和 headers（注意保留 Authorization token 或 sessionid）
把 cookies 转为 requests 可用格式：requests.utils.dict_from_cookiejar(driver.get_cookies())
后续所有数据请求全部交给 requests，不用再开浏览器，内存和时间成本大幅下降

注意事项与避坑点

结合使用不是简单拼凑，几个关键细节决定成败：

Cookie 时效性：Selenium 获取的 cookie 可能含 HttpOnly，requests 无法自动携带，需显式传入；部分站点还校验 User-Agent 或 Referer，headers 必须一致
反爬识别：Selenium 默认特征明显（如 webdriver 属性），需加配置隐藏：options.add_experimental_option("excludeSwitches", ["enable-automation"]) 并禁用 useAutomationExtension
请求频率控制：requests 接口调用比浏览器快得多，务必加 time.sleep 或使用 ratelimit 库，避免被封 IP
异常兜底：Selenium 可能超时或崩溃，requests 可能返回 401/403，建议用 try-except 包裹关键步骤，并设计重试逻辑

不复杂但容易忽略：真正高效的动态爬取，不是“全用 Selenium”，也不是“硬刚 requests”，而是让每个工具做它最擅长的事。

如何在 Selenium 中精准定位并点击动态下拉菜单中的选项

Python全栈项目开发进阶教程_FrontendBackend完整项目

Python网页版怎样做后台管理_Python网页版后台管理系统开发教程

Django 后端权限管理与前端视图控制：基于 Group 的最佳实践

利用Django Groups在Vue应用中管理前端视图权限

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：python 如何引用变量下一篇：企业应用如何实现API接口调用的完整流程【教程】

作者最新文章

华为荣耀价格最低的一款手机荣耀最便宜机型价格解析

2026-03-11 09:37

微信电脑版文件保存在哪个文件夹微信电脑版文件默认存储路径

2026-03-11 11:40

Linux配置集中管理_配置统一方案

2026-03-11 11:50

Linux服务器频繁重启_硬件与系统排查

2026-03-11 12:11

Adobe怎么把一页拆分成两页 Adobe PDF页面拆分方法

2026-03-11 12:17

Linux系统内核参数查看_sysctl命令详解

2026-03-11 12:27

SQL报表指标口径变更_版本化设计

2026-03-11 12:34

Linux 反向代理性能优化_Nginx网络调优

2026-03-11 13:05

GitHub 网址打不开怎么解决？网络与 DNS 排查方法

2026-03-11 13:44

腾讯会议屏幕比例怎么调

2026-03-11 14:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

455

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

335

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

166

2023.06.14

ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容，供大家免费下载体验。

170

2023.08.31

ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法：1、设置统一的编码方式；2、服务器端编码；3、客户端解码；4、设置HTTP响应头；5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

124

2023.11.15

ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

257

2024.09.24

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板