Selenium WebDriver 内存泄漏问题：批量打标签页时的优化方案

碧海醫心

发布时间：2026-03-02 23:35:02

949人浏览过

来源于php中文网

原创

Selenium WebDriver 内存泄漏问题：批量打标签页时的优化方案

本文详解 selenium 在频繁打开/关闭浏览器标签页时出现内存持续增长的根本原因，并提供基于定期重启 webdriver 实例的稳定、可落地的内存管理策略。

本文详解 selenium 在频繁打开/关闭浏览器标签页时出现内存持续增长的根本原因，并提供基于定期重启 webdriver 实例的稳定、可落地的内存管理策略。

在使用 Selenium 自动化采集网页数据时，若需批量处理数百个 URL（例如通过 window.open() 动态创建标签页），开发者常遇到一个典型瓶颈：即使调用 driver.close() 关闭标签页，Chrome 进程的内存占用仍持续攀升，且几乎不释放。如示例代码所示，循环 25 次开闭标签页后，任务管理器中 Chrome 的内存占用可能增长数百 MB——这并非由 Python 端缓存的数据导致，而是 Chromium 渲染进程与 WebDriver 会话间存在资源回收延迟或未完全清理的上下文（如 JS 执行环境、网络栈、GPU 缓存等）。driver.close() 仅关闭当前窗口句柄，但底层 Blink 渲染器、V8 实例及部分共享内存区域并未被及时归还操作系统。

✅ 推荐解决方案：分批复用 + 定期重置 WebDriver

最有效、经生产验证的实践是 避免长期持有单个 WebDriver 实例，转而采用「固定批次 + 显式退出 + 重建」策略。例如每处理 20–50 个页面后调用 driver.quit()，再新建实例继续执行。该方式虽引入毫秒级启动开销，却能彻底切断内存累积链路，保障整体稳定性。

讯飞开放平台

科大讯飞推出的以语音交互技术为核心的AI开放平台

下载

以下为优化后的参考实现：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

def create_driver():
    options = Options()
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    options.add_argument("--disable-gpu")
    options.add_argument("--incognito")  # 减少扩展/缓存干扰
    # 可选：限制内存用量（Chromium 参数）
    options.add_argument("--memory-pressure-threshold-mb=512")
    return webdriver.Chrome(options=options)

def scrape_batch(urls, batch_size=30):
    driver = create_driver()
    base_url = "https://edition.cnn.com/"

    try:
        driver.get(base_url)
        for i, url in enumerate(urls):
            if i > 0 and i % batch_size == 0:
                # 每 batch_size 个页面后重置驱动
                driver.quit()
                print(f"✅ Batch {i//batch_size} completed. Restarting WebDriver...")
                driver = create_driver()
                driver.get(base_url)

            # 复用首个 tab，避免频繁 window.open
            driver.get(url)
            # ✨ 此处插入您的数据提取逻辑
            # e.g., title = driver.title; content = driver.find_element(...).text

            time.sleep(0.3)  # 防反爬节流，非必需

    finally:
        driver.quit()  # 确保最终释放

# 使用示例：模拟 600 个目标 URL
urls = ["https://edition.cnn.com/"] * 600
scrape_batch(urls, batch_size=40)

⚠️ 关键注意事项

不要依赖 window.open() + close() 模拟多标签页：这是内存泄漏的主因。现代 Chromium 对动态标签页的资源隔离不完善，尤其在无用户交互场景下。
禁用无关功能：--disable-gpu、--disable-dev-shm-usage 等参数可显著降低基础内存 footprint。
避免全局 driver 实例：切勿在整个脚本生命周期内复用同一 driver 对象处理全部请求。
监控与兜底：可在循环中加入内存检查（如 psutil.Process().memory_info().rss），超阈值时主动 quit() 并重建。
替代思路（进阶）：对极致性能要求场景，可考虑无头浏览器池（如 Playwright 的 browser.new_context()）或 HTTP 客户端（Requests + BeautifulSoup）直取静态内容，绕过浏览器渲染层。

综上，Selenium 的内存问题本质是架构约束而非 Bug——它设计初衷并非高并发标签页调度。接受 quit()/new 的轻量重启成本，是平衡稳定性与资源消耗的最优解。 将“单实例长连接”思维切换为“短生命周期批处理”，即可从容应对 600+ 页面规模的自动化采集任务。

PythonSelenium自动化教程_浏览器操作与元素定位

Python和Selenium自动化测试_Web UI驱动与元素定位

如何使用Selenium处理iframe中的元素定位

Selenium WebDriver：获取iframe自身属性的正确方法

Selenium WebDriver：理解Iframe交互与属性获取的正确姿势

相关标签:

webdriver 架构 chrome beautifulsoup 循环栈并发 JS 对象 http bug 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python常见面试题解析_高频问题解题思路下一篇：暂无

作者最新文章

Python 多输入多输出场景下的灵活参数解析教程

2026-02-28 12:35

如何在 PHP MySQL 中高效获取多个时间区间内的独立计数

2026-02-28 12:37

如何在 PHP MySQL 中高效获取多个时间区间的独立计数

2026-02-28 12:49

如何在运行时通过反射获取类上的类型使用（TYPE_USE）注解

2026-02-28 13:05

如何在 Go 中动态配置 HTTP 客户端代理（仅当用户显式提供时生效）

2026-02-28 13:16

索尼真的要撤了？爆料人称PC移植仅占总收入1.5%

2026-02-28 13:19

《刺客信条：女巫》战斗彻底重做 E叔有望中途登场

2026-02-28 14:05

如何在 Go 中动态配置 HTTP 客户端代理（仅当用户明确提供时生效）

2026-02-28 14:08

首周销量已突破40万套，这款全新的多人派对游戏热度仍在持续增长

2026-02-28 14:20

如何通过 AJAX 根据用户邮箱获取 WordPress 用户 ID

2026-02-28 14:22

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

1016

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

813

2023.11.06

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

430

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

599

2023.08.10

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

js获取当前时间

JS全称JavaScript，是一种具有函数优先的轻量级，解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言，主要用于Web，常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

514

2023.07.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

678

2023.08.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板