0

0

并发编程综合案例实战:设计一个高性能的多线程网页爬虫系统

P粉602998670

P粉602998670

发布时间:2026-03-04 09:57:15

|

100人浏览过

|

来源于php中文网

原创

asyncio + aiohttp 更适合网页爬虫,因其在等待网络i/o时自动切换协程,单线程可并发数百请求;而 threading 在阻塞时空转且调度开销大,吞吐受限。

并发编程综合案例实战:设计一个高性能的多线程网页爬虫系统

为什么 asyncio + aiohttpthreading 更适合网页爬虫

因为 DNS 解析、TCP 握手、TLS 协商、等待响应这些操作,90% 时间都在等网络 I/O,线程在这期间空转,调度开销反而拖慢整体吞吐。而 asyncio 在等待时自动切走,单线程就能并发跑几百个请求。

常见错误现象:threading.Thread 开 100 个线程后 CPU 不高但吞吐卡在 20 QPS,urllib.requestrequests.get 阻塞主线程导致协程无法调度。

  • aiohttp.ClientSession 必须复用,每次新建会重建连接池,触发重复 DNS 查询和 TCP 握手
  • 别在协程里调 time.sleep(),改用 await asyncio.sleep()
  • 如果目标站点有反爬,aiohttp 的并发太快容易被封 IP,得加 semaphore 控制并发数,不是靠“多开线程”解决

如何安全控制并发数并避免被封

硬设 asyncio.Semaphore(10) 是最直接的方式,但它只管请求数,不管每个请求耗时差异大时的资源堆积问题。

使用场景:爬取 5000 个 URL,其中 30% 响应超 5 秒,其余 200ms 内返回;若不限流,短请求会被长请求阻塞在队列里。

  • asyncio.Semaphore 包裹 session.get() 调用,不是包裹整个 fetch() 函数
  • 设置 timeout:传 aiohttp.ClientTimeout(total=10, connect=3),避免单个请求卡死整个协程池
  • 对 429、503 状态码做退避重试,但别用固定间隔,改用指数退避 + jitter:await asyncio.sleep(min(60, 0.5 * (2 ** attempt) + random.uniform(0, 0.1)))

concurrent.futures.ThreadPoolExecutor 什么时候还值得用

当你要解析大量 HTML(比如用 lxmlBeautifulSoup)且 CPU 密集度高时,纯 asyncio 反而变慢——Python 的 async 不释放 GIL,CPU 绑定任务必须进线程池。

Logomaster.ai
Logomaster.ai

Logo在线生成工具

下载

性能影响:在协程中同步解析 10MB HTML,可能阻塞事件循环 200ms,导致其他请求超时;扔给 ThreadPoolExecutor 后,事件循环照常运转。

  • 初始化 ThreadPoolExecutor(max_workers=4) 就够,再多反而因上下文切换增加开销
  • loop.run_in_executor(None, parse_html, html_text),第一个参数别写 executor,否则无法被 event loop 正确回收
  • 别把 requests.get 塞进去——这是典型的“用线程模拟异步”,既没解决 I/O 等待,又引入线程管理成本

怎么持久化结果又不拖慢爬取速度

直接写文件或发 INSERT INTO 会变成串行瓶颈,尤其磁盘 IO 或数据库连接池有限时,协程一等就全卡住。

容易踩的坑:open(...).write() 在协程里调用,或用 sqlite3.connect() 在主线程里反复创建连接。

  • 批量写入:攒够 100 条再 executemany,用 asyncpgaiomysql 替代同步驱动
  • 文件落地用 asyncio.to_thread()(Python 3.9+)包装 json.dumpcsv.writer,比自己建 ThreadPoolExecutor 更轻量
  • 如果只是临时缓存中间结果,优先用内存结构(如 deque)+ 定期 flush,别每条都落盘

真正难的不是并发模型选型,是判断哪一步该 async、哪一步该 thread、哪一步该 batch——边界模糊时,先压测再切分。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

452

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

328

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

334

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

774

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

4

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号