Python多线程爬虫怎么写_threading实战说明【教程】

舞夢輝影

发布时间：2025-12-20 21:25:13

709人浏览过

来源于php中文网

原创

python多线程爬虫应采用queue+threading.thread的生产者-消费者模型，合理控制并发数、加锁保护共享资源、添加延时与异常处理，避免被封；i/o密集型任务适用，cpu密集型则选multiprocessing。

python多线程爬虫怎么写_threading实战说明【教程】

Python多线程爬虫不是靠开一堆线程硬怼，而是用 threading 控制并发节奏，避免被封、减少等待、提升整体抓取效率。关键在合理复用线程、加锁保护共享资源、控制请求频率。

用 Queue + threading.Thread 做任务分发

手动管理线程数量比直接 start() 一堆线程更稳妥。推荐搭配 queue.Queue 实现生产者-消费者模型：

主线程把待爬 URL 放进队列（生产者）
多个工作线程从队列取 URL 并请求（消费者），处理完自动取下一个
队列自带线程安全，不用额外加锁

示例片段：

import threading
import queue
import requests
<p>url_queue = queue.Queue()
results = []</p><p>def worker():
while True:
url = url_queue.get()
if url is None:  # 退出信号
break
try:
resp = requests.get(url, timeout=5)
results.append((url, resp.status_code))
except Exception as e:
results.append((url, f"error: {e}"))
url_queue.task_done()  # 标记完成</p><h1>启动 4 个线程</h1><p>threads = []
for _ in range(4):
t = threading.Thread(target=worker)
t.start()
threads.append(t)</p><h1>添加任务</h1><p>for u in ["<a href="https://www.php.cn/link/5f69e19efaba426d62faeab93c308f5c">https://www.php.cn/link/5f69e19efaba426d62faeab93c308f5c</a>", "<a href="https://www.php.cn/link/ef246753a70fce661e16668898810624">https://www.php.cn/link/ef246753a70fce661e16668898810624</a>"]:
url_queue.put(u)</p><p>url_queue.join()  # 等所有任务完成</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">Python免费学习笔记（深入）</a>”；</p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/797" title="有道智云AI开放平台"><img
                                                                                src="https://img.php.cn/upload/ai_manual/000/000/000/175679968792605.jpg" alt="有道智云AI开放平台"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/797" title="有道智云AI开放平台">有道智云AI开放平台</a>
                                                                        <p>有道智云AI开放平台</p>
                                                                </div>
                                                                <a href="/ai/797" title="有道智云AI开放平台" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div><h1>发送退出信号</h1><p>for _ in threads:
url_queue.put(None)
for t in threads:
t.join()

共享数据要加锁，别让线程抢着写

像写文件、更新全局列表、计数器这类操作，多个线程同时执行会出错（比如少记一次、覆盖数据）。必须用 threading.Lock：

定义一个 lock 对象： lock = threading.Lock()
写共享变量前调用 lock.acquire()，写完立刻 lock.release()
更安全写法是用 with lock: 语句，自动释放

例如保存结果到 CSV 文件时：

import csv
lock = threading.Lock()
<p>def save_to_csv(url, status):
with lock:  # 确保同一时间只有一个线程在写
with open("log.csv", "a", newline="") as f:
writer = csv.writer(f)
writer.writerow([url, status])

别忘加延时和异常兜底，否则容易被反爬

多线程不等于“越快越好”。高频请求会触发目标网站的频率限制或验证码：

每个线程内请求后加 time.sleep(0.5)（根据目标调整）
统一捕获 requests.exceptions.RequestException，避免单个失败导致线程退出
设置合理的 timeout，防止某个 URL 卡死整个线程
考虑加 User-Agent 轮换、Session 复用，进一步降低被识别风险

什么时候别用 threading？

纯 CPU 密集型任务（如解析大量 JSON、计算哈希）用 threading 效果差，因为 CPython 有 GIL；此时应选 multiprocessing。而爬虫本质是 I/O 密集型，threading 正合适——等响应时线程挂起，CPU 可切去干别的。

如果需要更高并发或更优雅的协程支持，可后续升级到 asyncio + aiohttp，但 threading 入门快、逻辑直白，适合中小规模稳定采集。

Python中将元组列表高效转换为逗号分隔字符串的完整教程

如何在Python中将两个循环合并以基于前一个循环结果持续执行计算

Python如何做服务监控_监控指标设计

Python怎么自动整理桌面_按文件常见扩展名自动分类并移动整理到对应归档目录

如何用 NumPy 高效按标签分组拆分数组

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

455

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

334

2023.10.17

session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法：1、延长session的生存时间；2、使用持久化存储；3、使用cookie；4、异步更新session；5、使用会话管理中间件。

776

2023.10.18

cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容，阅读专题下面的文章了解更详细的内容。

2025.08.19

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

443

2023.07.18

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板