Python爬虫怎样设置爬取延时_Python爬虫控制访问频率避免被封的延时设置

看不見的法師

发布时间：2025-11-06 21:55:01

630人浏览过

来源于php中文网

原创

合理设置爬取延时可有效避免IP被封，通过time.sleep()实现固定或随机延时，结合User-Agent、Session及Scrapy的自动限速配置，模拟人类行为降低反爬风险。

python爬虫怎样设置爬取延时_python爬虫控制访问频率避免被封的延时设置

在使用Python编写爬虫时，频繁请求目标网站容易触发反爬机制，导致IP被封禁。为了避免这种情况，合理设置爬取延时、控制访问频率是关键措施之一。通过引入时间间隔，让爬虫行为更接近人类操作，能有效降低被识别为自动化程序的风险。

使用time.sleep()进行基础延时

最简单直接的延时方式是使用Python内置的time.sleep()函数，在每次请求之间暂停一段时间。

示例：

import requests
import time
<p>urls = ['<a href="https://www.php.cn/link/a306a13c6c1ee387390fdc96c7bdca66">https://www.php.cn/link/a306a13c6c1ee387390fdc96c7bdca66</a>', '<a href="https://www.php.cn/link/922a7fd3b1c537453af87329140dcfb2">https://www.php.cn/link/922a7fd3b1c537453af87329140dcfb2</a>']
for url in urls:
response = requests.get(url)</p><h1>处理响应</h1><pre class='brush:python;toolbar:false;'>print(f"已抓取: {url}")
time.sleep(2)  # 每次请求后等待2秒

这种固定延时适用于大多数普通场景，一般建议设置在1~3秒之间，避免对服务器造成压力。

立即学习“Python免费学习笔记（深入）”；

使用随机延时模拟人类行为

固定间隔仍可能被识别为机器行为。采用随机延时能更真实地模拟用户浏览习惯。

结合random模块实现动态等待：

import time
import random
<h1>随机等待1到3秒</h1><p>time.sleep(random.uniform(1, 3))</p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/1763" title="Khroma"><img
                                                                                src="https://img.php.cn/upload/ai_manual/000/969/633/68b6ceddca9b1981.png" alt="Khroma"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/1763" title="Khroma">Khroma</a>
                                                                        <p>AI调色盘生成工具</p>
                                                                </div>
                                                                <a href="/ai/1763" title="Khroma" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div>

也可使用randint或triangular等方法调整分布，使间隔更具自然波动。

结合请求框架的高级控制（如Scrapy）

若使用Scrapy框架，可通过配置项自动管理下载延迟：

在settings.py中添加：

# 开启自动限速
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1
AUTOTHROTTLE_MAX_DELAY = 5
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
<h1>或手动设置固定延迟</h1><p>DOWNLOAD_DELAY = 2
RANDOMIZE_DOWNLOAD_DELAY = True
CONCURRENT_REQUESTS_PER_DOMAIN = 2</p>

这些设置能让Scrapy根据服务器响应自动调节请求频率，更加智能和安全。

使用Session与请求头配合延时策略

除了时间控制，搭配合理的请求头和会话管理也能提升稳定性：

设置User-Agent模拟浏览器访问
使用Session保持连接复用，减少开销
结合延时策略，整体请求更接近正常用户行为

示例：

session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0 ...'})
<p>for url in urls:
response = session.get(url)
time.sleep(random.uniform(1.5, 3.5))</p>

基本上就这些。合理设置延时不只是加个sleep，而是结合随机性、请求头、并发控制等多方面协调。既能保护目标服务器，也能提高爬虫的长期可用性。不复杂但容易忽略细节。

Python 中按时间戳保留每篇文章最新操作记录的去重方法

Python 用户输入空格处理与健壮性错误控制完整指南

如何优雅处理用户输入中的空格与错误？

如何健壮处理用户输入中的空白字符与错误输入

如何将 Python 脚本打包为独立可执行文件（.exe）并构建用户友好的界面

相关专题

免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

790

2023.11.10

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

336

2023.10.17

session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法：1、延长session的生存时间；2、使用持久化存储；3、使用cookie；4、异步更新session；5、使用会话管理中间件。

776

2023.10.18

cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容，阅读专题下面的文章了解更详细的内容。

2025.08.19

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

272

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板