Python Scrapy项目结构解析_items/pipelines/middlewares/settings各文件作用

P粉602998670

发布时间：2026-03-13 15:14:31

705人浏览过

来源于php中文网

原创

items.py只定义数据结构，用scrapy.Item和Field声明字段，不放清洗逻辑；pipelines需在settings启用且process_item须返回item或DropItem；middleware中process_response可能多次触发；ROBOTSTXT_OBEY=True时robots.txt失败会阻塞全部抓取。

python scrapy项目结构解析_items/pipelines/middlewares/settings各文件作用

scrapy项目里`items.py`到底该放什么

它只负责定义数据结构，不是存数据的地方，也不是做清洗逻辑的位置。很多人往里塞def clean_*方法，结果发现根本不会被自动调用。

实操建议：

立即学习“Python免费学习笔记（深入）”；

items.py里只用scrapy.Item和scrapy.Field声明字段，比如title = scrapy.Field()
字段名尽量和目标网站字段对齐，别用article_title这种带前缀的——后续写pipelines时会更顺
不要在Field里传default值，尤其是可变对象（如list），容易多个item实例共享同一份内存
如果字段有类型约束或校验需求，留到pipelines.py里统一处理，别在items.py里加__init__或__setattr__

为什么`pipelines.py`里的`process_item`有时不执行

最常见原因是没在settings.py里启用——Scrapy默认不激活任何pipeline，哪怕文件存在也完全无视。

实操建议：

立即学习“Python免费学习笔记（深入）”；

检查settings.py中是否有ITEM_PIPELINES配置，且值是字典，例如：ITEM_PIPELINES = {'myproject.pipelines.MyPipeline': 300}
数字代表执行顺序，越小越靠前；两个pipeline之间差值建议≥10，避免改一个影响另一个的序号
process_item必须返回item或抛出DropItem异常，返回None会导致后续pipeline跳过、日志也不报错
如果用了Twisted异步操作（比如发HTTP请求），不能直接return，得用defer.returnValue()或async/await（需Scrapy 2.0+）

`middlewares.py`里`process_request`和`process_response`的触发时机差异

前者只对发出的每个Request生效一次，后者则可能被多次调用——尤其遇到重定向、重试时，同一个Response可能经过不同middleware链路。

零沫AI工具导航

零沫AI工具导航-AI导航新标杆,探索全球实用AI工具

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

别在process_request里修改request.meta后就假设它全局可见；中间件顺序会影响meta是否被后续中间件读取
process_response收到的response不一定是最终页面内容：可能是403、重定向响应、甚至空响应体，务必先检查response.status和response.body
如果想给所有请求加Header，优先用DEFAULT_REQUEST_HEADERS配置，而不是在middleware里重复写request.headers.update(...)
自定义User-Agent轮换必须在process_request里做，但注意别覆盖掉spider自己设置的custom_settings['DEFAULT_REQUEST_HEADERS']

`settings.py`中`ROBOTSTXT_OBEY`和`CONCURRENT_REQUESTS`的真实影响

前者不只是“要不要看robots.txt”，它会阻塞整个start_urls的初始请求队列；后者也不是简单控制并发数，它和DOWNLOAD_DELAY、AUTOTHROTTLE_ENABLED共同决定实际发包节奏。

实操建议：

立即学习“Python免费学习笔记（深入）”；

ROBOTSTXT_OBEY = True时，如果目标站robots.txt无法访问（超时/404/503），Scrapy默认会放弃全部抓取——调试阶段建议关掉
CONCURRENT_REQUESTS = 16在单机上未必能打满，受制于DNS解析、TCP连接池、甚至系统文件描述符限制；观察scrapy stats里的downloader/request_count比看这个数字更准
设了DOWNLOAD_DELAY = 1后，并发数再高也没用：Scrapy会强制串行化请求，每秒最多1个
本地调试时，把RETRY_TIMES调低（比如1），避免因网络抖动反复重试拖慢开发反馈

真正难的是组合配置之间的隐式耦合——比如开了AUTOTHROTTLE_ENABLED又设了DOWNLOAD_DELAY，后者会被动态覆盖，但日志里不会明说。调参前最好先跑一次scrapy crawl myspider -s LOG_LEVEL=INFO看真实调度行为。

Python环境变量怎么配置_Path路径设置与常见报错解决方法

使用 PyPDF 合并多份 PDF 的页面为单页网格布局

Tkinter 屏幕录制器：正确实现启动与停止功能的面向对象教程

Python中按空白单元格分组求和：高效实现Excel类似累计汇总

Python Flask怎么做WebSocket_Flask-SocketIO事件驱动实现双向低延迟实时聊天通信

相关专题

什么是中间件

中间件是一种软件组件，充当不兼容组件之间的桥梁，提供额外服务，例如集成异构系统、提供常用服务、提高应用程序性能，以及简化应用程序开发。想了解更多中间件的相关内容，可以阅读本专题下面的文章。

183

2024.05.11

Golang 中间件开发与微服务架构

本专题系统讲解 Golang 在微服务架构中的中间件开发，包括日志处理、限流与熔断、认证与授权、服务监控、API 网关设计等常见中间件功能的实现。通过实战项目，帮助开发者理解如何使用 Go 编写高效、可扩展的中间件组件，并在微服务环境中进行灵活部署与管理。

226

2025.12.18

免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

790

2023.11.10

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06