items.py只定义数据结构,用scrapy.Item和Field声明字段,不放清洗逻辑;pipelines需在settings启用且process_item须返回item或DropItem;middleware中process_response可能多次触发;ROBOTSTXT_OBEY=True时robots.txt失败会阻塞全部抓取。

scrapy项目里items.py到底该放什么
它只负责定义数据结构,不是存数据的地方,也不是做清洗逻辑的位置。很多人往里塞def clean_*方法,结果发现根本不会被自动调用。
实操建议:
立即学习“Python免费学习笔记(深入)”;
-
items.py里只用scrapy.Item和scrapy.Field声明字段,比如title = scrapy.Field() - 字段名尽量和目标网站字段对齐,别用
article_title这种带前缀的——后续写pipelines时会更顺 - 不要在
Field里传default值,尤其是可变对象(如list),容易多个item实例共享同一份内存 - 如果字段有类型约束或校验需求,留到
pipelines.py里统一处理,别在items.py里加__init__或__setattr__
为什么pipelines.py里的process_item有时不执行
最常见原因是没在settings.py里启用——Scrapy默认不激活任何pipeline,哪怕文件存在也完全无视。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 检查
settings.py中是否有ITEM_PIPELINES配置,且值是字典,例如:ITEM_PIPELINES = {'myproject.pipelines.MyPipeline': 300} - 数字代表执行顺序,越小越靠前;两个pipeline之间差值建议≥10,避免改一个影响另一个的序号
-
process_item必须返回item或抛出DropItem异常,返回None会导致后续pipeline跳过、日志也不报错 - 如果用了
Twisted异步操作(比如发HTTP请求),不能直接return,得用defer.returnValue()或async/await(需Scrapy 2.0+)
middlewares.py里process_request和process_response的触发时机差异
前者只对发出的每个Request生效一次,后者则可能被多次调用——尤其遇到重定向、重试时,同一个Response可能经过不同middleware链路。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 别在
process_request里修改request.meta后就假设它全局可见;中间件顺序会影响meta是否被后续中间件读取 -
process_response收到的response不一定是最终页面内容:可能是403、重定向响应、甚至空响应体,务必先检查response.status和response.body - 如果想给所有请求加Header,优先用
DEFAULT_REQUEST_HEADERS配置,而不是在middleware里重复写request.headers.update(...) - 自定义User-Agent轮换必须在
process_request里做,但注意别覆盖掉spider自己设置的custom_settings['DEFAULT_REQUEST_HEADERS']
settings.py中ROBOTSTXT_OBEY和CONCURRENT_REQUESTS的真实影响
前者不只是“要不要看robots.txt”,它会阻塞整个start_urls的初始请求队列;后者也不是简单控制并发数,它和DOWNLOAD_DELAY、AUTOTHROTTLE_ENABLED共同决定实际发包节奏。
实操建议:
立即学习“Python免费学习笔记(深入)”;
-
ROBOTSTXT_OBEY = True时,如果目标站robots.txt无法访问(超时/404/503),Scrapy默认会放弃全部抓取——调试阶段建议关掉 -
CONCURRENT_REQUESTS = 16在单机上未必能打满,受制于DNS解析、TCP连接池、甚至系统文件描述符限制;观察scrapy stats里的downloader/request_count比看这个数字更准 - 设了
DOWNLOAD_DELAY = 1后,并发数再高也没用:Scrapy会强制串行化请求,每秒最多1个 - 本地调试时,把
RETRY_TIMES调低(比如1),避免因网络抖动反复重试拖慢开发反馈
真正难的是组合配置之间的隐式耦合——比如开了AUTOTHROTTLE_ENABLED又设了DOWNLOAD_DELAY,后者会被动态覆盖,但日志里不会明说。调参前最好先跑一次scrapy crawl myspider -s LOG_LEVEL=INFO看真实调度行为。










