0

0

Scrapy CSS选择器失效:深入理解浏览器与爬虫获取HTML内容的差异

花韻仙語

花韻仙語

发布时间:2025-11-12 13:26:26

|

893人浏览过

|

来源于php中文网

原创

Scrapy CSS选择器失效:深入理解浏览器与爬虫获取HTML内容的差异

在使用scrapy进行网页抓取时,开发者常常会遇到一个令人困惑的问题:精心调试的css选择器在浏览器开发者工具中能够准确匹配元素,但在scrapy爬取时却一无所获。这通常并非选择器本身有误,而是scrapy所见的网页内容与用户在浏览器中看到的内容存在本质差异。本文将深入探讨这一现象的原因,并提供实用的方法来验证scrapy实际获取的html,从而有效解决此类问题。

1. 问题现象:CSS选择器在Scrapy中失效

考虑一个典型的场景:你正在爬取两个结构相似的页面,例如https://dicionario.priberam.org/putear和https://dicionario.priberam.org/puteares。你使用了一个CSS选择器,例如div.dp-conteudo__esquerda span.varpb,期望从中提取特定的文本。在第一个页面上,该选择器成功返回了结果,但在第二个页面上,它却返回空值。

初步检查页面源代码可能会发现,第二个页面上确实存在一个带有varpb类的span标签,甚至可能出现在不同的父级元素下,但无论如何,Scrapy似乎都无法找到它。这种不一致性让开发者感到困惑,因为理论上,只要元素存在于HTML中,选择器就应该能够匹配。

2. 根本原因:浏览器与Scrapy获取内容的差异

问题的核心在于浏览器和Scrapy处理网页内容的方式不同。

  • 浏览器行为: 当你在浏览器中访问一个网页时,浏览器不仅会下载初始HTML文档,还会解析并执行其中包含的JavaScript代码。这些JavaScript代码可能会动态地修改DOM结构、从服务器请求额外的数据(例如通过AJAX),然后将这些数据插入到页面中。因此,你在浏览器开发者工具中看到的“源代码”实际上是经过JavaScript处理和渲染后的最终DOM结构。
  • Scrapy行为: Scrapy(以及大多数传统的网络爬虫)默认情况下只负责下载服务器返回的原始HTML响应。它不会执行JavaScript代码,也不会渲染页面。这意味着,如果网页的某些内容是通过JavaScript动态加载或生成的,那么这些内容将不会出现在Scrapy获取的原始HTML中。

回到我们的例子,第二个页面https://dicionario.priberam.org/puteares上的目标span.varpb元素很可能就是通过JavaScript在页面加载完成后动态添加到DOM中的。由于Scrapy不执行JavaScript,它在抓取时就无法“看到”这个动态添加的元素,因此选择器自然会失效。而第一个页面https://dicionario.priberam.org/putear上的相应元素可能直接包含在初始HTML中,所以Scrapy能够成功获取。

立即学习前端免费学习笔记(深入)”;

3. 验证Scrapy所见内容的最佳实践

理解了原因之后,解决问题的关键就是确保你的CSS选择器是基于Scrapy实际获取到的HTML内容来编写的。以下是两种验证Scrapy所见内容的方法:

3.1 使用Scrapy Shell的view(response)命令

Scrapy Shell是一个强大的交互式环境,允许你在不运行整个爬虫的情况下测试代码和检查响应。view(response)命令可以让你在浏览器中打开Scrapy当前处理的response对象所包含的HTML内容。这能直观地展示Scrapy到底“看到了”什么。

操作步骤:

  1. 在终端中启动Scrapy Shell并fetch目标URL:
    scrapy shell 'https://dicionario.priberam.org/puteares'
  2. 在Scrapy Shell中,执行view(response):
    In [1]: view(response)

    这会打开一个新的浏览器窗口,显示Scrapy抓取到的原始HTML。你可以使用浏览器开发者工具检查这个页面,看看目标元素是否真的存在。

    吐槽大师
    吐槽大师

    吐槽大师(Roast Master) - 终极 AI 吐槽生成器,适用于 Instagram,Facebook,Twitter,Threads 和 Linkedin

    下载

3.2 将response.text保存到本地文件

另一种更直接、更方便离线分析的方法是将Scrapy获取到的原始HTML内容保存到一个本地文件。

操作步骤:

  1. 在Scrapy Shell中fetch目标URL:

    In [2]: fetch('https://dicionario.priberam.org/putear')
    2023-12-28 00:22:01 [scrapy.core.engine] INFO: Spider opened
    2023-12-28 00:22:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://dicionario.priberam.org/putear> (referer: None)
  2. 将response.text写入一个本地HTML文件:

    In [3]: with open('putear.html', 'wt', encoding='utf8') as fd:
       ...:     fd.write(response.text)
       ...:
  3. 对第二个页面重复上述步骤:

    In [4]: fetch('https://dicionario.priberam.org/puteares')
    2023-12-28 00:23:09 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://dicionario.priberam.org/puteares> (referer: None)
    
    In [5]: with open('puteares.html', 'wt', encoding='utf8') as fd:
       ...:     fd.write(response.text)
       ...:
  4. 现在,你可以在本地文件系统找到putear.html和puteares.html这两个文件。用任何文本编辑器或浏览器打开它们,检查它们的源代码。你会发现,在puteares.html中,你期望的div.dp-conteudo__esquerda span.varpb结构很可能是不存在的,或者span.varpb元素位于完全不同的位置,导致你的原始选择器失效。

4. 总结与注意事项

  • 始终验证Scrapy所见: 当CSS选择器在浏览器中有效但在Scrapy中失效时,第一步也是最重要的一步就是验证Scrapy实际获取的HTML内容。这能帮助你区分是选择器错误还是内容动态加载的问题。
  • 动态内容处理: 如果确认目标内容是通过JavaScript动态加载的,传统的Scrapy爬虫将无法直接获取。在这种情况下,你需要考虑使用能够执行JavaScript的工具,例如:
    • Scrapy Splash: 一个轻量级的JavaScript渲染服务,可以与Scrapy集成。
    • Selenium/Playwright: 浏览器自动化工具,可以模拟用户行为,等待页面加载完成并获取渲染后的HTML。
  • 选择器优化: 如果目标元素存在于Scrapy获取的HTML中,但只是位置与浏览器中看到的略有不同,那么你需要根据Scrapy实际获取的HTML结构来调整你的CSS选择器。
  • 优先级: 在调试Scrapy选择器时,优先使用response.css()或response.xpath()进行测试,而不是完全依赖浏览器开发者工具中的选择器结果,因为它们所操作的DOM可能不同。

通过理解Scrapy与浏览器在处理动态内容上的差异,并利用上述验证方法,你将能更有效地调试和开发你的Scrapy爬虫,从而避免因HTML内容不一致而导致的抓取失败。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ajax教程
ajax教程

php中文网为大家带来ajax教程合集,Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

166

2023.06.14

ajax中文乱码解决方法
ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容,供大家免费下载体验。

170

2023.08.31

ajax传递中文乱码怎么办
ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法:1、设置统一的编码方式;2、服务器端编码;3、客户端解码;4、设置HTTP响应头;5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

124

2023.11.15

ajax网站有哪些
ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

260

2024.09.24

免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

790

2023.11.10

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4345

2024.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2916

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

67

2025.12.13

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号