0

0

使用 JSDOM 抓取网页时 NodeList 长度为 0 的问题及解决方案

花韻仙語

花韻仙語

发布时间:2025-11-16 09:20:22

|

422人浏览过

|

来源于php中文网

原创

使用 jsdom 抓取网页时 nodelist 长度为 0 的问题及解决方案

在使用 JSDOM 和 Axios 进行网页抓取时,有时会遇到使用 querySelectorAll 查询 <li> 元素时返回的 NodeList 长度为 0 的问题,即使页面上明明存在这些元素。这通常是由于目标网站的特殊机制,例如首次请求时服务器不返回完整的内容,或者依赖于 cookies 或缓存等。本教程将深入探讨这个问题,并提供一种使用 Puppeteer 解决该问题的方案,确保能够正确抓取到目标元素。

问题分析

当使用 JSDOM 和 Axios 抓取网页时,你可能会遇到以下情况:

  1. 通过 querySelector 成功获取到 <ul> 元素。
  2. ulist.childElementCount 返回 1,表示 <ul> 元素下只有一个子元素。
  3. 使用 querySelectorAll('li') 查询 <li> 元素时,返回的 NodeList 长度为 0。

这种现象表明,目标网站可能存在一些特殊的机制,导致 JSDOM 在首次请求时无法获取到完整的 DOM 结构。可能的原因包括:

  • 服务器端动态渲染: 网站可能使用 JavaScript 在客户端动态生成 <li> 元素,而 JSDOM 在首次请求时可能无法执行这些 JavaScript 代码。
  • Cookies 或缓存依赖: 网站可能依赖于 cookies 或缓存来确定是否返回完整的 HTML 内容。首次请求时,由于缺少 cookies 或缓存,服务器可能只返回部分 HTML。
  • 反爬虫机制: 网站可能存在一些简单的反爬虫机制,例如根据 User-Agent 判断请求是否来自爬虫,并返回不同的内容。

解决方案:使用 Puppeteer

Puppeteer 是一个 Node.js 库,它提供了一个高级 API 来控制 Chrome 或 Chromium。与 JSDOM 不同,Puppeteer 可以执行 JavaScript 代码,并模拟用户的完整浏览行为,包括处理 cookies、缓存和执行 JavaScript 渲染。

闪念贝壳
闪念贝壳

闪念贝壳是一款AI 驱动的智能语音笔记,随时随地用语音记录你的每一个想法。

下载

以下是使用 Puppeteer 解决该问题的示例代码:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({ headless: true }); // 启动无头浏览器
  const page = await browser.newPage(); // 创建新的页面

  // 访问首页,解决可能的缓存或 Cookie 问题
  await page.goto('http://example.com'); 

  // 访问目标页面
  await page.goto('https://example.com/targetpage');

  // 等待 #download-options li 元素加载完成,确保页面渲染完成
  await page.waitForSelector('#download-options li');

  // 获取 ul 元素
  const ul = await page.$("#download-options ul");

  // 获取所有的 li 元素
  const lis = await ul.$$("li");

  // 循环遍历 li 元素,获取 href 属性值
  for await (const li of lis) {
    const a = await li.$('a');
    const hrefValue = await a.evaluate((el) => el.getAttribute('href'));
    console.log(hrefValue);
  }

  // 关闭浏览器
  await browser.close();
})();

代码解释:

  1. puppeteer.launch({ headless: true }): 启动一个无头浏览器,headless: true 表示在后台运行,不显示浏览器界面。
  2. page.goto('http://example.com'): 首先访问网站的首页。这步很重要,因为有些网站的行为会依赖于是否已经访问过首页,例如设置 cookies 或者初始化某些状态。
  3. page.goto('https://example.com/targetpage'): 访问目标页面。
  4. page.waitForSelector('#download-options li'): 等待 #download-options li 元素加载完成。这可以确保页面上的 JavaScript 代码已经执行完毕,并且 <li> 元素已经渲染到 DOM 中。
  5. page.$("#download-options ul"): 使用 CSS 选择器获取 <ul> 元素。
  6. ul.$$("li"): 在 <ul> 元素下使用 CSS 选择器获取所有的 <li> 元素。 $$ 相当于 querySelectorAll。
  7. a.evaluate((el) => el.getAttribute('href')): 使用 evaluate 方法在浏览器环境中执行 JavaScript 代码,获取 <a> 元素的 href 属性值。

注意事项:

  • 确保已安装 Puppeteer: npm install puppeteer
  • headless: true 可以在后台运行浏览器,如果需要查看浏览器界面,可以将其设置为 false。
  • page.waitForSelector 用于等待元素加载完成,可以根据实际情况调整选择器和等待时间。
  • Puppeteer 消耗资源较多,建议在使用完毕后关闭浏览器。

总结

当使用 JSDOM 无法正确抓取网页内容时,可以考虑使用 Puppeteer。Puppeteer 可以模拟用户的完整浏览行为,执行 JavaScript 代码,并处理 cookies 和缓存,从而解决 JSDOM 无法获取完整 DOM 结构的问题。通过访问首页并等待元素加载完成,可以确保 Puppeteer 能够正确抓取到目标元素。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1066

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

845

2023.11.06

go语言goto的用法
go语言goto的用法

本专题整合了go语言goto的用法,阅读专题下面的文章了解更多详细内容。

138

2025.09.05

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

531

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

6259

2023.08.17

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

493

2023.09.01

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 43.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号