0

0

Puppeteer 数据抓取中定位嵌套结构元素的 CSS 选择器正确写法

心靈之曲

心靈之曲

发布时间:2026-03-08 14:16:03

|

435人浏览过

|

来源于php中文网

原创

Puppeteer 数据抓取中定位嵌套结构元素的 CSS 选择器正确写法

本文详解如何在 Puppeteer 中精准定位 HTML 中跨层级嵌套的文本节点,重点解决因父容器误判导致的 querySelector 失败问题,并提供两种鲁棒性强、可维护性高的选择器策略。

本文详解如何在 puppeteer 中精准定位 html 中跨层级嵌套的文本节点,重点解决因父容器误判导致的 `queryselector` 失败问题,并提供两种鲁棒性强、可维护性高的选择器策略。

在使用 Puppeteer 进行结构化数据抓取时,一个常见误区是:将子元素的选择范围错误地限定在某个中间容器内,而忽略了目标节点实际位于同级但不同分支的 DOM 节点中。您提供的代码中,amount 字段(如 "3 st")位于

const storesData = await page.$$eval('.css-4od5c4', buttons => 
  buttons.map(button => {
    const getText = selector => 
      button.querySelector(selector)?.textContent?.trim() ?? 'no value';

    return {
      address: getText('.css-iqfm9l:nth-of-type(1)'), // 第一个 .css-iqfm9l(地址)
      city: getText('.css-1cwtvfm'),                  // 城市
      amount: getText('.css-177ui4i .css-iqfm9l'),    // 第二个 div 下的同名 class
    };
  })
);

? 关键改进点:

  • 使用 page.$$eval() 直接遍历所有 .css-4od5c4 按钮,避免手动 Array.from(document.querySelectorAll(...));
  • 所有 querySelector 均以 button 为上下文,确保能跨子 div 查找;
  • 封装 getText() 工具函数提升可读性与容错性(自动处理 null 并提供默认值)。

? 替代方案:基于顺序的稳健提取(适用于 class 不稳定场景)

若 CSS 类名动态生成或存在重复干扰(如多个 .css-iqfm9l 出现在同一按钮中),可改用 DOM 结构顺序定位:

立即学习前端免费学习笔记(深入)”;

Boba.video
Boba.video

AI动漫视频生成器

下载
const storesData = await page.$$eval('.css-4od5c4', buttons =>
  buttons.map(button => {
    const paragraphs = [...button.querySelectorAll('p')].map(p => p.textContent.trim());
    return {
      address: paragraphs[0] || 'no value',   // Sisjön / random address...
      city: paragraphs[1] || 'no value',      // Askim / some city...
      amount: paragraphs[3] || 'no value',    // "3 st" — 注意:跳过 <div class="css-7omsg3"> 中的 "Välj butik"
    };
  })
);

✅ 该方式不依赖 class 名,仅依赖

标签在按钮内的固定顺序,适合反爬强度较高、class 频繁变更的站点。

⚠️ 注意事项与最佳实践

  • 避免 setTimeout 等待硬编码延时:await new Promise(setTimeout(...)) 不可靠且低效。应改用 page.waitForSelector('.css-177ui4i .css-iqfm9l') 显式等待目标元素出现;
  • 警惕 class 名重复性:.css-iqfm9l 同时用于地址和库存数量,直接全局匹配会取到第一个(地址)。务必结合父容器限定作用域;
  • 启用严格选择器校验:在开发阶段添加断言,例如:
    console.assert(button.querySelector('.css-177ui4i .css-iqfm9l'), 
      '⚠️ Amount element missing in button:', button.outerHTML.slice(0, 120));
  • 考虑使用 data-testid 或语义化属性:若可影响前端,建议推动添加 data-store-address、data-store-stock 等属性,大幅提升抓取稳定性。

通过以上调整,您将获得预期的结构化结果:

[
  { "address": "Sisjön", "city": "Askim", "amount": "3 st" },
  { "address": "random address...", "city": "some city...", "amount": "3 st" }
]

掌握“以记录容器为锚点 + 相对路径定位”的思维模式,是写出健壮 Puppeteer 抓取逻辑的核心能力。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

253

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1049

2024.03.01

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

809

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

28

2025.12.06

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4249

2024.08.14

promise的用法
promise的用法

“promise” 是一种用于处理异步操作的编程概念,它可以用来表示一个异步操作的最终结果。Promise 对象有三种状态:pending(进行中)、fulfilled(已成功)和 rejected(已失败)。Promise的用法主要包括构造函数、实例方法(then、catch、finally)和状态转换。

334

2023.10.12

html文本框类型介绍
html文本框类型介绍

html文本框类型有单行文本框、密码文本框、数字文本框、日期文本框、时间文本框、文件上传文本框、多行文本框等等。详细介绍:1、单行文本框是最常见的文本框类型,用于接受单行文本输入,用户可以在文本框中输入任意文本,例如用户名、密码、电子邮件地址等;2、密码文本框用于接受密码输入,用户在输入密码时,文本框中的内容会被隐藏,以保护用户的隐私;3、数字文本框等等。

427

2023.10.12

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

44

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

111

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

相关下载

更多

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.5万人学习

CSS教程
CSS教程

共754课时 | 40.8万人学习

最新文章

更多
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号