0

0

Puppeteer 爬虫中浏览器意外关闭的排查与正确数据提取实践

心靈之曲

心靈之曲

发布时间:2026-03-04 18:45:31

|

941人浏览过

|

来源于php中文网

原创

Puppeteer 爬虫中浏览器意外关闭的排查与正确数据提取实践

本文详解 Puppeteer 脚本因误用 waitForSelector 返回单元素导致后续循环报错、进而引发未捕获异常和浏览器非预期关闭的问题,并提供基于 $$eval 的高效、健壮数据提取方案。

本文详解 puppeteer 脚本因误用 `waitforselector` 返回单元素导致后续循环报错、进而引发未捕获异常和浏览器非预期关闭的问题,并提供基于 `$$eval` 的高效、健壮数据提取方案。

在使用 Puppeteer 进行网页数据抓取时,一个常见却隐蔽的错误是混淆了 单元素选择器多元素选择器 的行为差异。你提供的代码中,await page.waitForSelector(".Ip") 仅返回第一个匹配的 ElementHandle(即单个 DOM 元素),而非元素数组。因此,后续尝试对 elements.length 进行遍历(for (let i = 0; i

更关键的是,elements[i].$(".Ip") 在逻辑上也存在根本性错误:.Ip 是顶层比赛项的选择器,其内部并不存在嵌套的 .Ip 子元素;试图在已获取的 .Ip 元素内再次查找 .Ip,必然返回 null,进一步加剧执行失败。

✅ 正确做法是:使用批量查询 + 浏览器上下文内执行($$eval),一次性安全提取所有目标数据,避免反复跨进程通信与 ElementHandle 操作:

云雀语言模型
云雀语言模型

云雀是一款由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效的完成互动对话

下载
const puppeteer = require("puppeteer");

async function scrapeLiveScores() {
  let browser;
  try {
    browser = await puppeteer.launch({ headless: true });
    const page = await browser.newPage();
    await page.setViewport({ width: 1000, height: 926 });
    await page.goto("https://www.livescore.com/en/", { 
      waitUntil: "domcontentloaded" 
    });

    // ✅ 安全处理 Cookie 弹窗:无需判空,超时自动报错更利于调试
    const cookieBtn = await page.waitForSelector('#onetrust-accept-btn-handler', { 
      timeout: 5000 
    });
    await cookieBtn.click();
    await page.waitForTimeout(800); // 短暂等待动画/状态更新(可选)

    // ✅ 使用 $$eval 批量提取:在页面上下文中执行 map,高效且健壮
    const matches = await page.$$eval(".Ip", els => 
      els.map(el => {
        const getText = (selector) => {
          const node = el.querySelector(selector);
          return node ? node.textContent.trim() : "";
        };
        return {
          time: getText("[id*='status-or-time']"),
          homeTeam: getText("[id*='home-team-name']"),
          awayTeam: getText("[id*='away-team-name']"),
          homeScore: getText("[id*='home-team-score']") || "0",
          awayScore: getText("[id*='away-team-score']") || "0"
        };
      })
    );

    console.log("✅ 成功抓取", matches.length, "场比赛数据:");
    console.log(matches.slice(0, 3)); // 仅打印前3条示例
    return matches;

  } catch (err) {
    console.error("❌ 抓取过程出错:", err.message);
    throw err;
  } finally {
    if (browser) await browser.close(); // ✅ 确保浏览器终将关闭
  }
}

// 启动入口
scrapeLiveScores().catch(console.error);

? 关键优化与注意事项:

  • 弃用 waitForSelector + ElementHandle 循环:waitForSelector 仅返回单元素;如需多元素,请改用 $$(返回元素数组)或更推荐的 $$eval(直接在浏览器端执行提取逻辑,性能高、容错强)。
  • Cookie 按钮处理无需防御性判空:waitForSelector 本身具备超时机制,失败即抛错,显式检查 if (button) 反而掩盖真实问题;建议统一配置 timeout 参数提升可观测性。
  • 避免 ElementHandle 链式调用:el.$(...) 和 el.evaluate(...) 属于跨进程操作,开销大且易因 DOM 变更失效;$$eval 将全部逻辑移至浏览器端执行,既简洁又可靠。
  • 资源清理必须兜底:始终在 finally 块中调用 browser.close(),防止因异常导致浏览器实例残留。
  • 增强健壮性:为 page.goto 指定 waitUntil: "domcontentloaded",确保 HTML 解析完成再继续;对可能为空的文本节点添加 || "" 默认值,避免 undefined 污染结果。

遵循以上实践,你的 Puppeteer 脚本将不再因低级选择器误用而崩溃,同时获得更清晰的错误定位能力、更高的执行效率以及更稳定的生产表现。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

252

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1008

2024.03.01

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

839

2023.08.22

cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6493

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

366

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

440

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

go语言goto的用法
go语言goto的用法

本专题整合了go语言goto的用法,阅读专题下面的文章了解更多详细内容。

138

2025.09.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

4

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
如何进行WebSocket调试
如何进行WebSocket调试

共1课时 | 0.1万人学习

TypeScript全面解读课程
TypeScript全面解读课程

共26课时 | 5.1万人学习

前端工程化(ES6模块化和webpack打包)
前端工程化(ES6模块化和webpack打包)

共24课时 | 5.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号