0

0

Puppeteer中.$eval()与.$$eval()的正确使用指南

花韻仙語

花韻仙語

发布时间:2025-12-04 11:43:20

|

361人浏览过

|

来源于php中文网

原创

puppeteer中.$eval()与.$$eval()的正确使用指南

本文深入探讨Puppeteer中`.$eval()`和`.$$eval()`这两种核心元素评估方法的区别与正确用法。我们将阐明它们在处理单个元素与多个元素时的行为差异,重点讲解`.$$eval()`回调函数接收数组参数时的处理策略,并通过实例代码演示如何有效利用这些方法进行网页数据抓取与自动化交互,包括模拟打字测试,并提供相关的最佳实践和注意事项。

理解.$eval()与.$$eval()的核心区别

在Puppeteer中,.$eval()和.$$eval()是用于在浏览器上下文中执行JavaScript代码的关键方法,它们允许我们对页面上的DOM元素进行评估和操作。尽管名称相似,但它们在处理目标元素数量和回调函数参数方面存在显著差异。

  • .$eval(selector, pageFunction, ...args): 这个方法用于选取第一个匹配selector的元素,并将其作为参数传递给pageFunction回调函数。如果找不到匹配的元素,则会抛出错误。它适用于只需要处理单个元素或第一个匹配元素的情况。

  • .$$eval(selector, pageFunction, ...args): 与.$eval()不同,.$$eval()会选取所有匹配selector的元素,并将这些元素的数组作为参数传递给pageFunction回调函数。如果找不到任何匹配元素,pageFunction将收到一个空数组。它适用于需要批量处理多个元素的情况。

关键差异点在于回调函数的参数类型:

  • .$eval()的回调函数接收的是单个DOM元素
  • .$$eval()的回调函数接收的是一个DOM元素数组

.$eval() 的基本用法

当我们需要从页面中提取特定元素的单个属性或执行单个操作时,.$eval()是理想选择。

示例:获取页面上第一个div元素的innerHTML。

const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto("https://example.com");

  // 等待 #words 元素出现
  const wordsSelector = await page.waitForSelector('#words');

  // 使用 .$eval 获取 #words 内部第一个 div 的 innerHTML
  const firstDivContent = await wordsSelector.$eval('div', element => element.innerHTML);
  console.log("第一个 div 的内容:", firstDivContent);

  await browser.close();
})();

在这个例子中,wordsSelector.$eval('div', ...)会找到#words元素内部的第一个div,并将该div元素作为element参数传递给回调函数。

.$$eval() 的正确用法与常见误区

初学者在使用.$$eval()时常犯的错误是,期望回调函数中的参数可以直接访问innerHTML或textContent,就像处理单个元素一样。然而,由于.$$eval()的回调函数接收的是一个元素数组,直接访问elements.innerHTML会导致undefined,因为数组本身没有innerHTML属性。

正确做法是遍历或映射这个元素数组,对每个元素进行操作。

触站AI
触站AI

专业的中文版AI绘画生成平台

下载

示例:获取#words内部所有.word元素的innerHTML。

const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();
  await page.goto("https://monkeytype.com/", { waitUntil: "domcontentloaded" });

  // 假设页面上有cookie同意弹窗,先点击拒绝
  try {
    const rejectAllButton = await page.waitForSelector(".rejectAll", { timeout: 5000 });
    if (rejectAllButton) {
      await rejectAllButton.click();
    }
  } catch (error) {
    console.log("未找到cookie拒绝按钮或已处理。");
  }

  // 等待 #words 元素出现
  const wordsEl = await page.waitForSelector('#words');

  // 使用 .$$eval 获取 #words 内部所有 .word 元素的 innerHTML
  // 注意:回调函数接收的是一个元素数组,需要使用 map 进行处理
  const allWordsContent = await wordsEl.$$eval('.word', elements =>
    elements.map(el => el.innerHTML)
  );
  console.log("所有单词的 HTML 内容:", allWordsContent);

  await browser.close();
})();

在这个修正后的例子中,elements是一个DOM元素数组。我们使用map方法遍历这个数组,对每个el(即每个.word元素)提取其innerHTML,最终得到一个包含所有单词HTML内容的数组。

选择innerHTML还是textContent?

在提取网页内容时,innerHTML和textContent是两个常用的属性,但它们的应用场景不同:

  • innerHTML: 返回元素的完整HTML内容,包括其子元素的标签和文本。如果你需要分析或保留元素的结构信息,innerHTML会很有用。
  • textContent: 返回元素的纯文本内容,不包含任何HTML标签。它会递归地获取所有子节点的文本内容,并连接起来。对于大多数数据抓取任务,尤其是需要获取用户可见文本时,textContent通常是更简洁和合适的选择。

建议: 如果你的目标是获取纯文本数据(例如,单词、段落),优先使用textContent。这可以避免处理不必要的HTML标签,使数据更干净。

进阶应用:模拟用户交互与自动化

.$eval()和.$$eval()结合Puppeteer的其他API,可以实现复杂的网页自动化任务。以下是一个模拟打字测试的完整示例,展示了如何获取当前活动单词并模拟键盘输入。

const puppeteer = require("puppeteer");

(async () => {
  let browser;
  try {
    browser = await puppeteer.launch({ headless: true }); // 设置 headless: false 可见浏览器操作
    const [page] = await browser.pages();

    // 启用请求拦截,提高性能和稳定性,只允许必要的资源加载
    await page.setRequestInterception(true);
    page.on('request', request => {
      const allowedUrls = [
        "https://monkeytype.com",
        "https://www.monkeytype.com",
        "https://api.monkeytype.com",
        "https://fonts.google.com", // 允许加载字体
      ];
      if (allowedUrls.some(url => request.url().startsWith(url))) {
        request.continue();
      } else {
        request.abort(); // 阻止不必要的请求
      }
    });

    await page.goto("https://monkeytype.com/", { waitUntil: "domcontentloaded" });

    // 处理Cookie同意弹窗
    try {
      const rejectAllButton = await page.waitForSelector(".rejectAll", { timeout: 5000 });
      if (rejectAllButton) {
        await rejectAllButton.click();
        console.log("已点击拒绝所有Cookie。");
      }
    } catch (error) {
      console.log("未找到Cookie拒绝按钮或已处理,继续执行。");
    }

    // 等待第一个活动单词出现
    await page.waitForSelector("#words .word.active");

    const wordsContainer = await page.$("#words"); // 获取单词容器元素

    // 循环模拟打字过程
    console.log("开始模拟打字...");
    for (let i = 0; i < 50; i++) { // 限制循环次数,避免无限循环
      try {
        // 使用 .$eval 获取当前活动单词的纯文本内容
        const activeWordText = await wordsContainer.$eval(".word.active", el =>
          el.textContent.trim() // 使用 textContent 获取纯文本并去除首尾空格
        );
        console.log(`正在输入: "${activeWordText}"`);
        // 模拟键盘输入单词,并在每个单词后输入一个空格
        await wordsContainer.type(activeWordText + " ");
      } catch (e) {
        // 如果找不到 .word.active 元素,说明打字可能已结束或出现异常
        console.log("未找到活动单词,可能已完成打字或发生错误。", e.message);
        break; // 退出循环
      }
      // 可以在此处添加短暂延迟,模拟更真实的用户输入速度
      // await page.waitForTimeout(50);
    }

    // 滚动到结果区域并截图
    const resultsElement = await page.$("#result");
    if (resultsElement) {
      await resultsElement.evaluate(el => el.scrollIntoView()); // 滚动到结果视图
      await resultsElement.screenshot({ path: "typing-results.png" });
      console.log("打字结果已保存到 typing-results.png");
    } else {
      console.log("未找到结果区域。");
    }

  } catch (error) {
    console.error("自动化过程中发生错误:", error);
  } finally {
    if (browser) {
      await browser.close();
      console.log("浏览器已关闭。");
    }
  }
})();

注意事项与最佳实践

  1. 错误处理: 在实际项目中,务必使用try...catch...finally块来捕获可能发生的错误,并确保浏览器在任何情况下都能正确关闭。
  2. 等待元素: 使用page.waitForSelector()或element.waitForSelector()是至关重要的。这可以确保在尝试操作元素之前,它们已经加载并呈现在DOM中,避免因元素未加载而导致的脚本失败。
  3. 请求拦截: page.setRequestInterception(true)并结合page.on('request', ...)可以有效控制页面加载的资源,提高自动化脚本的执行效率和稳定性,尤其是在处理资源密集型网站时。
  4. 纯文本提取: 优先使用textContent而不是innerHTML来获取元素的纯文本内容,除非你确实需要保留HTML结构。
  5. 循环限制: 在进行循环操作(如模拟打字)时,最好设置一个最大循环次数,以防止因页面状态异常而导致无限循环。
  6. 上下文: .$eval()和.$$eval()的回调函数是在浏览器页面的上下文中执行的,因此它们无法直接访问Node.js环境中的变量或函数。所有需要的数据都必须通过...args参数传递。

总结

.$eval()和.$$eval()是Puppeteer中强大且灵活的DOM元素评估工具。理解它们之间关于目标元素数量和回调函数参数的根本区别,是编写高效、健壮的Puppeteer脚本的关键。通过结合使用这些方法与其他Puppeteer API,开发者可以实现从简单的数据抓取到复杂的网页自动化交互的各种任务。遵循最佳实践,如错误处理、元素等待和请求拦截,将大大提高自动化脚本的稳定性和可靠性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

531

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

6230

2023.08.17

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号