0

0

JavaScript爬虫开发_Puppeteer自动化测试

狼影

狼影

发布时间:2025-11-21 22:36:45

|

708人浏览过

|

来源于php中文网

原创

Puppeteer是一个Node.js库,由Google开发,提供API通过DevTools协议控制Chrome或Chromium,可启动真实浏览器实例模拟用户操作,适用于抓取SPA、模拟登录、生成截图/PDF、性能监控等场景;相比传统请求库,它能获取JavaScript动态渲染内容;安装后可通过puppeteer.launch()启动浏览器,结合page.goto()、page.evaluate()等方法实现页面交互,常用技巧包括设置User-Agent、模拟滚动、请求拦截和Cookie复用;此外还广泛用于E2E测试,支持自动化表单提交与流程验证,可集成至CI/CD,具备调试友好、结果可靠等优势,是处理动态网页的首选工具,但需注意遵守网站爬虫规则。

javascript爬虫开发_puppeteer自动化测试

JavaScript爬虫开发中,Puppeteer 是一个非常强大的工具,尤其适合需要处理动态渲染内容的网页。它由 Google 开发,是一个 Node.js 库,提供了一套高层 API 来通过 DevTools 协议控制 Chrome 或 Chromium 浏览器。虽然 Puppeteer 最初用于自动化测试,但它在网页抓取、截图、PDF 生成、性能监控等方面也广泛应用。

什么是 Puppeteer?

Puppeteer 启动一个真实的 Chromium 浏览器实例,可以完全模拟用户操作:打开页面、点击按钮、填写表单、滚动、等待异步加载等。这使得它能轻松获取由 JavaScript 动态生成的内容,而这是传统请求库(如 axios、node-fetch)无法做到的。

常用场景包括:
  • 抓取 SPA(单页应用)内容,比如 React、Vue 构建的网站
  • 模拟登录复杂网站(含验证码除外)
  • 自动化表单提交与流程测试
  • 生成页面截图或 PDF 报告
  • 监控页面加载性能

安装与基础使用

确保系统已安装 Node.js,然后创建项目并安装 Puppeteer:

npm init -y<br>
npm install puppeteer

一个简单的爬取示例:获取某个网页的标题

立即学习Java免费学习笔记(深入)”;

吐槽大师
吐槽大师

吐槽大师(Roast Master) - 终极 AI 吐槽生成器,适用于 Instagram,Facebook,Twitter,Threads 和 Linkedin

下载
const puppeteer = require('puppeteer');

(async () => {
  // 启动浏览器
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  // 访问目标页面
  await page.goto('https://example.com', { waitUntil: 'networkidle2' });

  // 获取页面标题
  const title = await page.title();
  console.log(title);

  // 关闭浏览器
  await browser.close();
})();
说明:
  • puppeteer.launch() 启动浏览器,默认为无头模式(headless)
  • page.goto() 跳转页面,waitUntil 等待网络空闲,确保内容加载完成
  • page.title() 获取页面标题,也可用 page.$eval()page.evaluate() 执行 DOM 操作

常见爬虫技巧

实际开发中,很多网站有反爬机制或内容延迟加载,以下是几个实用技巧:

1. 设置请求头和伪装浏览器
await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36');
2. 模拟滚动到底部以触发懒加载
await page.evaluate(() => {
  window.scrollBy(0, document.body.scrollHeight);
});
// 等待新内容加载
await page.waitForTimeout(2000);
3. 注入拦截器避免加载图片/CSS 提升速度
await page.setRequestInterception(true);
page.on('request', req => {
  if(['image', 'stylesheet', 'font'].includes(req.resourceType())) {
    req.abort();
  } else {
    req.continue();
  }
});
4. 处理登录会话(保存 Cookie)

登录后可导出 Cookie,后续请求复用,避免重复登录:

const cookies = await page.cookies();
// 保存到文件或数据库
fs.writeFileSync('cookies.json', JSON.stringify(cookies, null, 2));

自动化测试中的应用

Puppeteer 不仅可用于爬虫,也非常适合做端到端(E2E)测试。例如测试一个登录流程:

test('should login successfully', async () => {
  await page.goto('https://example.com/login');
  await page.type('#username', 'testuser');
  await page.type('#password', '123456');
  await page.click('#login-btn');
  await page.waitForNavigation();

  const url = page.url();
  expect(url).toContain('/dashboard');
});
优势:
  • 真实浏览器环境,测试结果更可靠
  • 支持截图、录屏,便于调试失败用例
  • 可集成到 CI/CD 流程中

基本上就这些。Puppeteer 上手快,功能强,是 JavaScript 生态中处理动态网页的首选工具。合理使用,既能高效抓取数据,也能构建稳定的自动化测试流程。注意遵守 robots.txt 和服务条款,避免频繁请求。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1060

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

842

2023.11.06

cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6500

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

368

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

447

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

go语言goto的用法
go语言goto的用法

本专题整合了go语言goto的用法,阅读专题下面的文章了解更多详细内容。

138

2025.09.05

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

531

2023.06.20

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号