javascript如何实现爬虫_怎样用Puppeteer抓取动态网页

夜晨

发布时间：2025-12-23 19:49:20

775人浏览过

来源于php中文网

原创

JavaScript 本身不能直接爬虫，真正实现网页抓取的是 Node.js 环境下的 Puppeteer；它通过控制真实浏览器执行 JS、等待动态渲染后提取 DOM，适合抓取 React/Vue/Ajax 加载内容，并支持滚动加载、交互操作与请求拦截。

javascript如何实现爬虫_怎样用puppeteer抓取动态网页

JavaScript 本身不能直接“爬虫”，因为它运行在浏览器中，受同源策略和安全限制，无法随意发起跨域请求或读取其他网站内容。真正能实现网页抓取的，是 Node.js 环境下的 JavaScript 工具，比如 Puppeteer —— 它是一个控制 Chrome 或 Chromium 的 Node 库，适合抓取动态渲染的网页（如 React、Vue、Ajax 加载内容）。

为什么 Puppeteer 适合抓取动态网页

传统 HTTP 请求库（如 axios、node-fetch）只能拿到服务器返回的原始 HTML，而很多现代网站初始 HTML 是空壳，真实内容由 JavaScript 在浏览器中异步加载。Puppeteer 启动真实浏览器实例，执行 JS、等待渲染完成，再提取 DOM，相当于“模拟真人操作”。

自动等待页面加载、JS 执行、网络请求完成
支持点击、输入、滚动、截图、生成 PDF 等交互操作
可拦截请求、修改响应、注入脚本，灵活度高

用 Puppeteer 抓取一个带滚动加载的列表页

例如抓取某电商网站的商品列表（内容随滚动懒加载）：

安装： npm install puppeteer
启动浏览器并打开页面：puppeteer.launch({ headless: true })（headless: false 可见调试）
用 page.goto() 访问目标 URL，并设置足够等待时间或监听网络空闲
滚动到底部触发懒加载：多次执行 page.evaluate(() => window.scrollTo(0, document.body.scrollHeight))，配合 page.waitForTimeout(1000)
等加载稳定后，用 page.$$eval() 提取所有商品标题、价格等结构化数据

注意事项与常见避坑点

Puppeteer 功能强，但易踩坑：

ModelGate

一站式AI模型管理与调用工具

下载

立即学习“Java免费学习笔记（深入）”；

默认启动的是精简版 Chromium，部分网站会检测并拒绝访问；可添加 --disable-blink-features=AutomationControlled 和隐藏 navigator.webdriver 来降低被识别概率
别依赖固定等待时长（waitForTimeout），优先用 waitForSelector、waitForFunction 等条件等待
记得关闭浏览器：browser.close()，否则进程残留、内存泄漏
遵守 robots.txt 和网站 Terms of Service，高频请求加合理延时，避免被封 IP

替代方案简要对比

不是所有场景都必须用 Puppeteer：

纯静态页面 → 直接用 axios + cheerio 更快更轻量
接口明确且有 API → 抓包找 XHR 请求，绕过前端直调后端接口（更稳定高效）
需要分布式/高并发 → 配合 Playwright（Puppeteer 多浏览器升级版）或搭配 Crawler 框架如 Crawl4AI

Vue.js 计算器仅能计算一次的解决方案

Vue.js 计算器只能运算一次？修复状态管理与方法名冲突问题

Vue 3 动态注册外部组件的无侵入式集成方案

Vue 3 动态注册外部组件的零侵入式集成方案

Vue 3 中子组件向父组件传递数据的正确方式

java速学教程(入门到精通)

java怎么学习？java怎么入门？java在哪学？java怎么学才快？不用担心，这里为大家提供了java速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

vue react javascript java html js 前端 node.js ajax node go 分布式 ajax chrome npm goto 接口并发 JS dom 异步 http axios

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：javascript Promise是什么_如何使用它处理异步下一篇：如何测试javascript代码_单元测试和集成测试有何不同

作者最新文章

台式机键盘锁住了怎么解_Win系统键盘解锁流程

2026-03-10 09:06

怎么在美团找到共享单车_APP内定位与租借车辆指引

2026-03-10 10:08

2026年带薪年休假权益解读_你的年假天数达标了吗

2026-03-11 09:10

2026国考报名时间表_2026国考笔试时间

2026-03-11 10:00

冬季空调取暖最佳温度是多少_冬天室内空调最适温度探讨

2026-03-11 10:15

拼豆的用途有哪些_可以做成立体作品吗

2026-03-11 10:35

2026国考报考时间_2026国考考试时间公布

2026-03-11 10:46

国考2026年报名入口_国家公务员考试官方网站

2026-03-13 08:10

春节高铁票什么时候开始卖_官方12306手机客户端放票时间详解

2026-03-13 10:47

鹅鸭杀寻找铃铛任务攻略_铃铛位置与牺牲会议避免方法

2026-03-13 17:20

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

411

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

251

2023.10.07

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

166

2023.06.14