绕过XHR：从JavaScript生成页面中提取嵌入式数据

心靈之曲

发布时间：2025-10-26 11:16:34

884人浏览过

来源于php中文网

原创

绕过XHR：从JavaScript生成页面中提取嵌入式数据

本文探讨了如何在目标网页内容由javascript生成且不涉及额外xhr请求时进行数据提取。核心策略是深入检查页面初始加载的html和javascript源码，识别并解析其中可能嵌入的json或其他结构化数据。通过这种方法，即使传统xpath失效，也能有效获取所需信息，为处理特定类型的动态网页爬取提供了解决方案。

动态内容抓取的挑战与传统方法的局限

在网页数据抓取（Web Scraping）领域，传统的方法通常依赖于解析页面的静态HTML结构，例如使用XPath或CSS选择器来定位和提取数据。然而，随着现代Web技术的发展，越来越多的网站采用JavaScript在客户端动态生成内容。这给传统爬虫带来了挑战：当目标内容由JavaScript生成时，它可能不会出现在初始加载的HTML源码中，导致XPath等工具无法找到。

更进一步的挑战在于，一些网站虽然使用JavaScript生成内容，但并没有通过显式的AJAX（XHR）请求从服务器异步加载数据。这意味着，即使使用浏览器的开发者工具检查网络活动，也可能看不到任何与目标数据相关的XHR请求。在这种情况下，传统的基于XHR监控或Selenium等无头浏览器的方法可能显得过于笨重或效率低下。

识别问题：JavaScript生成但无XHR的场景

以https://www.wowhead.com/today-in-wow为例，我们希望提取特定

容器（例如id包含EU-group-holiday-line的元素）中的内容。如果直接尝试使用XPath（如$xpath->query('//*[contains(@id, "EU-group-holiday-line")]');）来解析页面初始HTML，会发现无法获取到所需数据。同时，通过开发者工具的“Network”面板观察，也未发现有任何与这些动态生成内容直接相关的XHR请求。

这种现象表明，尽管内容是动态生成的，但其所需的数据并非在页面加载后通过额外的网络请求获取，而是很可能已经以某种形式（例如JSON字符串）嵌入在页面初始加载的HTML或内联JavaScript代码中。

唱鸭

音乐创作全流程的AI自动作曲工具，集 AI 辅助作词、AI 自动作曲、编曲、混音于一体

下载

立即学习“Java免费学习笔记（深入）”；

解决方案：深入分析初始HTML源码

当遇到JavaScript生成内容且无XHR请求的场景时，核心策略是转变思路：不再专注于DOM结构，而是深入挖掘页面加载时获取的原始HTML源码。

核心假设

如果内容是JavaScript生成的，但没有额外的XHR请求，那么支撑这些内容的数据极有可能作为JavaScript变量、内联JSON对象或数组的形式，直接嵌入在页面的

如何在 DataTables 导出 PDF 时自动换行以避免列溢出

如何在隐藏滚动条的同时保持页面可滚动功能

怎样处理点击事件_javascript事件监听器如何工作【教程】

javascript如何优化页面性能？【教程】

javascript如何进行DOM操作_怎样动态修改网页内容【教程】

相关标签:

css javascript java html js json ajax 浏览器工具 ai 爬虫异步加载 json ajax 字符串对象 dom 异步选择器 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：JavaScript组件化开发架构下一篇：JavaScript中基于优先级动态管理对象数组的策略

作者最新文章

国产GPU重磅发布明年超英伟达Rubin架构：中国院士力挺天数智芯

2026-01-27 15:06

如何在 MySQL 中自定义唯一键冲突的错误提示（如重复手机号）

2026-01-27 15:06

如何在 Pandas 中扁平化嵌套 JSON 列表时保留原始时间戳列

2026-01-27 15:09

如何在 CGO 中安全地将 C 端结构体数组传递到 Go 并正确使用

2026-01-27 15:11

如何用 Flex 或 Grid 将单列链接列表均匀拆分为双列（共用同一标题）

2026-01-27 15:11

如何使用chatgpt教程

2026-01-27 15:21

Spring Batch 多文件并行处理：基于单文件单 Job 的最佳实践

2026-01-27 15:21

存储价格持续上涨：部分机型首销优惠价没了

2026-01-27 15:38

如何在 Android 中正确设置 Button 的背景色与文字颜色

2026-01-27 15:44

如何在 Python 中动态获取父类名称而非当前实例的类名

2026-01-27 15:56

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

418

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

535

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

311

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

157

2023.06.14

ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容，供大家免费下载体验。

160

2023.08.31

ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法：1、设置统一的编码方式；2、服务器端编码；3、客户端解码；4、设置HTTP响应头；5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

116

2023.11.15

ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

233

2024.09.24

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

热门下载

网站特效

网站源码

网站素材

前端模板