使用 JavaScript 提取动态网页内容

霞舞

发布时间：2025-10-26 11:26:14

401人浏览过

来源于php中文网

原创

使用 javascript 提取动态网页内容

本文旨在介绍如何从使用 JavaScript 动态生成内容的网页中提取数据。通过分析网页源代码，定位关键数据，并利用正则表达式等工具提取所需信息，为网络爬虫开发提供一种解决方案。

对于一些网站，其部分内容并非直接包含在 HTML 源代码中，而是通过 JavaScript 动态生成。这给数据抓取带来了一定的挑战。本文将介绍一种针对这种情况的解决方案，即通过分析网页源代码，定位包含数据的 JavaScript 代码片段，并从中提取所需信息。

分析网页源代码

首先，我们需要查看目标网页的源代码。可以通过浏览器自带的开发者工具（通常按 F12 键打开）或者使用 curl 等命令行工具获取网页的 HTML 内容。

立即学习“Java免费学习笔记（深入）”；

在源代码中，我们需要寻找包含目标数据的 JavaScript 代码。一种常用的方法是搜索目标数据中独有的字符串，例如，在示例中，我们可以搜索 event=479 或 event=643。

定位数据

通过搜索，我们可能找到一个包含 JSON 格式数据的 JavaScript 代码片段。例如：

{
   "icon": "calendar_weekendmistsofpandariastart",
   "name": "Timewalking Dungeon Event",
   "side": "both",
   "url": "/event=643/timewalking-dungeon-event"
}

这个 JSON 对象包含了我们想要抓取的信息，例如活动名称、图标 URL 和活动 URL。

提取数据

一旦我们找到了包含数据的 JavaScript 代码片段，就可以使用正则表达式或其他字符串处理方法来提取所需的信息。

PathFinder

AI驱动的销售漏斗分析工具

下载

例如，我们可以使用以下正则表达式来提取 JSON 对象：

import re

html_content = """
// Some other javascript code
{
   "icon": "calendar_weekendmistsofpandariastart",
   "name": "Timewalking Dungeon Event",
   "side": "both",
   "url": "/event=643/timewalking-dungeon-event"
}
// Some other javascript code
"""

pattern = re.compile(r'\{.*?\"url\": \"\/event=\d+\/.*?\".*?\}', re.DOTALL)
match = pattern.search(html_content)

if match:
    json_data = match.group(0)
    print(json_data)
else:
    print("No JSON data found.")

这段代码首先定义了一个包含 JSON 对象的 HTML 字符串。然后，它使用正则表达式 \{.*?\"url\": \"\/event=\d+\/.*?\".*?\} 来匹配 JSON 对象。re.DOTALL 标志使得 . 可以匹配换行符，从而可以匹配多行 JSON 对象。

如果匹配成功，match.group(0) 将返回匹配到的 JSON 字符串。然后，我们可以使用 json.loads() 函数将 JSON 字符串转换为 Python 字典，并从中提取所需的信息。

完整示例（Python）

import re
import requests
import json

def extract_data(url):
    """
    从网页源代码中提取 JSON 数据。
    """
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功

        html_content = response.text

        pattern = re.compile(r'\{.*?\"url\": \"\/event=\d+\/.*?\".*?\}', re.DOTALL)
        matches = pattern.findall(html_content)

        data = []
        for match in matches:
            try:
                json_data = json.loads(match)
                data.append(json_data)
            except json.JSONDecodeError:
                print(f"Error decoding JSON: {match}")

        return data

    except requests.exceptions.RequestException as e:
        print(f"Error fetching URL: {e}")
        return None


if __name__ == "__main__":
    url = "https://www.wowhead.com/today-in-wow"
    extracted_data = extract_data(url)

    if extracted_data:
        for item in extracted_data:
            print(f"Name: {item['name']}")
            print(f"URL: {item['url']}")
            print("-" * 20)
    else:
        print("No data extracted.")

这段代码首先定义了一个 extract_data 函数，该函数接受一个 URL 作为参数，并返回一个包含 JSON 数据的列表。该函数首先使用 requests.get() 函数获取网页的 HTML 内容。然后，它使用正则表达式来匹配 JSON 对象，并使用 json.loads() 函数将 JSON 字符串转换为 Python 字典。最后，它将 JSON 字典添加到列表中，并返回该列表。

在 if __name__ == "__main__": 块中，我们调用 extract_data 函数来提取数据，并打印提取到的数据。

注意事项

网站结构变化： 网站的结构可能会发生变化，导致正则表达式失效。因此，需要定期检查和更新正则表达式。
反爬虫机制： 某些网站可能会使用反爬虫机制来阻止数据抓取。例如，网站可能会限制请求频率或使用 CAPTCHA 验证。需要采取相应的措施来绕过这些反爬虫机制。
法律和道德： 在抓取数据之前，请务必阅读网站的robots.txt文件和使用条款，并遵守相关的法律和道德规范。

总结

本文介绍了一种从使用 JavaScript 动态生成内容的网页中提取数据的方法。该方法包括分析网页源代码、定位数据和提取数据。通过这种方法，我们可以抓取到一些无法通过传统方法抓取的数据。但是，需要注意网站结构的变化、反爬虫机制以及相关的法律和道德规范。

如何实现数组元素的无限循环输出

JavaScript 中无限循环输出数组元素的原理与正确实现方法

如何在 JavaScript 中正确使用 fetch 获取并显示笑话数据

JavaScript强制类型转换Number与String的方法细节

JavaScript控制台console中log与warn及error用法

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板