0

0

针对ASP.NET网站动态表格的高效数据抓取教程:摆脱Selenium的限制

霞舞

霞舞

发布时间:2025-08-26 15:12:22

|

941人浏览过

|

来源于php中文网

原创

针对ASP.NET网站动态表格的高效数据抓取教程:摆脱Selenium的限制

本教程详细介绍了如何通过模拟HTTP请求,从具有.NET后端、包含动态生成表格的ASP.NET网站中高效提取数据。针对传统Selenium或直接BeautifulSoup抓取失败的问题,我们演示了如何利用requests库获取动态视图状态参数,构建并发送POST请求,最终结合pandas库精准解析并清洗目标表格数据,从而避免了浏览器自动化带来的性能开销和复杂性。

理解ASP.NET网站的数据抓取挑战

在尝试从某些动态网页(特别是基于asp.net框架构建的网站)抓取数据时,开发者常常会遇到困难。传统的静态html解析方法(如直接使用beautifulsoup查找元素)或基于浏览器自动化的selenium方法可能无法奏效。这通常是因为asp.net网站为了维护页面状态和处理用户交互,会大量使用隐藏字段(如__viewstate、__eventvalidation、__viewstategenerator等)。这些字段的值是动态生成的,并且在每次页面请求或用户操作时都会被发送到服务器,以确保服务器能够正确理解客户端的状态。

当目标表格并非在首次页面加载时直接包含在HTML源码中,而是通过JavaScript异步加载,或者在用户与页面交互(如点击按钮、选择下拉菜单)后才由服务器响应生成时,直接的BeautifulSoup解析会返回None。即使使用Selenium,如果表格的加载依赖于特定的POST请求参数,而这些参数又依赖于页面的动态状态,那么简单地等待页面加载完成可能也无法捕获到最终的表格内容。更进一步,Selenium虽然功能强大,但其启动浏览器、模拟用户行为的开销较大,对于大规模或高频率的数据抓取任务而言,效率较低。

基于请求模拟的解决方案

针对上述挑战,一种更高效且专业的解决方案是模拟HTTP请求。其核心思想是:

  1. 分析网站行为:通过浏览器开发者工具(Network标签页)观察目标网站在加载或用户交互时发出的HTTP请求,特别是那些包含目标数据的POST请求。
  2. 提取动态参数:首次GET请求页面,解析HTML以提取如__VIEWSTATE、__EVENTVALIDATION等关键的动态隐藏字段值。
  3. 构建请求负载:结合这些动态值以及通过分析获得的固定表单参数,构建一个完整的POST请求负载(payload)。
  4. 发送模拟请求:使用requests库发送这个POST请求。
  5. 解析响应数据:从POST请求的响应中提取包含目标表格的HTML内容,并使用pandas等库进行解析和数据清洗。

这种方法避免了启动整个浏览器环境的开销,使得数据抓取过程更加轻量和高效。

Okaaaay
Okaaaay

适用于所有人的AI文本和内容生成器

下载

实现细节与代码示例

下面将通过一个具体的ASP.NET网站表格抓取案例来演示这一过程。目标是从一个西班牙政府网站(https://serviciosede.mineco.gob.es/indeco/reports/verSerieGraf.aspx/?codigo=230400&frec=-1)中提取包含“Fecha”和“Valor”列的表格数据。

from io import StringIO
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tabulate import tabulate

# 目标URL
url = "https://serviciosede.mineco.gob.es/indeco/reports/verSerieGraf.aspx/?codigo=230400&frec=-1"

# 预设的POST请求负载数据,这些是分析网络请求后得到的固定参数
# 某些值可能在每次请求中固定,某些需要从首次GET请求中提取
payload_data = {
    "__EVENTTARGET": "ReportViewer1$_ctl9$Reserved_AsyncLoadTarget",
    "__VIEWSTATE": "", # 动态值,需要从首次GET请求中提取
    "__VIEWSTATEGENERATOR": "4B866612", # 固定值或半动态值
    "__EVENTVALIDATION": "", # 动态值,需要从首次GET请求中提取
    "ReportViewer1:_ctl11": "standards",
    "ReportViewer1:AsyncWait:HiddenCancelField": "False",
    "ReportViewer1:ToggleParam:collapse": "false",
    "ReportViewer1:_ctl7:collapse": "false",
    "ReportViewer1:_ctl9:VisibilityState:_ctl0": "None",
    "ReportViewer1:_ctl9:ReportControl:_ctl4": "100"
}

# 使用requests.Session保持会话状态
with requests.Session() as s:
    # 第一次GET请求:获取页面的初始HTML内容
    # 目的是为了提取动态生成的__VIEWSTATE和__EVENTVALIDATION值
    initial_response = s.get(url)
    soup = BeautifulSoup(initial_response.text, "lxml")

    # 从首次GET请求的HTML中提取动态参数
    # 使用CSS选择器定位这些隐藏的input元素
    viewstate_element = soup.select_one("#__VIEWSTATE")
    if viewstate_element:
        payload_data["__VIEWSTATE"] = viewstate_element["value"]
    else:
        print("警告:未找到__VIEWSTATE字段。")

    eventvalidation_element = soup.select_one("#__EVENTVALIDATION")
    if eventvalidation_element:
        payload_data["__EVENTVALIDATION"] = eventvalidation_element["value"]
    else:
        print("警告:未找到__EVENTVALIDATION字段。")

    # 第二次POST请求:发送包含动态参数的表单数据
    # 这次请求的响应中应该包含目标表格的HTML
    table_response = s.post(url, data=payload_data)

    # 使用pandas解析响应中的HTML表格
    # pd.read_html会返回一个DataFrame列表,因为HTML中可能包含多个表格
    # 经过分析,目标表格是列表中的倒数第三个
    df_list = pd.read_html(StringIO(table_response.text))
    if len(df_list) >= 3:
        df = df_list[-3]
    else:
        print("错误:未找到预期的表格。")
        exit()

    # 数据清洗和格式化
    # 移除第一列(通常是序号或不必要的辅助列)
    df = df.drop(df.columns[0], axis=1)
    # 移除包含NaN值的行
    df.dropna(inplace=True)
    # 将第一行设置为列名
    df.columns = df.iloc[0]
    # 移除作为列名的第一行数据
    df = df.iloc[1:]

    # 打印格式化后的表格
    print(tabulate(df, headers='keys', tablefmt='psql', showindex=False))

代码解析

  1. 导入库:

    • StringIO:用于将字符串视为文件对象,pandas.read_html可以直接处理文件对象。
    • pandas:强大的数据处理库,特别是read_html函数,能够自动从HTML中识别并解析表格。
    • requests:用于发送HTTP请求,替代Selenium进行网页内容获取。
    • BeautifulSoup:用于解析HTML内容,以便提取动态生成的表单字段。
    • tabulate:用于将pandas DataFrame以美观的文本格式打印到控制台。
  2. payload_data: 这是一个字典,包含了POST请求需要发送的所有表单数据。这些数据通常可以通过浏览器的开发者工具(Network标签页,查看POST请求的Form Data或Payload)

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

78

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

12

2026.01.31

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

738

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1168

2024.03.22

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.5万人学习

CSS教程
CSS教程

共754课时 | 40.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号