0

0

Python高效抓取网页表格数据:Pandas.read_html实战指南

心靈之曲

心靈之曲

发布时间:2025-11-09 12:33:01

|

543人浏览过

|

来源于php中文网

原创

python高效抓取网页表格数据:pandas.read_html实战指南

本文旨在指导读者如何使用Python高效抓取网页中的表格数据。我们将对比传统的BeautifulSoup手动解析方法与Pandas库中强大的`read_html`函数。通过具体案例,展示`read_html`如何以极简代码实现表格数据的自动识别、提取并保存为CSV文件,显著提升数据抓取效率,是处理结构化网页表格数据的首选方案。

在数据分析和处理领域,从网页抓取结构化数据是一项常见任务。特别是当数据以HTML表格形式呈现时,如何高效、准确地提取这些数据成为关键。本教程将深入探讨两种主要的Python网页表格抓取方法,并通过实例对比它们的效率和适用场景。

传统网页表格抓取方法:BeautifulSoup实践

BeautifulSoup是一个功能强大的Python库,用于从HTML或XML文件中提取数据。它通过解析文档并提供导航、搜索和修改解析树的方法,使得从网页中定位和提取特定元素变得相对容易。

当使用BeautifulSoup抓取网页表格时,基本步骤如下:

立即学习Python免费学习笔记(深入)”;

  1. 发送HTTP请求:使用requests库获取目标网页的HTML内容。
  2. 解析HTML:将获取到的HTML内容传递给BeautifulSoup进行解析,生成一个可操作的解析树。
  3. 定位表格元素:通过find_all()或select()等方法查找<table>标签,然后进一步定位<tr>(表格行)和<td>(表格数据单元格)标签。
  4. 遍历并提取数据:迭代每个<tr>,再迭代其内部的<td>,提取所需的文本内容。通常需要处理文本的空格和换行符。
  5. 数据存储:将提取到的数据整理成列表或字典,最终保存到CSV文件或其他格式。

以下是一个使用BeautifulSoup抓取NCAA女子足球RPI排名的示例代码:

from bs4 import BeautifulSoup
import requests
import csv

url = 'https://www.ncaa.com/rankings/soccer-women/d1/ncaa-womens-soccer-rpi'

# 1. 发送HTTP请求获取网页内容
print("正在使用BeautifulSoup抓取数据...")
result = requests.get(url)
# 2. 使用BeautifulSoup解析HTML
soup = BeautifulSoup(result.text, 'html.parser')

# 3. 查找所有表格行 (<tr>)
# 注意:通常第一行是表头,实际数据从第二行开始
table_rows = soup.find_all('tr')

names_lst = []
conference_lst = []
record_lst = []

# 4. 遍历表格行,提取所需数据
# 排除表头行 (table_rows[0])
for row in table_rows[1:]:
    # 查找当前行中的所有单元格 (<td>)
    details = row.find_all('td')
    # 根据索引提取并清理文本
    # 假设数据结构是:Rank, School, Conference, Record...
    # School 在索引1,Conference 在索引2,Record 在索引3
    if len(details) > 3: # 确保有足够的列
        name = details[1].text.strip()
        conference = details[2].text.strip()
        record = details[3].text.strip()

        names_lst.append(name)
        conference_lst.append(conference)
        record_lst.append(record)

# 打印提取的数据预览
print("\nBeautifulSoup提取数据预览 (前5条):")
print("学校名称列表:", names_lst[:5])
print("联盟列表:", conference_lst[:5])
print("记录列表:", record_lst[:5])

# 5. 将数据保存到CSV文件
with open('ncaa_rankings_bs4.csv', 'w', newline='', encoding='utf-8') as ncaa_file:
    csv_writer = csv.writer(ncaa_file)
    # 写入表头
    csv_writer.writerow(['School', 'Conference', 'Record'])
    # 写入数据
    for name, conference, record in zip(names_lst, conference_lst, record_lst):
        csv_writer.writerow([name, conference, record])

print("\n数据已使用BeautifulSoup保存到 ncaa_rankings_bs4.csv")

这种方法提供了高度的灵活性,允许开发者精确控制数据提取的每一个细节。然而,对于结构规范的HTML表格,代码量相对较大,且需要手动处理数据的清洗和组织。

高效解决方案:利用Pandas.read_html

pandas是Python中一个流行的数据分析库,以其强大的数据结构(如DataFrame)和数据操作功能而闻名。pandas提供了一个极其便捷的函数read_html(),专门用于从HTML网页中自动识别并提取表格数据。

绘蛙
绘蛙

电商场景的AI创作平台,无需高薪聘请商拍和文案团队,使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载

pandas.read_html()的工作原理是:

  1. 发送HTTP请求:在后台自动完成网页内容的获取。
  2. 解析HTML并识别表格:它会扫描整个HTML文档,自动查找所有<table>标签,并尝试将它们解析成DataFrame对象。
  3. 返回DataFrame列表:由于一个网页可能包含多个表格,read_html()会返回一个DataFrame对象的列表,每个DataFrame对应网页中的一个表格。
  4. 数据结构化:自动将表格的行和列转换为DataFrame的结构,包括自动识别表头。

以下是使用pandas.read_html()抓取相同NCAA排名的示例代码:

import pandas as pd

url = "https://www.ncaa.com/rankings/soccer-women/d1/ncaa-womens-soccer-rpi"

print("\n正在使用Pandas.read_html抓取数据...")
# 1. 使用pandas.read_html直接读取网页中的表格
# read_html会返回一个DataFrame列表,因为一个网页可能包含多个表格
try:
    dataframes = pd.read_html(url)
    # 通常,我们感兴趣的表格是列表中的第一个(索引0)
    # 实际情况可能需要检查列表中的每个DataFrame来确定
    df = dataframes[0]

    # 2. 打印前几行数据进行验证
    print("Pandas.read_html提取数据预览 (前5条):")
    print(df.head())

    # 3. 将DataFrame保存为CSV文件
    # index=False 避免将DataFrame的索引写入CSV
    df.to_csv("w_soccer_rpi_pandas.csv", index=False, encoding='utf-8')
    print("\n数据已使用Pandas保存到 w_soccer_rpi_pandas.csv")

except Exception as e:
    print(f"读取网页表格时发生错误: {e}")
    print("请检查URL是否正确,或网页内容是否包含可解析的HTML表格。")

可以看到,使用pandas.read_html(),代码量大大减少,且逻辑更为清晰。它将复杂的HTML解析和数据结构化过程封装起来,极大地提高了开发效率。

方法对比与选择

特性/方法 BeautifulSoup Pandas.read_html
代码简洁性 相对较高,需要手动遍历和提取 极简,通常一行代码即可完成表格提取
开发效率 较低,需要更多代码实现解析逻辑 极高,自动化程度高
灵活性 高,可处理复杂、非标准HTML结构,与Selenium结合处理动态内容 较低,依赖于标准HTML表格结构,不直接支持动态内容
数据结构化 需要手动整理为列表、字典等,再转换为DataFrame 自动解析为DataFrame,结构清晰
依赖 requests, BeautifulSoup pandas (内部可能依赖lxml, html5lib)
适用场景 网页结构复杂、非标准,需要精细控制,或动态加载内容 网页包含结构良好、静态加载的HTML表格

总结:

  • 对于结构良好且静态加载的HTML表格,pandas.read_html()是毋庸置疑的首选。它以其简洁高效的特点,能够迅速完成数据抓取和结构化。
  • 对于网页结构复杂、表格非标准、或者数据通过JavaScript动态加载的情况,BeautifulSoup结合requests(或配合Selenium模拟浏览器行为)则提供了更高的灵活性和控制力,能够应对更具挑战性的抓取任务。

注意事项

在使用Python进行网页表格数据抓取时,无论选择哪种方法,都应注意以下几点:

  1. 依赖安装:确保所有必要的库已正确安装。对于pandas.read_html,通常需要安装lxml或html5lib作为HTML解析器:pip install pandas lxml html5lib。
  2. 表格定位:pandas.read_html()返回的是一个DataFrame列表。如果网页中存在多个表格,务必仔细检查列表中的每个DataFrame,以确定所需表格的正确索引。可以通过打印df.head()或df.shape来辅助判断。
  3. 动态加载内容:requests和pandas.read_html()直接处理的是服务器返回的原始HTML。如果表格数据是通过JavaScript在浏览器端动态生成的,这些方法将无法直接获取到完整数据。此时,可能需要引入Selenium等工具来模拟浏览器行为,等待页面加载完成后再提取数据。
  4. 网站Robots协议与爬虫道德:在抓取任何网站数据之前,请务必查看该网站的robots.txt文件,了解其爬虫政策。遵守网站的使用条款,避免对服务器造成过大负担,并尊重数据所有者的权益。
  5. 错误处理:网络请求和HTML解析过程中可能会出现各种错误(如网络中断、URL错误、网页结构变化等)。在实际应用中,应加入健壮的错误处理机制(如try-except块),以提高程序的稳定性和鲁棒性。

总结

Python在网页数据抓取方面提供了丰富的工具。对于HTML表格数据,pandas.read_html()无疑是处理结构良好、静态加载表格的首选利器,它以其极简的代码和卓越的效率,极大地简化了数据提取流程。而当面对更为复杂、非标准或动态生成的表格时,BeautifulSoup则提供了更为精细的控制,能够满足更高级的定制化需求。理解并灵活运用这两种方法,将使您在网页数据抓取的实践中游刃有余。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

79

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

436

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

803

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

370

2025.07.23

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1948

2024.04.01

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号