从HTML表格中提取数据并转换为DataFrame

花韻仙語

发布时间：2025-10-07 16:37:00

483人浏览过

来源于php中文网

原创

从html表格中提取数据并转换为dataframe

本文档旨在提供一个清晰、简洁的教程，指导读者如何使用Beautiful Soup库解析具有固定结构的HTML表格，并将提取的数据转换为Pandas DataFrame。通过示例代码和详细解释，读者将学会如何有效地从HTML中提取特定数据，并将其组织成易于分析的表格形式。

使用Beautiful Soup解析HTML表格并转换为DataFrame

在数据处理和分析中，经常需要从网页中提取数据。HTML表格是一种常见的数据呈现方式。本教程将演示如何使用Python的Beautiful Soup库解析HTML表格，并将其转换为Pandas DataFrame，方便后续的数据处理。

准备工作

首先，确保已经安装了必要的库：

pip install beautifulsoup4 pandas lxml

beautifulsoup4: 用于解析HTML和XML文档。
pandas: 用于数据分析，提供DataFrame数据结构。
lxml: 一个高性能的XML和HTML解析器，Beautiful Soup可以使用它来提高解析速度。

示例HTML

假设我们有以下HTML代码，表示一个包含产品信息的表格：

立即学习“前端免费学习笔记（深入）”；

CreateWise AI

为播客创作者设计的AI创作工具，AI自动去口癖、提交亮点和生成Show notes、标题等

下载

html = '''
<table align="center">
    <tr>
        <th>Name</th>
        <td>NAME A</td>
        <th>Status</th>
        <td class="IN PROGRESS">IN PROGRESS</td>
    </tr>
    <tr>
        <th>Category</th>
        <td COLSPAN="3">CATEGORY A</td>
    </tr>
    <tr>
        <th>Creation date</th>
        <td>13/01/23 23:00</td>
        <th>End date</th>
        <td></td>
    </tr>
</table>
'''

解析HTML并提取数据

以下代码演示了如何使用Beautiful Soup解析HTML，提取表格中的数据，并将其转换为DataFrame：

from bs4 import BeautifulSoup
import pandas as pd

html = '''
<table align="center">
    <tr>
        <th>Name</th>
        <td>NAME A</td>
        <th>Status</th>
        <td class="IN PROGRESS">IN PROGRESS</td>
    </tr>
    <tr>
        <th>Category</th>
        <td COLSPAN="3">CATEGORY A</td>
    </tr>
    <tr>
        <th>Creation date</th>
        <td>13/01/23 23:00</td>
        <th>End date</th>
        <td></td>
    </tr>
</table>
'''

soup = BeautifulSoup(html, 'lxml')

data = [{e.find_previous_sibling('th').text:e.text for e in soup.select('table td')}]

df = pd.DataFrame(data)

print(df)

这段代码的执行流程如下：

导入库: 导入BeautifulSoup和pandas库。
创建Beautiful Soup对象: 使用BeautifulSoup(html, 'lxml')创建一个Beautiful Soup对象，html是HTML代码，lxml是解析器。
选择<td>标签: 使用soup.select('table td')选择表格中所有的<td>标签。
提取数据: 遍历所有的<td>标签，对于每个<td>标签，找到它的前一个兄弟节点<th>，将<th>的文本作为键，<td>的文本作为值，存储到字典中。
创建DataFrame: 将包含字典的列表转换为DataFrame。

代码解释

soup.select('table td'): 使用CSS选择器选择所有在<table>标签内的<td>标签。
e.find_previous_sibling('th'): 对于每个<td>元素(e)，找到它紧邻的前一个<th>兄弟元素。
{e.find_previous_sibling('th').text:e.text for e in soup.select('table td')}: 这是一个字典推导式，它遍历所有选中的<td>元素，并创建一个字典，其中键是前一个<th>元素的文本内容，值是当前<td>元素的文本内容。
pd.DataFrame([ ... ]): 将包含一个字典的列表传递给pd.DataFrame构造函数。由于我们只有一行数据，所以需要将字典放在一个列表中。

结果

运行上述代码，将得到以下DataFrame：

          Name       Status    Category Creation date End date
0       NAME A  IN PROGRESS  CATEGORY A  13/01/23 23:00

注意事项

确保HTML结构稳定：此方法依赖于HTML表格的固定结构。如果表格结构发生变化，代码可能需要调整。
处理缺失值：如果某些单元格为空，DataFrame中对应的位置将显示NaN。可以使用fillna()方法填充缺失值。
处理复杂的HTML结构：对于更复杂的HTML结构，可能需要使用更复杂的CSS选择器或Beautiful Soup的其他方法来提取数据。
错误处理：在实际应用中，需要添加错误处理机制，例如检查是否成功找到<th>标签，以避免程序崩溃。

总结

本教程介绍了如何使用Beautiful Soup解析HTML表格，并将提取的数据转换为Pandas DataFrame。这种方法适用于具有固定结构的HTML表格。通过掌握这些技术，可以更有效地从网页中提取数据，并进行后续的分析和处理。

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1949

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1171

2024.11.28

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板