
本文演示如何利用beautifulsoup库从包含嵌套div和span标签的html代码中提取表格数据。beautifulsoup是一个强大的库,用于解析和处理xml和html文档。
以下步骤将指导您如何使用BeautifulSoup实现这一目标:
from bs4 import BeautifulSoup import pandas as pd html = """""" soup = BeautifulSoup(html, 'html.parser') # 获取表头 headers = [th.text.strip() for th in soup.select("div.dheader span")] # 获取表格数据行 rows = [[td.text.strip() for td in row.select("span")] for row in soup.select("div.articleh")] # 创建Pandas DataFrame df = pd.DataFrame(rows, columns=headers) # 打印DataFrame print(df)阅读评论标题 作者 最后更新471 2 ... ... 09-12 00:09603 3 ... ... 09-11 16:01
这段代码首先使用BeautifulSoup解析HTML,然后利用select方法分别提取表头和数据行。 text.strip()用于去除多余的空格。最后,使用pandas库将数据转换成易于阅读和操作的DataFrame格式并打印输出。 请注意,此示例假设表格数据都包含在标签中。 如果HTML结构不同,需要相应调整select方法的选择器。











