0

0

高效解析HTML:按类型分组提取段落与表格内容

霞舞

霞舞

发布时间:2025-11-03 13:48:37

|

241人浏览过

|

来源于php中文网

原创

高效解析html:按类型分组提取段落与表格内容

本教程详细阐述了如何使用Python的BeautifulSoup和html2text库,从复杂的HTML结构中准确提取并分组连续的段落(

标签)和表格(

标签)。文章深入分析了在迭代HTML元素时管理状态的关键性,指出了常见的字典初始化陷阱,并提供了一个健壮的解决方案,确保段落内容能够正确累积,并在遇到表格时将其作为独立项分离,最终生成结构清晰的数据列表。

HTML内容解析挑战:段落与表格的混合提取

在处理包含多种类型内容的HTML文档时,常见的需求是将特定类型的元素(如段落)聚合起来,而将另一些元素(如表格)作为独立项处理。例如,我们可能需要将所有连续的段落文本合并成一个逻辑单元,而一旦遇到表格,则将其视为一个新的独立数据块。这要求我们在遍历HTML结构时,能够有效地管理和维护当前解析的状态。

初始尝试与常见陷阱

许多开发者在初次尝试时,可能会采用一种直观的迭代方式,但在处理状态积累时容易陷入误区。考虑以下一个简化的、具有缺陷的初始代码逻辑:

from bs4 import BeautifulSoup
import html2text
import json

# 假设 data3 包含混合的 p 和 table 标签
data3 = """

这是一个段落。

立即学习前端免费学习笔记(深入)”;

这是第二个段落。

Header AHeader B
Value 1AValue 1B

表格后的段落。

最后一个段落。

""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] for tag in soup.descendants: # 陷阱:在每次循环迭代中都重新初始化 content_dict content_dict = {'Title': "文档标题", 'Content': ''} if tag.name == "p": # 如果 content_dict 每次都被重新创建,这里只会收集当前 p 标签的内容 content_dict['Content'] += converter.handle(str(tag)) elif tag.name == "table": # 如果前面有 p 标签内容,先添加 if content_dict['Content']: content_items.append(content_dict) # 为表格创建一个新的字典,并添加 content_dict = {'Title': "文档标题", 'Content': converter.handle(str(tag))} content_items.append(content_dict) print(json.dumps(content_items, indent=4, ensure_ascii=False))

上述代码的根本问题在于 content_dict 在每次循环迭代时都被重新初始化。这意味着,当循环处理到一个新的标签时,前一个标签(即使是连续的

标签)所累积的内容会丢失,因为 content_dict 被重置为一个空字典。因此,它无法实现将多个连续的

标签内容合并到同一个 Content 字段中。

解决方案:使用缓冲区管理状态

为了正确地实现段落内容的累积和表格的分离,我们需要引入一个临时的缓冲区来存储连续的段落内容,并在遇到非段落元素(特别是表格)时,将缓冲区内容清空并作为独立项添加,然后处理当前非段落元素。

以下是实现此逻辑的修正代码:

阿里妈妈·创意中心
阿里妈妈·创意中心

阿里妈妈营销创意中心

下载
from bs4 import BeautifulSoup
import html2text
import json

# 示例 HTML 数据
data3 = """

这是一个段落内容。

这是第二个段落,与上一个段落连续。

这是一个嵌套在 div 中的段落。

产品价格
笔记本8000
鼠标150

表格后的第一个段落。

这是一个span标签。

表格后的第二个段落。

""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] # 存储最终结果的列表 current_p_buffer = [] # 临时缓冲区,用于累积连续的 p 标签内容 # 遍历 HTML 文档的所有子孙节点 # 使用 soup.descendants 能够遍历到所有嵌套层级的标签,并大致按照文档顺序 for tag in soup.descendants: # 确保只处理 Tag 对象,跳过 NavigableString 等文本节点 if tag.name == "p": # 如果当前标签是 p,则将其内容添加到缓冲区 current_p_buffer.append(converter.handle(str(tag))) elif tag.name == "table": # 如果遇到 table 标签,首先检查 p 缓冲区是否有内容 if current_p_buffer: # 将累积的 p 标签内容合并,并作为一个条目添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题,可根据实际需求动态设置 'Content': "".join(current_p_buffer) }) current_p_buffer = [] # 清空 p 缓冲区,准备收集下一组段落 # 然后,将 table 标签的内容作为一个独立条目添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题 'Content': converter.handle(str(tag)) }) # 可以根据需要添加其他标签的处理逻辑,例如忽略 div, span 等 # else: # # 如果遇到其他非 p 非 table 标签,也可能需要清空 p 缓冲区 # # 这取决于具体需求,例如是否只有 p 和 table 才能作为主要内容块 # if current_p_buffer: # content_items.append({ # 'Title': "35.23.060 - DR Zone Standards", # 'Content': "".join(current_p_buffer) # }) # current_p_buffer = [] # 循环结束后,检查 p 缓冲区是否还有剩余内容(即文档末尾的段落) if current_p_buffer: content_items.append({ 'Title': "35.23.060 - DR Zone Standards", 'Content': "".join(current_p_buffer) }) # 打印提取的数据 print(json.dumps(content_items, indent=4, ensure_ascii=False))

代码解析与最佳实践

  1. current_p_buffer:核心缓冲区 这个列表是实现段落内容累积的关键。它在循环外部初始化,确保其状态在每次迭代中得以保留。当遇到

    标签时,其内容被追加到 current_p_buffer 中。

  2. soup.descendants 与 soup.children

    • soup.descendants 迭代器会按照文档顺序遍历所有子孙节点,包括嵌套在其他标签内的

      。这对于处理复杂、多层级的HTML结构非常有用。
    • 如果 HTML 结构相对扁平,且

    • 标签通常是同级兄弟元素,那么使用 soup.children 或 soup.contents 可能会更直接,因为它只遍历直接子节点。然而,对于普遍情况,descendants 更具鲁棒性。
    • 条件判断与状态转换

      • 当 tag.name == "p" 时,内容被添加到 current_p_buffer。
      • 当 tag.name == "table" 时,这是一个“状态转换点”。此时,首先检查 current_p_buffer 是否有内容。如果有,说明前面累积了一组段落,需要将其合并并添加到 content_items 列表中,然后清空 current_p_buffer。接着,将当前
    • 的内容作为一个新的独立项添加到 content_items。
    • 循环结束后的处理:在 for 循环结束后,需要再次检查 current_p_buffer。这是为了捕获文档末尾可能存在的、未被任何
    • 标签中断的连续段落。
    • html2text.HTML2Text() 的作用html2text 库用于将 HTML 片段转换为 Markdown 格式的文本。这在需要从 HTML 中提取纯文本内容,并保留一定的格式(如标题、列表、表格的Markdown表示)时非常有用。converter.handle(str(tag)) 将标签及其内部 HTML 转换为文本。

    • json.dumps 的应用 使用 json.dumps(..., indent=4, ensure_ascii=False) 可以将结果列表格式化为易于阅读的 JSON 字符串,其中 indent=4 增加了缩进,ensure_ascii=False 确保中文字符正确显示。

    • 总结

      正确地从混合内容的HTML中提取和分组数据,关键在于有效地管理迭代过程中的状态。通过引入一个临时缓冲区来累积同类型元素(如段落),并在遇到不同类型或分隔元素(如表格)时处理缓冲区内容,我们可以构建一个健壮且灵活的解析器。这种模式不仅适用于段落和表格,也适用于任何需要按类型分组或合并的HTML元素提取任务。理解并应用状态管理技巧,是高效进行Web数据抓取和内容处理的基础。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

778

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

686

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

769

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

740

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

571

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

581

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

752

2023.08.11

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

1

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号