0

0

使用 Beautiful Soup 从非结构化 HTML 中高效提取特定文本

心靈之曲

心靈之曲

发布时间:2025-10-22 10:41:20

|

369人浏览过

|

来源于php中文网

原创

使用 Beautiful Soup 从非结构化 HTML 中高效提取特定文本

本文详细介绍了如何利用 python 的 beautiful soup 库,结合 css 选择器和 `stripped_strings` 方法,从非结构化 html 中精确提取特定标签(如包含 `` 标签的 ``)内 `
` 标签之后的文本内容。教程通过示例代码演示了如何解决常见的数据提取挑战,并提供了高效、健壮的解决方案,适用于处理复杂的 html 结构。

引言:HTML 文本提取的挑战

网络爬虫和数据抓取任务中,从 HTML 页面中提取特定信息是常见的需求。然而,HTML 结构往往不规则,目标文本可能隐藏在复杂的标签层级中,或者紧邻其他非目标内容。特别是当我们需要提取某个特定标签(如
)之后的文本时,传统的 find() 或 find_all() 方法配合 next_sibling 可能会因为文本节点、空白字符等原因导致提取失败。本文将以一个具体的 HTML 结构为例,演示如何使用 Beautiful Soup 库,通过更强大的 CSS 选择器和字符串处理方法,高效且准确地提取所需文本。

问题场景分析

假设我们有以下 HTML 片段,目标是提取

标签中 标签之后、
标签紧随其后的文本内容(例如 "aaa" 和 "bbb")。



    
Swan Flower
Playground
Animal:
aaa
Fish:
bbb

初次尝试可能通过 find_all('td', {'colspan': '2', 'strong': True}) 来定位目标

标签,然后尝试获取
的 next_sibling。然而,strong: True 并非有效的 td 标签属性,因此这种选择器无法准确匹配。即使能够定位到 ,br_tag.next_sibling.strip() 也可能因文本节点或空白字符处理不当而失败。

解决方案:结合 CSS 选择器与 stripped_strings

Beautiful Soup 提供了强大的 CSS 选择器功能,通过 soup.select() 方法可以实现更灵活、精确的元素定位。结合 stripped_strings 属性,我们可以有效地提取所需文本。

立即学习前端免费学习笔记(深入)”;

贝特协同办公系统(BetterCOS)
贝特协同办公系统(BetterCOS)

具备更多的新特性: A.具有集成度更高的平台特点,集中体现了信息、文档在办公活动中交流的开放性与即时性的重要。 B.提供给管理员的管理工具,使系统更易于管理和维护。 C.产品本身精干的体系结构再加之结合了插件的设计思想,使得产品为用户度身定制新模块变得非常快捷。 D.支持对后续版本的平滑升级。 E.最价的流程管理功能。 F.最佳的网络安全性及个性化

下载

核心思路

  1. 使用 :has() 伪类选择器定位父元素: 找到所有包含 标签的 元素。这比直接查找 的父级更具描述性,并且可以确保我们只处理包含特定子元素的 。
  2. 利用 stripped_strings 提取纯净文本: 对于定位到的每个 元素,stripped_strings 属性会迭代其所有子孙文本内容,并自动去除多余的空白字符。由于我们的目标文本 "aaa" 或 "bbb" 总是 中最后一个有意义的文本片段(在
    之后),我们可以简单地获取 stripped_strings 列表中的最后一个元素。

    示例代码

    以下是实现这一目标的 Python 代码:

    from bs4 import BeautifulSoup
    
    # 模拟 HTML 内容
    html_text = """\
    
    
    
        
    Swan Flower
    Playground
    Animal:
    aaa
    Fish:
    bbb
    """ # 使用 Beautiful Soup 解析 HTML soup = BeautifulSoup(html_text, "html.parser") # 使用 CSS 选择器定位所有包含 标签的 元素 # ":has(strong)" 伪类选择器用于匹配包含指定子元素的父元素 target_tds = soup.select("td:has(strong)") # 遍历每个目标 元素并提取所需文本 extracted_texts = [] for td in target_tds: # `td.stripped_strings` 返回一个生成器,迭代所有子孙文本,并去除空白 # 将其转换为列表,并获取最后一个元素,即 `
    ` 后的文本 text = list(td.stripped_strings)[-1] extracted_texts.append(text) print(text) print(f"\n所有提取的文本: {extracted_texts}")

    输出结果:

    aaa
    bbb
    
    所有提取的文本: ['aaa', 'bbb']

    代码解析

    1. from bs4 import BeautifulSoup: 导入 Beautiful Soup 库。
    2. soup = BeautifulSoup(html_text, "html.parser"): 初始化 Beautiful Soup 对象,使用 html.parser 解析器解析 HTML 文本。
    3. soup.select("td:has(strong)"): 这是关键一步。
      • td: 选择所有 标签。
      • :has(strong): 这是一个 CSS 伪类选择器,它会进一步过滤 标签,只保留那些内部包含 标签的 。这使得我们能够精确地找到目标父元素。
      • for td in target_tds:: 遍历所有匹配到的 元素。
      • text = list(td.stripped_strings)[-1]:
        • td.stripped_strings: 这个属性返回一个生成器,它会遍历当前 td 标签及其所有子孙标签中的文本内容,并自动去除文本两端的空白字符(如换行符、空格)。
        • list(...): 将生成器转换为列表,这样我们可以通过索引访问其元素。
        • [-1]: 获取列表中的最后一个元素。在我们的 HTML 结构中,Animal: 是第一个文本片段,而 aaa 是在
          之后,作为 内的最后一个有意义的文本片段。因此,获取最后一个 stripped_strings 元素就能准确得到我们想要的内容。

          注意事项与总结

          • CSS 选择器的强大性: Beautiful Soup 的 select() 方法支持大部分 CSS3 选择器,包括类选择器、ID 选择器、属性选择器、伪类选择器(如 :nth-of-type, :first-child, :has() 等)。熟练掌握 CSS 选择器能够极大地提高 HTML 元素定位的效率和准确性。
          • stripped_strings 的应用场景: 当你需要从一个标签内部提取所有纯净的文本内容,并且这些文本可能被其他标签或空白字符分隔时,stripped_strings 是一个非常实用的工具。它能自动处理文本的拼接和空白去除。
          • HTML 结构分析: 在进行任何数据提取之前,仔细分析目标 HTML 的结构至关重要。通过浏览器开发者工具检查元素的层级关系、属性和文本位置,可以帮助你设计出最有效的选择器和提取逻辑。
          • 健壮性考虑: 这种方法相对 next_sibling 更为健壮,因为它不依赖于
            标签和目标文本之间是否存在空白文本节点。只要目标文本是其父元素内最后一个有意义的文本片段,list(td.stripped_strings)[-1] 就能成功提取。

          通过本文的讲解,读者应该能够理解并运用 Beautiful Soup 的 select() 方法和 stripped_strings 属性,高效地从复杂的 HTML 结构中提取出所需的特定文本内容。这种方法不仅适用于本例,也能灵活应用于各种类似的网页数据抓取场景。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

659

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

710

2023.08.11

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

CSS教程
CSS教程

共754课时 | 21.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号