使用 Beautiful Soup 从非结构化 HTML 中高效提取特定文本

心靈之曲

发布时间：2025-10-22 10:41:20

369人浏览过

来源于php中文网

原创

使用 Beautiful Soup 从非结构化 HTML 中高效提取特定文本

本文详细介绍了如何利用 python 的 beautiful soup 库，结合 css 选择器和 `stripped_strings` 方法，从非结构化 html 中精确提取特定标签（如包含 `` 标签的 ``）内 `
` 标签之后的文本内容。教程通过示例代码演示了如何解决常见的数据提取挑战，并提供了高效、健壮的解决方案，适用于处理复杂的 html 结构。

引言：HTML 文本提取的挑战

在网络爬虫和数据抓取任务中，从 HTML 页面中提取特定信息是常见的需求。然而，HTML 结构往往不规则，目标文本可能隐藏在复杂的标签层级中，或者紧邻其他非目标内容。特别是当我们需要提取某个特定标签（如 <br>）之后的文本时，传统的 find() 或 find_all() 方法配合 next_sibling 可能会因为文本节点、空白字符等原因导致提取失败。本文将以一个具体的 HTML 结构为例，演示如何使用 Beautiful Soup 库，通过更强大的 CSS 选择器和字符串处理方法，高效且准确地提取所需文本。

问题场景分析

假设我们有以下 HTML 片段，目标是提取 <td> 标签中 <strong> 标签之后、<br> 标签紧随其后的文本内容（例如 "aaa" 和 "bbb"）。
<html> <head></head> <body> <table style="max-width: 600px; margin: auto;"> <tbody> <tr> <td>Swan</td> <td>Flower</td> </tr> <tr> <td colspan="2" style="background: #ffffff;"> <h5>Playground</h5> </td> </tr> <tr> <td colspan="2"> <strong>Animal:</strong> <br>aaa</td> </tr> <tr> <td colspan="2"> <strong>Fish:</strong> <br>bbb</td> </tr> <tr> <td colspan="2" style="text-align: center;"> <form method="post"> <input type="hidden" name="yyy" value="7777"> <input type="hidden" name="rrr" value="wssss"> <input type="submit" value="djd ddd" style="width: 250px;"> </form> </td> </tr> </tbody> </table> </body> </html>
初次尝试可能通过 find_all('td', {'colspan': '2', 'strong': True}) 来定位目标 <td> 标签，然后尝试获取 <br> 的 next_sibling。然而，strong: True 并非有效的 td 标签属性，因此这种选择器无法准确匹配。即使能够定位到 <td>，br_tag.next_sibling.strip() 也可能因文本节点或空白字符处理不当而失败。

解决方案：结合 CSS 选择器与 stripped_strings

Beautiful Soup 提供了强大的 CSS 选择器功能，通过 soup.select() 方法可以实现更灵活、精确的元素定位。结合 stripped_strings 属性，我们可以有效地提取所需文本。

立即学习“前端免费学习笔记（深入）”；

Cliclic AI
Cliclic商品背景图编辑器是一款功能强大的AI工具，帮助用户快速生成具有吸引力的商品图背景。

下载

核心思路

使用 :has() 伪类选择器定位父元素： 找到所有包含 <strong> 标签的 <td> 元素。这比直接查找 <strong> 的父级更具描述性，并且可以确保我们只处理包含特定子元素的 <td>。

利用 stripped_strings 提取纯净文本： 对于定位到的每个 <td> 元素，stripped_strings 属性会迭代其所有子孙文本内容，并自动去除多余的空白字符。由于我们的目标文本 "aaa" 或 "bbb" 总是 <td> 中最后一个有意义的文本片段（在 <strong> 和 <br> 之后），我们可以简单地获取 stripped_strings 列表中的最后一个元素。

示例代码

以下是实现这一目标的 Python 代码：
from bs4 import BeautifulSoup # 模拟 HTML 内容 html_text = """\ <html> <head></head> <body> <table style="max-width: 600px; margin: auto;"> <tbody> <tr> <td>Swan</td> <td>Flower</td> </tr> <tr> <td colspan="2" style="background: #ffffff;"> <h5>Playground</h5> </td> </tr> <tr> <td colspan="2"> <strong>Animal:</strong> <br>aaa</td> </tr> <tr> <td colspan="2"> <strong>Fish:</strong> <br>bbb</td> </tr> <tr> <td colspan="2" style="text-align: center;"> <form method="post"> <input type="hidden" name="yyy" value="7777"> <input type="hidden" name="rrr" value="wssss"> <input type="submit" value="djd ddd" style="width: 250px;"> </form> </td> </tr> </tbody> </table> </body>""" # 使用 Beautiful Soup 解析 HTML soup = BeautifulSoup(html_text, "html.parser") # 使用 CSS 选择器定位所有包含 <strong> 标签的 <td> 元素 # ":has(strong)" 伪类选择器用于匹配包含指定子元素的父元素 target_tds = soup.select("td:has(strong)") # 遍历每个目标 <td> 元素并提取所需文本 extracted_texts = [] for td in target_tds: # `td.stripped_strings` 返回一个生成器，迭代所有子孙文本，并去除空白 # 将其转换为列表，并获取最后一个元素，即 `<br>` 后的文本 text = list(td.stripped_strings)[-1] extracted_texts.append(text) print(text) print(f"\n所有提取的文本: {extracted_texts}")
输出结果：
aaa bbb 所有提取的文本: ['aaa', 'bbb']
代码解析

from bs4 import BeautifulSoup: 导入 Beautiful Soup 库。

soup = BeautifulSoup(html_text, "html.parser"): 初始化 Beautiful Soup 对象，使用 html.parser 解析器解析 HTML 文本。

soup.select("td:has(strong)"): 这是关键一步。

td: 选择所有 <td> 标签。

:has(strong): 这是一个 CSS 伪类选择器，它会进一步过滤 <td> 标签，只保留那些内部包含 <strong> 标签的 <td>。这使得我们能够精确地找到目标父元素。

for td in target_tds:: 遍历所有匹配到的 <td> 元素。

text = list(td.stripped_strings)[-1]:

td.stripped_strings: 这个属性返回一个生成器，它会遍历当前 td 标签及其所有子孙标签中的文本内容，并自动去除文本两端的空白字符（如换行符、空格）。

list(...): 将生成器转换为列表，这样我们可以通过索引访问其元素。

[-1]: 获取列表中的最后一个元素。在我们的 HTML 结构中，<strong>Animal:</strong> 是第一个文本片段，而 aaa 是在 <br> 之后，作为 <td> 内的最后一个有意义的文本片段。因此，获取最后一个 stripped_strings 元素就能准确得到我们想要的内容。

注意事项与总结

CSS 选择器的强大性： Beautiful Soup 的 select() 方法支持大部分 CSS3 选择器，包括类选择器、ID 选择器、属性选择器、伪类选择器（如 :nth-of-type, :first-child, :has() 等）。熟练掌握 CSS 选择器能够极大地提高 HTML 元素定位的效率和准确性。

stripped_strings 的应用场景： 当你需要从一个标签内部提取所有纯净的文本内容，并且这些文本可能被其他标签或空白字符分隔时，stripped_strings 是一个非常实用的工具。它能自动处理文本的拼接和空白去除。

HTML 结构分析： 在进行任何数据提取之前，仔细分析目标 HTML 的结构至关重要。通过浏览器开发者工具检查元素的层级关系、属性和文本位置，可以帮助你设计出最有效的选择器和提取逻辑。

健壮性考虑： 这种方法相对 next_sibling 更为健壮，因为它不依赖于 <br> 标签和目标文本之间是否存在空白文本节点。只要目标文本是其父元素内最后一个有意义的文本片段，list(td.stripped_strings)[-1] 就能成功提取。

通过本文的讲解，读者应该能够理解并运用 Beautiful Soup 的 select() 方法和 stripped_strings 属性，高效地从复杂的 HTML 结构中提取出所需的特定文本内容。这种方法不仅适用于本例，也能灵活应用于各种类似的网页数据抓取场景。

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在PEP 668时代高效管理用户级Python环境下一篇：使用正则表达式精确提取不含字母邻接的数学表达式

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

css3教程

php中文网为大家提供css3教程合集，CSS3的语法是建立在CSS原先版本基础上的，它允许使用者在标签中指定特定的HTML元素而不必使用多余的class、ID或JavaScript。php中文网还为大家带来css3的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

427

2023.06.14

有哪些css3渐变属性

css3中渐变属性有linear-gradient、radial-gradient、conic-gradient、repeating-linear-gradient、repeating-radial-gradient等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

143

2023.11.01

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1568

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22