使用 Beautiful Soup 从非结构化 HTML 中精确提取特定文本

霞舞

发布时间：2025-10-22 09:11:25

653人浏览过

来源于php中文网

原创

使用 Beautiful Soup 从非结构化 HTML 中精确提取特定文本

本文详细介绍了如何利用 python 的 beautiful soup 库，结合 css 选择器（特别是 `:has` 伪类），从非结构化 html 中精确提取特定文本内容。通过定位包含特定子元素的 `

` 标签，并巧妙运用 `stripped_strings` 方法获取并筛选出所需文本，本教程提供了一种高效且鲁棒的网页数据抓取方案，适用于处理复杂或不规则的 html 结构。

在网页数据抓取（Web Scraping）任务中，我们经常需要从结构不规则或复杂的 HTML 文档中提取特定的文本信息。例如，当目标文本紧跟在一个 标签之后，并且其父元素 <td> 内部还包含其他标签（如 ）时，传统的 find() 或 find_all() 方法配合简单的属性选择可能难以精确锁定。本文将深入探讨如何使用 Beautiful Soup 库结合强大的 CSS 选择器来解决这类挑战。

挑战：从特定 HTML 结构中提取文本

考虑以下 HTML 片段，我们需要提取 "Animal:" 和 "Fish:" 后面的文本 "aaa" 和 "bbb"。这些文本都位于 <td> 标签内，紧随一个 标签，并且其 <td> 父元素中还包含一个 标签。

<html>
<head></head>
<body>
    <table style="max-width: 600px; margin: auto;">
        <tbody>
            <tr>
                <td>Swan</td>
                <td>Flower</td>
            </tr>
            <tr>
                <td colspan="2" style="background: #ffffff;">
                    <h5>Playground</h5>
                </td>
            </tr>
            <tr>
                <td colspan="2">
                    <strong>Animal:</strong>
                    <br>aaa</td>
            </tr>
            <tr>
                <td colspan="2">
                    <strong>Fish:</strong>
                    <br>bbb</td>
            </tr>
            <tr>
                <td colspan="2" style="text-align: center;">
                    <form method="post">
                        <input type="hidden" name="yyy" value="7777">
                        <input type="hidden" name="rrr" value="wssss">
                        <input type="submit" value="djd ddd" style="width: 250px;">
                    </form>
                </td>
            </tr>
        </tbody>
    </table>
</body>
</html>

初始尝试可能包括使用 find_all('td', {'colspan': '2', 'strong': True})，但这种方式无法正确匹配，因为 'strong': True 并非 td 标签的有效属性。即使能够找到 <td> 标签，如何可靠地获取 后的文本也是一个问题，因为 next_sibling 可能返回换行符或空格，需要额外的清理。

解决方案：利用 Beautiful Soup 的 CSS 选择器

Beautiful Soup 提供了 select() 方法，允许我们使用强大的 CSS 选择器来定位元素，这在处理复杂结构时非常有效。特别是 :has() 伪类，它允许我们选择包含特定子元素的父元素。

靠岸学术

一款集翻译，阅读，文献管理于一体的英文文献阅读器

下载

立即学习“前端免费学习笔记（深入）”；

核心思路

定位目标 <td> 标签： 使用 CSS 选择器 td:has(strong) 来精确选择所有内部包含 标签的 <td> 元素。这避免了直接检查 td 的属性，而是关注其内容结构。
提取文本内容： 对于每个匹配到的 <td> 元素，使用 stripped_strings 属性。这个属性会迭代元素及其所有子孙节点中的文本字符串，并自动去除多余的空白字符。由于我们知道目标文本 "aaa" 或 "bbb" 总是位于 和 之后，它将是 stripped_strings 迭代器中的最后一个有效字符串。

示例代码

from bs4 import BeautifulSoup

html_text = """\
<html>
<head></head>
<body>
    <table style="max-width: 600px; margin: auto;">
        <tbody>
            <tr>
                <td>Swan</td>
                <td>Flower</td>
            </tr>
            <tr>
                <td colspan="2" style="background: #ffffff;">
                    <h5>Playground</h5>
                </td>
            </tr>
            <tr>
                <td colspan="2">
                    <strong>Animal:</strong>
                    <br>aaa</td>
            </tr>
            <tr>
                <td colspan="2">
                    <strong>Fish:</strong>
                    <br>bbb</td>
            </tr>
            <tr>
                <td colspan="2" style="text-align: center;">
                    <form method="post">
                        <input type="hidden" name="yyy" value="7777">
                        <input type="hidden" name="rrr" value="wssss">
                        <input type="submit" value="djd ddd" style="width: 250px;">
                    </form>
                </td>
            </tr>
        </tbody>
    </table>
</body>"""

# 使用 Beautiful Soup 解析 HTML
soup = BeautifulSoup(html_text, "html.parser")

# 使用 CSS 选择器定位包含 <strong> 标签的 <td> 元素
# ":has(strong)" 伪类确保我们只选择那些内部确实有 <strong> 标签的 td
target_td_elements = soup.select("td:has(strong)")

# 遍历所有匹配的 <td> 元素并提取所需文本
extracted_texts = []
for td in target_td_elements:
    # stripped_strings 会迭代元素及其子孙节点中的所有文本字符串，并去除空白
    # 由于目标文本 'aaa'/'bbb' 是在 <strong> 和 <br> 之后，
    # 它将是 stripped_strings 迭代器中的最后一个有效字符串。
    # 将迭代器转换为列表并取最后一个元素
    text = list(td.stripped_strings)[-1]
    extracted_texts.append(text)
    print(text)

print("\n所有提取的文本:", extracted_texts)

输出结果：

aaa
bbb

所有提取的文本: ['aaa', 'bbb']

关键概念解析

soup.select("td:has(strong)"):
- soup.select() 是 Beautiful Soup 中用于执行 CSS 选择器的方法。
- td 匹配所有的 <td> 标签。
- :has(strong) 是一个 CSS 伪类，它会过滤掉那些不包含 子元素的 <td> 标签。这使得选择器非常精确，只关注我们感兴趣的 <td> 结构。
td.stripped_strings:
- 这是一个生成器，它会遍历当前标签 td 及其所有后代标签中的文本内容。
- 它会自动去除文本字符串两端的空白字符，并且会跳过完全由空白组成的字符串，这使得提取的文本非常干净。
- 对于 <td>Animal: aaa</td> 这个结构，stripped_strings 会按顺序生成 'Animal:' 和 'aaa'。
list(td.stripped_strings)[-1]:
- 将 stripped_strings 生成器转换为一个列表。
- [-1] 索引用于获取列表中的最后一个元素，即我们需要的 "aaa" 或 "bbb"。这种方法对于这种特定结构非常可靠，因为它确保了我们总是获取到 之后、<td> 结束之前的最后一个文本片段。

注意事项与最佳实践

CSS 选择器的灵活性： :has() 伪类在 Beautiful Soup 4.7.0 及以上版本中支持。如果遇到更复杂的嵌套或兄弟节点关系，可以结合其他 CSS 选择器，如 + (相邻兄弟选择器)、~ (通用兄弟选择器)、> (子元素选择器) 等，来构建更精确的匹配规则。
HTML 解析器： 示例中使用了 html.parser，这是一个 Python 内置的解析器。对于格式不佳的 HTML，lxml (需要单独安装) 通常更快且更健壮，可以替换为 BeautifulSoup(html_text, "lxml")。
错误处理： 在实际应用中，如果 td.stripped_strings 可能为空或者不包含预期数量的字符串，直接访问 [-1] 可能会导致 IndexError。可以增加条件判断或 try-except 块来增强代码的健壮性。
```
strings = list(td.stripped_strings)
if strings:
    text = strings[-1]
    extracted_texts.append(text)
```
动态内容： 如果网页内容是通过 JavaScript 动态加载的，仅使用 requests 和 Beautiful Soup 可能无法获取到完整内容。此时需要考虑使用 Selenium 或 Playwright 等工具来模拟浏览器行为。

总结

通过本文的介绍，我们学习了如何利用 Beautiful Soup 结合强大的 CSS 选择器（尤其是 :has() 伪类）和 stripped_strings 属性，高效且精确地从非结构化 HTML 中提取特定文本。这种方法比简单的属性匹配或 DOM 遍历更加灵活和鲁棒，尤其适用于处理那些文本内容被包裹在复杂标签结构中的场景。掌握这些技巧将极大地提升你在网页数据抓取任务中的效率和成功率。

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素