使用BeautifulSoup和CSS选择器精确抓取HTML中特定span元素

碧海醫心

发布时间：2025-11-26 12:47:27

724人浏览过

来源于php中文网

原创

使用beautifulsoup和css选择器精确抓取html中特定span元素

本教程将深入探讨如何利用Python的BeautifulSoup库结合CSS选择器，高效且精准地从复杂的HTML结构中提取数据。我们将重点介绍如何定位并抓取具有相同类名的`div`容器内部的第一个`span`标签的内容，通过实例代码演示`:first-child`选择器的强大功能，帮助开发者优化数据抓取逻辑，提升代码的简洁性和鲁棒性。

深入理解BeautifulSoup与CSS选择器

在网页数据抓取（Web Scraping）任务中，Python的BeautifulSoup库是处理HTML和XML文档的强大工具。它提供了多种方法来导航、搜索和修改解析树。对于复杂的选择需求，结合CSS选择器是实现精准数据提取的有效策略。

考虑以下HTML结构，其中包含多个具有相同类名networkstat的div元素，每个div内部又包含多个span标签：

<div class="network-ctn animate__animated animate__fadeInUp">
    <h3>Network Overview</h3>
    <div class="networkstat-ctn">
        <div class="networkstat"><span>32</span><span>Games</span></div>
        <div class="networkstat"><span>83,681,202,831.85</span><span>Award</span></div>
        <div class="networkstat"><span>18</span><span>Top players</span></div>
    </div>
</div>

我们的目标是从每个networkstat类的div中，只提取其内部的第一个span标签中的文本内容，例如“32”、“83,681,202,831.85”和“18”。

立即学习“前端免费学习笔记（深入）”；

传统find与find_all方法的局限性（以及可行性）

初学者在处理这类问题时，可能会倾向于使用find_all来获取所有目标div，然后遍历每个div并使用find来获取其内部的第一个span。例如：

from bs4 import BeautifulSoup

html_doc = '''
<div class="network-ctn animate__animated animate__fadeInUp">
                <h3>Network Overview</h3>
                <div class="networkstat-ctn">
                    <div class="networkstat"><span>32</span><span>Games</span></div>
                    <div class="networkstat"><span>83,681,202,831.85</span><span>Award</span></div>
                    <div class="networkstat"><span>18</span><span>Top players</span></div>
                </div>
</div>
'''

soup = BeautifulSoup(html_doc, 'html.parser')

# 这种方法虽然可行，但不够简洁，且在更复杂的场景下可能需要更多逻辑判断
network_stats_divs = soup.find_all("div", class_="networkstat")
values = []
for div in network_stats_divs:
    first_span_value = div.find("span").get_text().strip()
    values.append(first_span_value)

print("使用 find_all 和 find 的结果:", values)

上述代码确实可以达到目的。然而，当HTML结构变得更加复杂，或者需要更精细的定位时，这种方法可能会导致代码冗长或难以维护。更优雅和强大的解决方案是利用BeautifulSoup对CSS选择器的支持。

利用CSS选择器进行精准定位

BeautifulSoup的select()方法允许我们使用CSS选择器来查找匹配的元素。CSS选择器提供了极其灵活和强大的方式来定位HTML文档中的特定节点。

一点PPT

一句话生成专业PPT，AI自动排版配图

下载

针对我们的需求，我们需要选择所有类名为networkstat的div元素内部的第一个span子元素。这可以通过CSS选择器'.networkstat span:first-child'来实现：

.networkstat: 匹配所有类名为networkstat的元素。
span: 在匹配到的networkstat元素内部，进一步匹配所有的span元素。
:first-child: 这是一个伪类选择器，它会选择其父元素的第一个子元素。当与span结合时，它会选择作为其父元素的第一个子元素的span。

将这些组合起来，'.networkstat span:first-child'就精确地选择了每个networkstat类div内部的第一个span标签。

示例代码：使用CSS选择器抓取数据

下面是使用soup.select()方法和CSS选择器实现目标数据抓取的完整示例：

from bs4 import BeautifulSoup
import requests # 假设数据来自网络请求

# 模拟HTML内容，实际应用中可能通过 requests.get(url).content 获取
html_doc = '''
<div class="network-ctn animate__animated animate__fadeInUp">
                <h3>Network Overview</h3>
                <div class="networkstat-ctn">
                    <div class="networkstat"><span>32</span><span>Games</span></div>
                    <div class="networkstat"><span>83,681,202,831.85</span><span>Award</span></div>
                    <div class="networkstat"><span>18</span><span>Top players</span></div>
                </div>
</div>
'''

# 创建BeautifulSoup对象
# 如果是从URL获取，则使用：soup = BeautifulSoup(requests.get(url).content, 'html.parser')
soup = BeautifulSoup(html_doc, 'html.parser')

# 使用CSS选择器精确选择目标span元素
# '.networkstat span:first-child' 意味着选择所有类名为 'networkstat' 的元素内部的第一个 'span' 子元素
target_spans = soup.select('.networkstat span:first-child')

# 遍历并打印提取到的文本内容
print("使用CSS选择器抓取的数据:")
for span_element in target_spans:
    print(span_element.get_text().strip())

# 如果需要将数据存储到列表中
extracted_values = [span.get_text().strip() for span in target_spans]
print("提取到的值列表:", extracted_values)

运行上述代码，将得到以下输出：

使用CSS选择器抓取的数据:
32
83,681,202,831.85
18
提取到的值列表: ['32', '83,681,202,831.85', '18']

这完美地实现了我们的目标，代码简洁且易于理解。

注意事项与总结

CSS选择器的强大性： CSS选择器远不止:first-child。它们包括类选择器（.class）、ID选择器（#id）、标签选择器（tag）、属性选择器（[attr=value]）、伪类（如:nth-child, :last-child）和伪元素等，可以组合使用以实现极其复杂的选择逻辑。熟练掌握CSS选择器是提高BeautifulSoup使用效率的关键。
select()与find/find_all： select()方法总是返回一个列表，即使只找到一个元素或没有找到元素。而find()返回单个元素或None，find_all()返回一个列表。在需要使用CSS选择器时，优先考虑select()。
错误处理： 在实际的网络抓取中，HTML结构可能不总是符合预期。建议在访问元素属性或调用get_text()之前，检查元素是否存在（例如，通过判断列表是否为空，或元素是否为None）。
网页动态加载： BeautifulSoup只能处理静态HTML内容。如果目标数据是通过JavaScript动态加载的，你可能需要结合Selenium等工具来模拟浏览器行为。

通过本教程，您应该已经掌握了如何使用BeautifulSoup和CSS选择器，特别是:first-child伪类，来高效且精准地从HTML文档中抓取特定数据。这种方法不仅代码更加简洁，而且在面对复杂多变的网页结构时，也展现出更好的适应性和可维护性。

如何通过 CSS 媒体查询实现桌面端样式与移动端样式的精准分离

如何在移动端移除桌面端的绝对定位与外边距样式？

如何通过 CSS 媒体查询实现桌面端样式隔离与移动端重置

如何为 JavaScript 中的动态玩家名称添加样式

HTML粗体文字怎么写_HTML中使用粗体标签的完整指南【指南】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1949

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1171

2024.11.28

class在c语言中的意思

在C语言中，"class" 是一个关键字，用于定义一个类。想了解更多class的相关内容，可以阅读本专题下面的文章。

891

2024.01.03

python中class的含义

本专题整合了python中class的相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.06

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板