如何从混合 ResultSet 中按标题分组提取后续数据

花韻仙語

发布时间：2026-01-30 11:45:01

215人浏览过

来源于php中文网

原创

如何从混合 ResultSet 中按标题分组提取后续数据

本文介绍如何在解析无明确结构的 html 表格时，根据 `

` 标题标签中的关键词（如 "mlb"）定位，并精准抓取其后所有同级 ` ` 数据行，直到下一个标题 ` ` 出现为止。核心在于合理利用 beautifulsoup 的 `find_next_siblings()` 和状态驱动遍历。

在实际网页爬虫开发中，常会遇到一类“伪多表”结构：整个

内并无独立分隔，而是通过带标题语义的

（如 "MLB Spring Training - Monday, March 27th"）作为逻辑分组标识，其后紧跟若干	表示具体赛事条目，直至下一个同类	出现——这种模式虽不符合标准 HTML 表格规范，却广泛存在于体育赛事、日程公告等动态页面中。要可靠提取某类分组（如 MLB）下的全部赛事数据，关键在于建立上下文感知的遍历逻辑。以下是两种经过验证的专业方案： ✅ 方案一：基于 find_next_siblings() 的声明式定位（推荐）该方法语义清晰、可读性强，适用于已知目标 NatAgent AI数据情报监测与分析平台下载	易于识别的场景（如含明确文本关键词）： from bs4 import BeautifulSoup # 假设 soup 已加载完整 HTML td_headers = soup.find_all('td', class_='head1') # 精准定位标题行（避免匹配 head1x） target_keyword = 'MLB' for td in td_headers: if target_keyword in td.get_text(): # 获取该	后所有同级兄弟标签，直到下一个	next_ths = [] for sibling in td.find_next_siblings(): if sibling.name == 'td' and 'head1' in sibling.get('class', []): break # 遇到新分组标题，停止收集 if sibling.name == 'th': next_ths.append(sibling) # 解析每个	中的时间与队伍信息 games = [] for th in next_ths: date_div = th.find('div') # 第一个 div 通常是日期 time_div = th.find('div', class_='time') # 时间子 div teams = [div.get_text(strip=True) for div in th.find_all('div') if div != date_div and div != time_div] games.append({ 'date': date_div.get_text(strip=True) if date_div else None, 'time': time_div.get_text(strip=True) if time_div else None, 'teams': teams[:2] if len(teams) >= 2 else teams }) print(f"Found {len(games)} MLB games:") for g in games: print(f" {g['date']} {g['time']} — {' vs '.join(g['teams'])}") break # 仅处理第一个匹配项（如需全部，移除此行） ⚠️ 注意事项：使用 soup.find_all('td', class_='head1') 而非泛化的 find_all('td')，可避免误匹配等装饰性单元格； find_next_siblings() 返回的是文档顺序中紧邻的后续兄弟节点，天然符合“标题后连续数据行”的逻辑； break 在遇到下一个 head1 时终止，确保不跨组混入 NHL 或 NBA 数据。 ✅ 方案二：单次线性遍历 + 状态机（内存高效）当 ResultSet 已预先扁平化为 cells = row.find_all(['th','td']) 列表时，推荐用状态变量控制流程，避免重复 DOM 遍历： cells = [] for row in soup_table.tbody.find_all("tr"): cells.extend(row.find_all(['th', 'td'])) mlb_games = [] in_mlb_section = False for cell in cells: # 进入 MLB 分组 if (cell.name == 'td' and 'head1' in cell.get('class', []) and 'MLB' in cell.get_text()): in_mlb_section = True continue # 退出当前分组（遇到任意其他 head1 标题） if (cell.name == 'td' and 'head1' in cell.get('class', []) and 'MLB' not in cell.get_text()): in_mlb_section = False continue # 收集 MLB 分组内的 th 数据 if in_mlb_section and cell.name == 'th': # 提取时间与队伍（同上） date = cell.find('div').get_text(strip=True) if cell.find('div') else '' time_el = cell.find('div', class_='time') time_str = time_el.get_text(strip=True) if time_el else '' teams = [d.get_text(strip=True) for d in cell.find_all('div')[1:]][:2] mlb_games.append({'date': date, 'time': time_str, 'teams': teams}) print(f"Extracted {len(mlb_games)} MLB entries.") ? 总结建议优先使用方案一：代码意图明确，调试友好，适合多数中小型爬虫任务；方案二适用于流式处理或内存敏感场景：仅遍历一次 DOM，适合超长表格；始终通过 class 属性（如 'head1'）而非标签名做标题判定，提升鲁棒性；对 get_text() 使用 strip=True 防止空白字符干扰关键词匹配；若目标站点存在动态加载，需确认 soup 已包含完整渲染后 HTML（必要时集成 Selenium）。掌握这两种模式，即可灵活应对各类“标题+数据块”混合结构，为体育、金融、课表等垂直领域爬虫打下坚实基础。

（如 "MLB Spring Training - Monday, March 27th"）作为逻辑分组标识，其后紧跟若干

表示具体赛事条目，直至下一个同类

出现——这种模式虽不符合标准 HTML 表格规范，却广泛存在于体育赛事、日程公告等动态页面中。

要可靠提取某类分组（如 MLB）下的全部赛事数据，关键在于建立上下文感知的遍历逻辑。以下是两种经过验证的专业方案：

✅ 方案一：基于 find_next_siblings() 的声明式定位（推荐）

该方法语义清晰、可读性强，适用于已知目标

NatAgent

AI数据情报监测与分析平台

下载

易于识别的场景（如含明确文本关键词）：

from bs4 import BeautifulSoup

# 假设 soup 已加载完整 HTML
td_headers = soup.find_all('td', class_='head1')  # 精准定位标题行（避免匹配 head1x）
target_keyword = 'MLB'

for td in td_headers:
    if target_keyword in td.get_text():
        # 获取该

后所有同级兄弟标签，直到下一个

next_ths = [] for sibling in td.find_next_siblings(): if sibling.name == 'td' and 'head1' in sibling.get('class', []): break # 遇到新分组标题，停止收集 if sibling.name == 'th': next_ths.append(sibling) # 解析每个

中的时间与队伍信息 games = [] for th in next_ths: date_div = th.find('div') # 第一个 div 通常是日期 time_div = th.find('div', class_='time') # 时间子 div teams = [div.get_text(strip=True) for div in th.find_all('div') if div != date_div and div != time_div] games.append({ 'date': date_div.get_text(strip=True) if date_div else None, 'time': time_div.get_text(strip=True) if time_div else None, 'teams': teams[:2] if len(teams) >= 2 else teams }) print(f"Found {len(games)} MLB games:") for g in games: print(f" {g['date']} {g['time']} — {' vs '.join(g['teams'])}") break # 仅处理第一个匹配项（如需全部，移除此行）

⚠️ 注意事项：使用 soup.find_all('td', class_='head1') 而非泛化的 find_all('td')，可避免误匹配等装饰性单元格； find_next_siblings() 返回的是文档顺序中紧邻的后续兄弟节点，天然符合“标题后连续数据行”的逻辑； break 在遇到下一个 head1 时终止，确保不跨组混入 NHL 或 NBA 数据。

✅ 方案二：单次线性遍历 + 状态机（内存高效）

当 ResultSet 已预先扁平化为 cells = row.find_all(['th','td']) 列表时，推荐用状态变量控制流程，避免重复 DOM 遍历：

cells = []
for row in soup_table.tbody.find_all("tr"):
    cells.extend(row.find_all(['th', 'td']))

mlb_games = []
in_mlb_section = False

for cell in cells:
    # 进入 MLB 分组
    if (cell.name == 'td' 
        and 'head1' in cell.get('class', [])
        and 'MLB' in cell.get_text()):
        in_mlb_section = True
        continue

    # 退出当前分组（遇到任意其他 head1 标题）
    if (cell.name == 'td' 
        and 'head1' in cell.get('class', [])
        and 'MLB' not in cell.get_text()):
        in_mlb_section = False
        continue

    # 收集 MLB 分组内的 th 数据
    if in_mlb_section and cell.name == 'th':
        # 提取时间与队伍（同上）
        date = cell.find('div').get_text(strip=True) if cell.find('div') else ''
        time_el = cell.find('div', class_='time')
        time_str = time_el.get_text(strip=True) if time_el else ''
        teams = [d.get_text(strip=True) for d in cell.find_all('div')[1:]][:2]
        mlb_games.append({'date': date, 'time': time_str, 'teams': teams})

print(f"Extracted {len(mlb_games)} MLB entries.")

? 总结建议

优先使用方案一：代码意图明确，调试友好，适合多数中小型爬虫任务；
方案二适用于流式处理或内存敏感场景：仅遍历一次 DOM，适合超长表格；
始终通过 class 属性（如 'head1'）而非标签名做标题判定，提升鲁棒性；
对 get_text() 使用 strip=True 防止空白字符干扰关键词匹配；
若目标站点存在动态加载，需确认 soup 已包含完整渲染后 HTML（必要时集成 Selenium）。

掌握这两种模式，即可灵活应对各类“标题+数据块”混合结构，为体育、金融、课表等垂直领域爬虫打下坚实基础。

HTML5如何实现文字换行_强制换行与自动换行处理办法【教程】

html如何word_HTML内容转换为Word文档的步骤【详解】

HTML5如何设置文字最大宽度_maxwidth防止文字过宽技巧【指南】

如何防止卡片内容在小屏幕中溢出

如何转html_其他格式文件转换为HTML方法【教程】

相关标签:

word html app ai 爬虫金融 spring beautifulsoup break class dom table tbody td th

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何让 Flex 容器内的多张图片自动等比缩放以适应父容器宽度下一篇：暂无

作者最新文章

Intel旗舰酷睿Ultra X9 388H实测：大小核IPC性能全面超越Zen 5/5c

2026-01-29 16:29

如何在并行加载 JavaScript 脚本的同时保证执行顺序

2026-01-29 16:29

JavaScript 中实现数组排序后单次通知的优雅方案

2026-01-29 16:49

脉脉怎么取消自动续费-脉脉关闭自动续费方法

2026-01-29 16:49

动态生成多页面并实现URL路由跳转的JavaScript教程

2026-01-29 16:53

Flask 中如何通过 URL 参数传递多个变量并获取输入框数据

2026-01-29 17:02

如何让 SVG 在 Flex 布局中严格适配父容器高度且保持宽高约束

2026-01-29 17:09

小鹏汽车app如何修改手机号

2026-01-29 17:18

如何使用 Flexbox 实现水平导航列表项等宽自适应填充

2026-01-29 17:34

重返历史杀鬼子！国产抗日FPS《抵抗者》新预告

2026-01-29 17:34

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

spring框架介绍

本专题整合了spring框架相关内容，想了解更多详细内容，请阅读专题下面的文章。

115

2025.08.06

Java Spring Security 与认证授权

本专题系统讲解 Java Spring Security 框架在认证与授权中的应用，涵盖用户身份验证、权限控制、JWT与OAuth2实现、跨站请求伪造（CSRF）防护、会话管理与安全漏洞防范。通过实际项目案例，帮助学习者掌握如何使用 Spring Security 实现高安全性认证与授权机制，提升 Web 应用的安全性与用户数据保护。

2026.01.26