如何使用 Pandas 直接提取 HTML 表格中指定列的超链接（而非文本）

霞舞

发布时间：2026-02-25 23:50:02

999人浏览过

来源于php中文网

原创

如何使用 Pandas 直接提取 HTML 表格中指定列的超链接（而非文本）

本文详解如何利用 pandas.read_html 的 extract_links 参数配合数据清洗，从网页表格中精准提取超链接并构造完整 url，避免依赖 beautifulsoup，实现纯 pandas 流程化网页结构化数据采集。

本文详解如何利用 pandas.read_html 的 extract_links 参数配合数据清洗，从网页表格中精准提取超链接并构造完整 url，避免依赖 beautifulsoup，实现纯 pandas 流程化网页结构化数据采集。

在使用 pandas.read_html() 抓取网页表格时，若目标列包含文本形式的超链接（如 ESPNcricinfo 的“Scorecard”列），默认仅返回可见文本，丢失关键跳转信息。虽然 extract_links 参数支持提取链接，但其输出格式为 (text, href) 元组，且 href 多为相对路径或缺失协议，需进一步处理才能获得可用 URL。

核心解决方案：extract_links="body" + 列级元组解析 + 基础 URL 拼接

pandas.read_html(url, extract_links="body") 会将表格中所有标签所在单元格替换为 (link_text, href) 元组（无链接则为 (text, None)）。随后通过 apply() 对每列进行向量化处理，提取 href 并补全协议与域名：

import pandas as pd

url = 'https://www.espncricinfo.com/records/year/team-match-results/2005-2005/twenty20-internationals-3'
base_url = 'https://www.espncricinfo.com'

# 提取整表，所有含链接的单元格变为 (text, href) 元组
table = pd.read_html(url, extract_links="body")[0]

# 遍历每列，解包元组：取 href；若为 None 则保留原文本（极少发生）；否则拼接 base_url
table = table.apply(
    lambda col: [
        v[1] if v[1] is not None else v[0]  # 优先取 href，无链接时回退到文本
        for v in col
    ]
)

# 若 href 为相对路径（如 "/series/xxx"），需手动补全
# 此处示例中 href 已含完整路径，但通用做法如下：
table = table.apply(
    lambda col: [
        f"{base_url}{v[1]}" if v[1] and v[1].startswith('/') else 
        v[1] if v[1] else v[0]
        for v in col
    ]
)

✅ 关键优势

ExcelFormulaBot
在AI帮助下将文本指令转换为Excel函数公式

下载

立即学习“前端免费学习笔记（深入）”；

零外部依赖：全程仅用 pandas，无需 BeautifulSoup 或 lxml；

列粒度可控：extract_links="body" 作用于全部数据单元格，后续可对特定列（如 "Scorecard"）单独处理，避免污染其他列；

URL 可靠性高：显式拼接 base_url 确保链接可直接访问，规避相对路径失效风险。

⚠️ 注意事项

extract_links 不支持按列指定（如仅提取第5列链接），需全表提取后筛选列处理；

部分网站 href 为绝对 URL（含 https://），部分为根相对路径（/path）或页面相对路径（./path），建议统一用 urllib.parse.urljoin(base_url, href) 安全拼接；

若表格含多层嵌套或 JavaScript 渲染链接，read_html 无法解析，此时必须切换至 Selenium 或 Playwright。

进阶技巧：仅处理目标列，提升效率与安全性
若只需 "Scorecard" 列的链接，可先提取该列再处理，避免遍历无关列：

scorecard_col = table.iloc[:, -1]  # 假设 Scorecard 是最后一列
scorecard_links = [
    f"{base_url}{v[1]}" if v[1] else None
    for v in scorecard_col
]
table["Scorecard_URL"] = scorecard_links
table = table.drop(columns=[table.columns[-1]])  # 删除原始文本列

至此，你已获得一个结构清晰、链接可用的 Pandas DataFrame，可直接用于后续分析、存储或批量请求详情页。这一方法平衡了简洁性与鲁棒性，是动态网页静态表格链接提取的推荐实践。

如何让原生 HTML popover 在页面加载时默认展开

HTML5WebWorker怎么用_HTML5多线程后台运行脚本操作指南【详解】

HTML5视频倍速播放怎么调_HTML5播放器控制播放速度方法【教程】

如何实现标题两行排版并让Logo精准右对齐首行文字

HTML5富文本限制字数_HTML5ContentEditable输入长度截断与计数提示操作【攻略】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2695

2024.08.16

batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口，涵盖最新官网地址、网页版登录页面及防走失访问方式说明，帮助用户快速找到batoto漫画官方平台，稳定在线阅读各类漫画内容。

127

2026.02.25

Steam官网正版入口与注册登录指南_新手快速进入游戏平台方法

本专题系统整理Steam官网最新可用入口，涵盖网页版登录地址、新用户注册流程、账号登录方法及官方游戏商店访问说明，帮助新手玩家快速进入Steam平台，完成注册登录并管理个人游戏库。

2026.02.25

TypeScript全栈项目架构与接口规范设计

本专题面向全栈开发者，系统讲解基于 TypeScript 构建前后端统一技术栈的工程化实践。内容涵盖项目分层设计、接口协议规范、类型共享机制、错误码体系设计、接口自动化生成与文档维护方案。通过完整项目示例，帮助开发者构建结构清晰、类型安全、易维护的现代全栈应用架构。

2026.02.25

Python数据处理流水线与ETL工程实战

本专题聚焦 Python 在数据工程场景下的实际应用，系统讲解 ETL 流程设计、数据抽取与清洗、批处理与增量处理方案，以及数据质量校验与异常处理机制。通过构建完整的数据处理流水线案例，帮助开发者掌握数据工程中的性能优化思路与工程化规范，为后续数据分析与机器学习提供稳定可靠的数据基础。

2026.02.25

Java领域驱动设计（DDD）与复杂业务建模实战

本专题围绕 Java 在复杂业务系统中的建模与架构设计展开，深入讲解领域驱动设计（DDD）的核心思想与落地实践。内容涵盖领域划分、聚合根设计、限界上下文、领域事件、贫血模型与充血模型对比，并结合实际业务案例，讲解如何在 Spring 体系中实现可演进的领域模型架构，帮助开发者应对复杂业务带来的系统演化挑战。

2026.02.25

热门下载

网站特效

网站源码

网站素材

前端模板