0

0

如何使用 Pandas 直接提取 HTML 表格中指定列的超链接(而非文本)

霞舞

霞舞

发布时间:2026-02-25 23:50:02

|

999人浏览过

|

来源于php中文网

原创

如何使用 Pandas 直接提取 HTML 表格中指定列的超链接(而非文本)

本文详解如何利用 pandas.read_html 的 extract_links 参数配合数据清洗,从网页表格中精准提取超链接并构造完整 url,避免依赖 beautifulsoup,实现纯 pandas 流程化网页结构化数据采集。

本文详解如何利用 pandas.read_html 的 extract_links 参数配合数据清洗,从网页表格中精准提取超链接并构造完整 url,避免依赖 beautifulsoup,实现纯 pandas 流程化网页结构化数据采集。

在使用 pandas.read_html() 抓取网页表格时,若目标列包含 文本 形式的超链接(如 ESPNcricinfo 的“Scorecard”列),默认仅返回可见文本,丢失关键跳转信息。虽然 extract_links 参数支持提取链接,但其输出格式为 (text, href) 元组,且 href 多为相对路径或缺失协议,需进一步处理才能获得可用 URL。

核心解决方案:extract_links="body" + 列级元组解析 + 基础 URL 拼接

pandas.read_html(url, extract_links="body") 会将表格中所有 标签所在单元格替换为 (link_text, href) 元组(无链接则为 (text, None))。随后通过 apply() 对每列进行向量化处理,提取 href 并补全协议与域名:

import pandas as pd

url = 'https://www.espncricinfo.com/records/year/team-match-results/2005-2005/twenty20-internationals-3'
base_url = 'https://www.espncricinfo.com'

# 提取整表,所有含链接的单元格变为 (text, href) 元组
table = pd.read_html(url, extract_links="body")[0]

# 遍历每列,解包元组:取 href;若为 None 则保留原文本(极少发生);否则拼接 base_url
table = table.apply(
    lambda col: [
        v[1] if v[1] is not None else v[0]  # 优先取 href,无链接时回退到文本
        for v in col
    ]
)

# 若 href 为相对路径(如 "/series/xxx"),需手动补全
# 此处示例中 href 已含完整路径,但通用做法如下:
table = table.apply(
    lambda col: [
        f"{base_url}{v[1]}" if v[1] and v[1].startswith('/') else 
        v[1] if v[1] else v[0]
        for v in col
    ]
)

关键优势

ExcelFormulaBot
ExcelFormulaBot

在AI帮助下将文本指令转换为Excel函数公式

下载

立即学习前端免费学习笔记(深入)”;

  • 零外部依赖:全程仅用 pandas,无需 BeautifulSoup 或 lxml;
  • 列粒度可控:extract_links="body" 作用于全部数据单元格,后续可对特定列(如 "Scorecard")单独处理,避免污染其他列;
  • URL 可靠性高:显式拼接 base_url 确保链接可直接访问,规避相对路径失效风险。

⚠️ 注意事项

进阶技巧:仅处理目标列,提升效率与安全性
若只需 "Scorecard" 列的链接,可先提取该列再处理,避免遍历无关列:

scorecard_col = table.iloc[:, -1]  # 假设 Scorecard 是最后一列
scorecard_links = [
    f"{base_url}{v[1]}" if v[1] else None
    for v in scorecard_col
]
table["Scorecard_URL"] = scorecard_links
table = table.drop(columns=[table.columns[-1]])  # 删除原始文本列

至此,你已获得一个结构清晰、链接可用的 Pandas DataFrame,可直接用于后续分析、存储或批量请求详情页。这一方法平衡了简洁性与鲁棒性,是动态网页静态表格链接提取的推荐实践。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

9

2026.01.31

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2695

2024.08.16

batoto漫画官网入口与网页版访问指南
batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口,涵盖最新官网地址、网页版登录页面及防走失访问方式说明,帮助用户快速找到batoto漫画官方平台,稳定在线阅读各类漫画内容。

127

2026.02.25

Steam官网正版入口与注册登录指南_新手快速进入游戏平台方法
Steam官网正版入口与注册登录指南_新手快速进入游戏平台方法

本专题系统整理Steam官网最新可用入口,涵盖网页版登录地址、新用户注册流程、账号登录方法及官方游戏商店访问说明,帮助新手玩家快速进入Steam平台,完成注册登录并管理个人游戏库。

18

2026.02.25

TypeScript全栈项目架构与接口规范设计
TypeScript全栈项目架构与接口规范设计

本专题面向全栈开发者,系统讲解基于 TypeScript 构建前后端统一技术栈的工程化实践。内容涵盖项目分层设计、接口协议规范、类型共享机制、错误码体系设计、接口自动化生成与文档维护方案。通过完整项目示例,帮助开发者构建结构清晰、类型安全、易维护的现代全栈应用架构。

15

2026.02.25

Python数据处理流水线与ETL工程实战
Python数据处理流水线与ETL工程实战

本专题聚焦 Python 在数据工程场景下的实际应用,系统讲解 ETL 流程设计、数据抽取与清洗、批处理与增量处理方案,以及数据质量校验与异常处理机制。通过构建完整的数据处理流水线案例,帮助开发者掌握数据工程中的性能优化思路与工程化规范,为后续数据分析与机器学习提供稳定可靠的数据基础。

1

2026.02.25

Java领域驱动设计(DDD)与复杂业务建模实战
Java领域驱动设计(DDD)与复杂业务建模实战

本专题围绕 Java 在复杂业务系统中的建模与架构设计展开,深入讲解领域驱动设计(DDD)的核心思想与落地实践。内容涵盖领域划分、聚合根设计、限界上下文、领域事件、贫血模型与充血模型对比,并结合实际业务案例,讲解如何在 Spring 体系中实现可演进的领域模型架构,帮助开发者应对复杂业务带来的系统演化挑战。

1

2026.02.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.4万人学习

AngularJS教程
AngularJS教程

共24课时 | 3.8万人学习

CSS教程
CSS教程

共754课时 | 36.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号