如何在网页爬虫中正确提取超链接并避免 NaN 值

霞舞

发布时间：2026-02-20 22:19:00

499人浏览过

来源于php中文网

原创

如何在网页爬虫中正确提取超链接并避免 NaN 值

本文详解在使用 BeautifulSoup 爬取 EliteProspects 球员统计表格时，为何 Player_URL 列持续返回 NaN，并提供可复用的修复方案：定位嵌套标签、预清洗字段、安全匹配名称，确保链接准确注入 DataFrame。

本文详解在使用 beautifulsoup 爬取 eliteprospects 球员统计表格时，为何 `player_url` 列持续返回 nan，并提供可复用的修复方案：定位嵌套 `eliteprospects nhl 2023–2024 统计页为例，许多开发者尝试通过提取球员个人主页链接，却始终得到 nan —— 根本原因在于： 元素自身不含 href 属性，真正的链接藏在其内部的标签中。

以下是一个精简、健壮且可直接运行的修复版本（基于原代码优化）：

import requests
from bs4 import BeautifulSoup
import pandas as pd

start_url = 'https://www.php.cn/link/8641afa4db7421c9eeaf01260d8afefe'
r = requests.get(start_url, timeout=10)
r.raise_for_status()  # 显式检查 HTTP 错误

soup = BeautifulSoup(r.content, "html.parser")
table = soup.find("table", class_="table table-striped table-sortable player-stats highlight-stats season")

# 提取表头（自动去重 & 清洗）
headers = [th.get_text(strip=True) for th in table.find_all("th")]
df = pd.DataFrame(columns=headers)

# 构建基础数据行（跳过表头行）
for row in table.find_all("tr")[1:]:
    cells = row.find_all(["td", "th"])
    if len(cells) < len(headers):  # 跳过无效行（如分组标题）
        continue
    row_data = [cell.get_text(strip=True).replace('\n', ' ') for cell in cells]
    df.loc[len(df)] = row_data

# ✅ 关键修复：正确提取 Player_URL
df["Player_URL"] = None  # 显式初始化列，避免 SettingWithCopyWarning

for span in table.find_all("span", class_="txt-blue"):
    a_tag = span.find("a")
    if not a_tag or not a_tag.get("href") or not a_tag.get_text(strip=True):
        continue
    player_name = a_tag.get_text(strip=True)
    player_url = a_tag["href"]

    # 安全匹配：df.Player 可能含括号/空格等干扰，需统一清洗
    cleaned_names = df["Player"].str.strip().str.replace(r'\s+', ' ', regex=True)
    match_mask = cleaned_names == player_name

    if match_mask.any():
        df.loc[match_mask, "Player_URL"] = player_url

# 后处理：全局清洗（推荐在填充 URL 后执行，避免干扰字符串匹配）
df = df.replace(r'\s+', ' ', regex=True).applymap(
    lambda x: x.strip() if isinstance(x, str) else x
)

print(df[["Player", "Team", "GP", "G", "A", "TP", "Player_URL"]].head())

⚠️ 关键注意事项与最佳实践

不要直接操作 span.get("href")：HTML 中 John Doe 是典型嵌套结构，href 属于，而非。
名称匹配前必须清洗：原始 Player 列常含换行符（\n）、多余空格或括号（如 "Connor McDavid (C)"），而链接文本通常为 "Connor McDavid"。务必在 df.Player == name 前对双方做 strip() 和正则清理。
避免未定义变量：原代码中 name 未声明即使用，属运行时错误；应从 a_tag.text 动态提取。
防御性编程不可少：添加 if not a_tag: 检查、r.raise_for_status() 和 timeout，防止因网络波动或 DOM 变更导致脚本静默失败。
列初始化显式化：使用 df["Player_URL"] = None 而非依赖 .loc[] 自动创建，提升可读性与稳定性。

? 扩展提示：若需批量爬取多赛季（2007–2023）或多联赛，建议将上述逻辑封装为函数 scrape_season(league, season)，配合 time.sleep(1) 遵守 robots.txt，并用 requests.Session() 复用连接提升效率。球员身高体重等深层字段，则需对 Player_URL 发起二次请求，在个人页中解析对应

XiaoHu.AI
由小互建立的一个AI资讯、教程、课程、工具以及开源项目案例的平台。

下载

/

结构——此时同样适用本教程的核心原则：逐层定位标签、清洗再匹配、异常必兜底。

通过理解 HTML 结构本质而非盲目套用选择器，你不仅能解决当前的 NaN 问题，更能构建出鲁棒、可维护的爬虫管线。

如何正确使用 Python requests 下载受反爬保护的 PDF 文件

如何正确使用 Python requests 下载受保护的 PDF 文件

Scrapy 中重构 parse 方法失效的原因与正确实践

如何将网页爬取的字符串安全转换为 Pandas DataFrame

免费python源码大全_覆盖项目实战、爬虫、数据分析的开源仓库导航

相关标签:

爬虫 beautifulsoup if 封装 Session class dom href 选择器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：基于误差归一化的时序设定值跟踪动态性能评分方法下一篇：暂无

作者最新文章

《轮回之兽》正在进行最后的打磨带来最好体验

2026-02-18 13:22

Java中实现列表间循环减法直至归零的完整教程

2026-02-18 13:28

Go 中全局数据库连接变量的正确声明与跨文件使用方法

2026-02-18 13:29

彩虹主题壁纸如何清理缓存

2026-02-18 13:38

如何在 Go Web 服务中解析并验证 HTTP Basic Auth 凭据

2026-02-18 13:45

塔读小说怎么查看自己的收益

2026-02-18 13:57

Fastify WebSocket 连接在 HTTPS 下失败的解决方案

2026-02-18 14:06

PHP 数据库插入后字段为空的常见原因与修复方案

2026-02-18 14:25

Flexbox 中 textarea 导致意外滚动条的成因与解决方案

2026-02-18 14:55

Go 模板中 {{range .}} 重复渲染问题的根源与正确数据结构设计

2026-02-18 15:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

824

2023.08.22

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

329

2023.10.17