Rvest 网页爬虫实战：高效抓取日本职业棒球联盟（NPB）数据表

心靈之曲

发布时间：2026-02-01 16:06:01

634人浏览过

来源于php中文网

原创

Rvest 网页爬虫实战：高效抓取日本职业棒球联盟（NPB）数据表

本文详解如何使用 r 语言的 rvest 包稳定抓取 npb.jp 网站上的多表格统计数据，重点解决 ssl 证书错误、动态结构识别与 css 选择器失效等常见问题，并提供可复用的健壮代码方案。

在使用 rvest 抓取日本职业棒球联盟（NPB）官网（如 https://npb.jp/bis/eng/2022/stats/std_c.html）时，许多用户会遇到“无法定位表格”的问题——即使 HTML 成功加载，html_nodes() 却返回空结果。这通常并非代码逻辑错误，而是由三方面原因导致：HTTPS 证书验证失败、网页实际 DOM 结构与开发者工具显示不一致、以及目标表格缺乏稳定 ID 或 class 标识。

首先，直接通过 URL 调用 read_html() 可能触发 SSL 证书错误（尤其在 Windows 或某些 R 版本下），导致页面解析中断或返回不完整 HTML。此时建议采用「本地缓存」策略：手动保存网页源码为 .html 文件（浏览器右键 → “查看页面源代码” → 全选复制 → 保存为 UTF-8 编码的 baseball.html），再从本地读取：

library(rvest)
library(magrittr)

# ✅ 推荐：绕过证书问题，确保 HTML 完整加载
url <- "baseball.html"  # 替换为你的本地路径
doc <- read_html(url)

其次，原问题中使用的 CSS 选择器 #stdivmaintbl > table > tbody > tr > td > div:nth-child(1) 过于具体且依赖 DOM 深层嵌套，极易因网页微小更新而失效。经检查，NPB 页面中所有主统计表格均包裹在具有统一类名 stdtblmain 的

中，这是更鲁棒的选择器：

# ✅ 正确：定位所有主数据表容器
tables <- doc %>% html_nodes(".stdtblmain") %>% html_table(fill = TRUE)

html_table(fill = TRUE) 中的 fill = TRUE 参数至关重要——它能自动对齐跨行合并单元格（如 NPB 表中常见的“Team”跨行标题），避免列错位。最终 tables 是一个列表，其中 tables[[1]] 对应球队总览表，tables[[2]] 通常为投手/打者进阶统计表（依页面结构而定）。

VidAU

VidAU AI 是一款AI驱动的数字人视频创作平台，旨在简化视频内容创作流程

下载

⚠️ 注意事项：

编码处理：若出现乱码（如日文字符显示为 ?），请在 read_html() 后显式声明编码：read_html(url, encoding = "UTF-8")；

反爬机制：NPB 官网虽无强反爬，但仍建议添加请求头模拟浏览器访问（适用于直连 URL 场景）：

url <- "https://npb.jp/bis/eng/2022/stats/std_c.html"
doc <- read_html(url, 
                 timeout = 30,
                 httr::user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"))

数据清洗提示：原始表格常含空行、合并标题行及占位符（如 "***" 表示“自身交锋”）。建议后续使用 dplyr::filter(!is.na(X1)) 清理空行，并用 tidyr::pivot_longer() 重构宽表。

总结而言，成功抓取 NPB 数据的关键在于：规避网络层障碍（证书/超时）、选用语义化 CSS 类选择器（.stdtblmain）、启用 fill = TRUE 处理复杂表格结构，并始终以本地 HTML 快照作为调试基准。该模式同样适用于 NPB 其他年份/赛季页面（只需替换 URL 路径），具备良好的可迁移性。

如何实现整张卡片可点击且避免文字下划线

如何解决 CSS :before 伪元素遮挡可编辑 div 输入焦点的问题

如何用 CSS 实现图片悬停时居中显示可点击的文字链接

如何实现响应式多级下拉导航栏（含嵌套子菜单）

如何在父容器 div1 内将 div4 精确定位到右侧

相关标签:

css html node windows 编码浏览器 app 工具 ssl ai win apple 爬虫数据清洗 Filter class dom 选择器 table tbody td tr windows https ssl 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用模态框与 jQuery 动态更新表格行数据下一篇：暂无

作者最新文章

Pinterest 裁员约 15%，探索采用开源 AI 模型降低开发成本

2026-01-29 16:12

如何用 Python 实现一个支持浮点结果的简易大小写敏感计算器

2026-01-29 16:20

Intel显卡战未来！官方确认：XeSS 3多帧生成下月支持B580

2026-01-29 16:25

猫眼电影如何添加电影收藏

2026-01-29 16:51

如何在 Jupyter Notebook 中正确导入自定义类

2026-01-29 16:53

恋小帮搜索话术怎么找

2026-01-29 16:57

如何在运行时通过全限定类名动态反序列化 JSON 并调用 save 方法

2026-01-29 16:59

脉脉怎么开会员-脉脉会员开通方法

2026-01-29 17:00

电脑端如何下载安装网易云音乐客户端

2026-01-29 17:07

美团外卖怎么用

2026-01-29 17:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

class在c语言中的意思

在C语言中，"class" 是一个关键字，用于定义一个类。想了解更多class的相关内容，可以阅读本专题下面的文章。

469

2024.01.03

python中class的含义

本专题整合了python中class的相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.06

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

3416

2024.08.14

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

838

2023.07.26