0

0

Ruby Nokogiri库怎么解析HTML和XML

月夜之吻

月夜之吻

发布时间:2026-01-01 06:33:28

|

212人浏览过

|

来源于php中文网

原创

nokogiri 是 ruby 中基于 libxml2 的高性能 html/xml 解析库,支持 css 选择器与 xpath;用 nokogiri::html 解析容错 html,nokogiri::xml 解析严格 xml;推荐优先使用 css/at_css 提取元素,xpath 适用于复杂定位;注意编码转换以防中文乱码。

ruby nokogiri库怎么解析html和xml

Nokogiri 是 Ruby 中最成熟、最常用的 HTML/XML 解析库,它底层基于 libxml2(和 libxslt),速度快、稳定性高,支持 CSS 选择器和 XPath,语法简洁直观。

加载 HTML 或 XML 文档

Nokogiri::HTML 解析 HTML(自动修复不规范标签),用 Nokogiri::XML 解析严格 XML(遇到格式错误会报错):

  • doc = Nokogiri::HTML(html_string)
  • doc = Nokogiri::HTML(File.open("page.html"))
  • doc = Nokogiri::XML(xml_string)
  • doc = Nokogiri::XML(File.read("data.xml"))

如果不确定输入是否严格合规,又想解析 XML 内容,可用 Nokogiri::HTML.fragment 提取片段,或加选项 strict: false 容错。

用 CSS 选择器提取元素

这是最常用的方式,写法接近前端开发习惯:

立即学习前端免费学习笔记(深入)”;

  • doc.css("h1") → 所有

    元素

  • doc.css(".title") → class="title" 的元素
  • doc.css("div#main a[href]") → main div 内带 href 的链接
  • doc.at_css("meta[name='description']") → 第一个匹配元素(返回 Node,不是 NodeSet)

注意:css 返回 Nokogiri::XML::NodeSet(可遍历的集合),at_css 返回单个 Node 或 nil,适合取标题、摘要等唯一内容。

极简智能王
极简智能王

极简智能- 智能聊天AI绘画,还可以创作、编写、翻译、写代码等多种功能,满足用户生活和工作的多方面需求

下载

用 XPath 提取更复杂结构

XPath 更强大,适合嵌套定位、条件判断、位置索引等:

  • doc.xpath("//ul[@class='nav']/li[1]/a/text()") → 导航栏第一个链接文字
  • doc.xpath("//*[contains(@class, 'price')]") → class 含 price 的任意元素
  • doc.at_xpath("//img/@src")&.value → 第一张图片的 src 属性值

XPath 表达式里属性用 @attr,文本内容用 text(),注意返回的是 NodeSet,取值需调用 .text.[]&.value 等方法。

读取属性、文本与修改内容

拿到 Node 后,常用操作包括:

  • node.text → 去除标签的纯文本(含子节点文本)
  • node.content → 同 text,但不合并空白
  • node['href']node.attr("href") → 读取属性
  • node.set_attribute("class", "new-class") → 修改属性
  • node.inner_html = "<strong>new</strong>" → 替换内部 HTML
  • node.remove → 删除该节点

批量处理时,通常配合 each 遍历 NodeSet,例如:doc.css("script").remove 可一键清除所有 script 标签。

不复杂但容易忽略:Nokogiri 默认使用 UTF-8 编码,若源文档是 GBK、Shift-JIS 等,需先转码再解析,否则中文可能乱码。可用 string.encode!("UTF-8", "GBK", invalid: :replace) 预处理。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

950

2023.08.02

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1943

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2117

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1159

2024.11.28

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

808

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

26

2025.12.06

li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

1

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

19

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.5万人学习

CSS教程
CSS教程

共754课时 | 40.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号