0

0

利用PHP DOM解析器高效提取指定HTML标题及其紧邻段落

霞舞

霞舞

发布时间:2025-12-03 12:22:02

|

1002人浏览过

|

来源于php中文网

原创

利用PHP DOM解析器高效提取指定HTML标题及其紧邻段落

本教程详细介绍了如何使用php的domdocument和domxpath库,从复杂的html字符串中准确提取特定级别的标题(如h3)及其紧邻的第一个段落。文章强调了避免使用正则表达式解析html的重要性,并提供了一个健壮的dom解析方案,通过xpath查询和元素遍历,实现精确的数据提取,确保代码的稳定性和可维护性。

引言:为何不推荐使用正则表达式解析HTML

在处理HTML内容时,许多开发者会倾向于使用正则表达式来提取所需数据。然而,HTML并非一种规则语言,其结构复杂且存在许多变体(如可选标签、不规范嵌套、属性顺序不一等),这使得编写一个能够稳定、准确解析所有HTML情况的正则表达式变得极其困难,甚至不可能。一旦HTML结构稍有变化,正则表达式就可能失效,导致维护成本高昂且容易出错。

业界普遍共识是,对于HTML解析,应使用专门的HTML解析器。PHP提供了DOMDocument和DOMXPath这两个强大的内置类,它们能够将HTML解析为DOM(文档对象模型)树,允许我们以结构化的方式遍历和查询元素,从而实现更精确、更健壮的数据提取。

使用PHP DOMDocument和DOMXPath提取H3标题及其首段

本节将详细介绍如何利用DOMDocument和DOMXPath来解决从HTML字符串中提取所有

标题及其紧邻的第一个

段落的需求。

1. 准备HTML数据

首先,我们需要一个包含目标标题和段落的HTML字符串作为输入。

立即学习PHP免费学习笔记(深入)”;

<?php

$html = <<<TAG
<h1>This is my title</h1>

<p>This is a text right under my h1 title.</p>
<p>This is some more text under my h1 title</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>

<h3>First h3</h3>
<p>First paragraph for the first h3</p>

<h3>Second h3</h3>
<p>First paragraph for the second h3</p>

<h3>Third h3</h3>
<p>First paragraph for the third h3</p>
<p>Second paragraph for the third h3</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>
TAG;

?>

2. 加载HTML到DOMDocument

DOMDocument类用于将HTML或XML文档加载到内存中,并将其解析为DOM树。

// 创建一个新的DOMDocument实例
$dom = new DomDocument();

// 加载HTML字符串
// LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD 选项用于处理HTML片段,
// 避免DOMDocument自动添加不必要的<html>、<body>、<!DOCTYPE>标签,
// 这对于解析非完整HTML文档非常有用。
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

3. 创建DOMXPath对象进行查询

DOMXPath类允许我们使用XPath查询语言来选择DOM树中的节点。XPath是一种强大的查询语言,专门用于在XML或HTML文档中查找信息。

// 创建DOMXPath实例,关联到DOMDocument
$xpath = new DOMXPath($dom);

4. 查询所有H3标题并遍历

使用XPath查询表达式//h3可以选中文档中所有

飞书多维表格
飞书多维表格

表格形态的AI工作流搭建工具,支持批量化的AI创作与分析任务,接入DeepSeek R1满血版

下载

标签。DOMXPath::query()方法会返回一个DOMNodeList对象,其中包含了所有匹配的DOMElement节点。
// 查询所有<h3>标签
$results = $xpath->query("//h3");

// 存储提取到的标题和段落
$extractedData = [];

// 遍历所有找到的<h3>元素
foreach ($results as $h3Element) {
    // 获取<h3>标签的文本内容
    $h3Text = $h3Element->textContent;

    // 初始化段落文本为空
    $paragraphText = '';

    // 获取当前<h3>元素的下一个兄弟元素
    // nextElementSibling 属性返回紧邻当前元素的下一个兄弟元素节点,
    // 如果没有,则返回 null。
    $nextElement = $h3Element->nextElementSibling;

    // 检查下一个元素是否存在且其标签名是否为'p'
    if ($nextElement && 'p' === $nextElement->nodeName) {
        // 如果是<p>标签,则获取其文本内容
        $paragraphText = $nextElement->textContent;
    }

    // 将提取到的数据添加到结果数组
    $extractedData[] = [
        'heading' => $h3Text,
        'paragraph' => $paragraphText
    ];
}

5. 输出结果

最后,我们可以遍历extractedData数组,以所需的格式输出提取到的标题和段落。

// 按照期望格式输出结果
foreach ($extractedData as $item) {
    echo "<h3>" . $item['heading'] . "</h3>";
    echo "<p>" . $item['paragraph'] . "</p>";
}

完整示例代码

<?php

$html = <<<TAG
<h1>This is my title</h1>

<p>This is a text right under my h1 title.</p>
<p>This is some more text under my h1 title</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>

<h3>First h3</h3>
<p>First paragraph for the first h3</p>

<h3>Second h3</h3>
<p>First paragraph for the second h3</p>

<h3>Third h3</h3>
<p>First paragraph for the third h3</p>
<p>Second paragraph for the third h3</p>

<h2>This is my level 2 heading</h2>
<p>This is text right under my level 2 heading</p>
TAG;

// 创建一个新的DOMDocument实例
$dom = new DomDocument();

// 加载HTML字符串
// LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD 选项用于处理HTML片段,
// 避免DOMDocument自动添加不必要的<html>、<body>、<!DOCTYPE>标签,
// 这对于解析非完整HTML文档非常有用。
// @ 符号用于抑制loadHTML可能产生的警告,因为HTML不总是规范的
@$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

// 创建DOMXPath实例,关联到DOMDocument
$xpath = new DOMXPath($dom);

// 查询所有<h3>标签
$h3Elements = $xpath->query("//h3");

// 存储提取到的标题和段落
$extractedData = [];

// 遍历所有找到的<h3>元素
foreach ($h3Elements as $h3Element) {
    // 获取<h3>标签的文本内容
    $h3Text = $h3Element->textContent;

    // 初始化段落文本为空
    $paragraphText = '';

    // 获取当前<h3>元素的下一个兄弟元素
    // nextElementSibling 属性返回紧邻当前元素的下一个兄弟元素节点,
    // 如果没有,则返回 null。
    $nextElement = $h3Element->nextElementSibling;

    // 检查下一个元素是否存在且其标签名是否为'p'
    if ($nextElement && 'p' === $nextElement->nodeName) {
        // 如果是<p>标签,则获取其文本内容
        $paragraphText = $nextElement->textContent;
    }

    // 将提取到的数据添加到结果数组
    $extractedData[] = [
        'heading' => $h3Text,
        'paragraph' => $paragraphText
    ];
}

// 按照期望格式输出结果
echo "<!-- Expected output -->\n";
foreach ($extractedData as $item) {
    echo "<h3>" . $item['heading'] . "</h3>\n";
    echo "<p>" . $item['paragraph'] . "</p>\n";
}

?>

预期输出

<!-- Expected output -->
<h3>First h3</h3>
<p>First paragraph for the first h3</p>
<h3>Second h3</h3>
<p>First paragraph for the second h3</p>
<h3>Third h3</h3>
<p>First paragraph for the third h3</p>

注意事项与最佳实践

  1. 错误处理:DOMDocument::loadHTML()方法在遇到不规范的HTML时可能会发出警告。在生产环境中,可以使用libxml_use_internal_errors(true)来捕获这些错误而不是直接输出,然后通过libxml_get_errors()获取错误信息进行处理。
  2. XPath的灵活性:DOMXPath的强大之处在于其XPath查询能力。例如,如果你只需要特定父元素下的h3,可以使用更具体的XPath路径,如//div[@class="content"]/h3。
  3. nextElementSibling与nextSibling:nextElementSibling只返回元素节点,而nextSibling会返回包括文本节点、注释节点在内的任何类型的兄弟节点。在本例中,我们只关心元素,因此nextElementSibling是更合适的选择。
  4. HTML结构的假设:本教程的解决方案假设

    后面紧跟着的第一个元素如果是

    ,就是我们需要的段落。如果HTML结构更复杂,例如

    之间可能存在其他标签(如

    ),或者段落可能不在紧邻位置,那么需要调整逻辑,可能需要更复杂的XPath查询或更深入的DOM遍历。
  5. 内存消耗:对于非常大的HTML文件,将整个文件加载到DOMDocument可能会消耗大量内存。在这种情况下,可能需要考虑流式解析器或分块处理。
  6. 总结

    通过本教程,我们学习了如何利用PHP的DOMDocument和DOMXPath库,以一种健壮且高效的方式从HTML字符串中提取特定的标题及其紧邻的第一个段落。这种方法避免了正则表达式解析HTML的固有缺陷,提供了更高的准确性、稳定性和可维护性。掌握DOM解析技术是处理HTML内容时一项非常重要的技能,能够帮助开发者构建更可靠、更专业的Web应用程序。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.4万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号