使用PHP DOMDocument解析HTML并提取元素及其内容与属性

DDD

发布时间：2025-11-11 11:42:16

299人浏览过

来源于php中文网

原创

使用php domdocument解析html并提取元素及其内容与属性

本文详细介绍了如何利用PHP的`DOMDocument`类来高效地解析HTML字符串，并从中提取所有子元素的名称、内容及其属性。通过具体的代码示例，我们将学习如何加载HTML、遍历DOM树以获取任意层级的元素信息，以及如何针对特定元素提取其包含的属性，从而实现对复杂HTML结构的精准数据抓取。

在Web开发中，我们经常需要从HTML内容中提取特定的数据，例如链接、文本或者其他元素。PHP的DOMDocument类提供了一个强大且标准化的方式来解析和操作HTML及XML文档。本教程将深入探讨如何使用DOMDocument来获取一个给定HTML元素内部的所有子元素及其内容和属性。

理解DOMDocument与HTML解析

DOMDocument是PHP内置的DOM扩展的一部分，它允许我们将HTML或XML文档视为一个树状结构（Document Object Model）。通过这个模型，我们可以像操作JavaScript中的DOM一样，访问、修改和遍历文档中的各个节点（元素、属性、文本等）。

当面对一个包含未知数量和类型子标签的HTML片段时，例如一个zuojiankuohaophpcntd>标签内部可能包含<a>、<div>、<span>等多种标签，我们需要一种通用的方法来提取这些信息。简单地获取nodeValue可能只会返回纯文本内容，而丢失了内部标签的结构和属性信息。

立即学习“PHP免费学习笔记（深入）”；

加载HTML内容

首先，我们需要将HTML字符串加载到DOMDocument对象中。loadHTML()方法是完成此任务的关键。

<?php
$html = "<td><a href='http://google.hr'>test1</a><div>Test2</div></td>";
$dom = new DOMDocument();
// 设置内部字符编码，避免中文乱码等问题
@$dom->loadHTML('<?xml encoding="utf-8" ?>' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
// 或者直接加载，但在某些情况下可能导致HTML结构被DOMDocument自动修正
// $dom->loadHTML($html);
?>

注意事项：

loadHTML()方法在解析不完整的HTML片段时，可能会自动添加<html>、<head>、<body>等标签。为了避免这种情况，我们可以使用LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD选项，并可选地在HTML前添加XML声明以帮助DOMDocument正确识别编码。
@符号用于抑制loadHTML可能产生的警告，尤其是在处理非标准或不完整的HTML时。

遍历所有子元素并获取信息

一旦HTML被加载，我们就可以开始遍历DOM树。getElementsByTagName('*')是一个非常有用的方法，它可以获取文档中所有标签名的元素。通过迭代这些元素，我们可以访问每个元素的名称、值以及其他属性。

靠岸学术

一款集翻译，阅读，文献管理于一体的英文文献阅读器

下载

<?php
$html = "<td><a href='http://google.hr'>test1</a><div>Test2</div></td>";
$dom = new DOMDocument();
@$dom->loadHTML('<?xml encoding="utf-8" ?>' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

// 获取所有元素节点
foreach ($dom->getElementsByTagName('*') as $element) {
    echo "--- 元素信息 ---<br>";
    echo "标签名: " . $element->nodeName . "<br>";
    echo "节点值 (textContent): " . $element->textContent . "<br>"; // 获取元素及其所有子元素的纯文本内容
    // 如果需要更详细的调试信息，可以使用 print_r($element);
    // print_r($element);
    echo "<br>";
}
?>

上述代码将输出每个元素的标签名和其包含的纯文本内容。textContent属性会返回元素及其所有后代元素的文本内容，这对于获取元素内部的可见文本非常有用。

获取特定元素的属性信息

仅仅知道元素的标签名和文本内容可能不够。很多时候，我们还需要提取元素的属性，例如<a>标签的href属性或<img>标签的src属性。DOMElement对象提供了hasAttributes()方法来检查元素是否包含属性，以及attributes属性来访问所有属性。

<?php
$html = "<td><a href='http://google.hr'>test1</a><div>Test2</div></td>";
$dom = new DOMDocument();
@$dom->loadHTML('<?xml encoding="utf-8" ?>' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

// 假设我们想获取第一个 'a' 标签的属性
$anchorElements = $dom->getElementsByTagName('a');

if ($anchorElements->length > 0) {
    $p = $anchorElements->item(0); // 获取第一个 'a' 元素
    echo "--- 'a' 标签属性信息 ---<br>";
    if ($p->hasAttributes()) {
        foreach ($p->attributes as $attr) {
            $name = $attr->nodeName;
            $value = $attr->nodeValue;
            echo "属性 '$name' :: '$value'<br />";
        }
    } else {
        echo "该 'a' 标签没有属性。<br>";
    }
} else {
    echo "未找到 'a' 标签。<br>";
}
?>

在这个例子中，我们首先通过getElementsByTagName('a')获取所有<a>标签的集合。然后，我们取出第一个<a>标签，并检查它是否含有属性。如果存在属性，我们遍历attributes集合，获取每个属性的名称（nodeName）和值（nodeValue）。

结合使用：从特定父元素开始遍历

如果我们的目标是从一个已知的父元素（例如，最初问题中提到的<td>）内部开始提取信息，我们可以先定位到这个父元素，然后在其子树中进行遍历。

<?php
$html = "<div><p>外部内容</p></div><td><a href='http://google.hr'>test1</a><div>Test2</div></td>";
$dom = new DOMDocument();
@$dom->loadHTML('<?xml encoding="utf-8" ?>' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

// 获取第一个 'td' 元素
$tdElements = $dom->getElementsByTagName('td');
if ($tdElements->length > 0) {
    $td = $tdElements->item(0); // 获取到目标 td 元素

    echo "--- 从 'td' 内部开始遍历 ---<br>";
    // 遍历 td 元素的所有子元素（包括自身，如果需要）
    // 注意：getElementsByTagName('*')在DOMElement上调用时，会返回该元素的所有后代元素，不包括自身
    foreach ($td->getElementsByTagName('*') as $element) {
        echo "标签名: " . $element->nodeName . ", 内容: " . $element->textContent . "<br>";
        if ($element->hasAttributes()) {
            echo "  - 属性: ";
            $attrs = [];
            foreach ($element->attributes as $attr) {
                $attrs[] = $attr->nodeName . "='" . $attr->nodeValue . "'";
            }
            echo implode(', ', $attrs) . "<br>";
        }
    }
} else {
    echo "未找到 'td' 元素。<br>";
}
?>

通过在$td对象上调用getElementsByTagName('*')，我们确保只遍历<td>标签内部的元素，而不是整个文档。

总结

DOMDocument是PHP处理HTML和XML的强大工具。通过本文的介绍和示例，您应该已经掌握了：

如何使用loadHTML()方法将HTML字符串解析为DOMDocument对象。
如何利用getElementsByTagName('*')遍历文档中的所有元素，并获取其标签名和文本内容。
如何检查元素是否包含属性，并迭代attributes集合来提取属性的名称和值。
如何从特定的父元素开始，限制遍历范围以提高效率和准确性。

掌握这些技术将使您能够有效地从复杂的HTML结构中提取所需的数据，为Web抓取、内容分析等任务打下坚实的基础。在实际应用中，请务必考虑HTML的完整性和规范性，并进行适当的错误处理。

宝塔面板如何升级到最新版本_面板升级操作方法【教程】

Windows下Workerman支持多进程吗_系统限制说明与解决方法【说明】

宝塔面板环境下如何安装并运行Swoole扩展？

Swoole版本回滚怎么操作_Swoole旧版本恢复方法【介绍】

Revolt事件驱动是什么_Workerman5.0底层引擎介绍【介绍】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1949

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1171

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1568

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22