0

0

PHP 正则表达式:如何匹配 HTML 中的所有标题

WBOY

WBOY

发布时间:2023-06-22 22:14:52

|

1520人浏览过

|

来源于php中文网

原创

php 中使用正则表达式匹配 html 标题是一种常见的操作。网页的标题通常用于展示页面的大致内容,便于用户理解和浏览。而在一些场合中,我们需要从 html 中提取所有的标题,从而进行后续的处理。

本文将介绍如何使用 PHP 正则表达式,快速有效地提取 HTML 中的所有标题。

一、HTML 标题的分类

在 HTML 页面中,有多种类型的标题,可以使用以下标签进行定义:

  1. h1 ~ h6 标签:用于表示标题的等级,h1 最高,h6 最低;
  2. title 标签:用于定义网页的标题,位于 head 标签中;
  3. meta 标签:用于定义网页的元数据,常用于搜索引擎优化。

二、PHP 正则表达式

立即学习PHP免费学习笔记(深入)”;

正则表达式是一种强大的搜索和替换工具,可以有效地处理文本字符串。在 PHP 中,我们可以使用 preg_match()、preg_match_all()、preg_replace() 等函数来实现正则表达式的匹配。

下面是一些常用的正则表达式语法:

  1. d:匹配数字字符;
  2. w:匹配字母数字、下划线;
  3. s:匹配空白字符;
  4. ^:匹配字符串的开头;
  5. $:匹配字符串的结尾;
  6. *:匹配任意个数的前一个字符;
  7. +:匹配至少一个前一个字符;
  8. ?:匹配零个或一个前一个字符;
  9. []:匹配一个字符集合;
  10. ():将一个表达式分组,用于后续操作。

三、匹配 HTML 中的所有标题

下面我们将分别介绍如何使用 PHP 正则表达式,匹配 HTML 页面中的不同类型的标题。

  1. h1 ~ h6 标签

首先,我们来看如何匹配 h1 ~ h6 标签中的标题。假设我们有以下的 HTML 代码:




    HTML 标题示例


    

这是一级标题

这是二级标题

这是三级标题

这是四级标题

这是五级标题
这是六级标题

我们可以使用 preg_match_all() 函数和正则表达式 /(.*?)[1-6]>/,来提取其中所有的标题:

$html = file_get_contents('example.html');
preg_match_all('/(.*?)/', $html, $matches);
print_r($matches[0]);

上述代码中,我们使用 file_get_contents() 函数读取 HTML 文件内容,然后使用 preg_match_all() 函数和正则表达式 /(.*?)[1-6]>/,来匹配其中的 h1 ~ h6 标题。

正则表达式中的 /(.*?)[1-6]>/,表示匹配 h1 ~ h6 标签内部的字符串,其中 (.*?) 表示非贪婪模式,匹配尽量少的字符。

输出结果如下:

Array
(
    [0] => 

这是一级标题

[1] =>

这是二级标题

[2] =>

这是三级标题

[3] =>

这是四级标题

[4] =>
这是五级标题
[5] =>
这是六级标题
)

可以看到,我们成功匹配了 HTML 页面中所有的 h1 ~ h6 标题。

  1. title 标签

接下来,我们来看如何匹配 title 标签中的网页标题。假设我们有以下的 HTML 代码:




    HTML 标题示例


    

这是一级标题

段落内容

SpeechEasy
SpeechEasy

SpeechEasy是一种合成语音解决方案,可以让用户从文本生成高质量、易于理解的音频。

下载

这是二级标题

段落内容

我们可以使用 preg_match() 函数和正则表达式 /(.*?)/,来提取其中的网页标题:

$html = file_get_contents('example.html');
preg_match('/(.*?)/', $html, $matches);
echo $matches[1];

上述代码中,我们使用 file_get_contents() 函数读取 HTML 文件内容,然后使用 preg_match() 函数和正则表达式 /(.*?)/,来匹配其中的 title 标签。

正则表达式中的 /(.*?)/,表示匹配 title 标签内部的字符串,其中 (.*?) 表示非贪婪模式,匹配尽量少的字符。

输出结果如下:

HTML 标题示例

可以看到,我们成功匹配了 HTML 页面的网页标题。

  1. meta 标签

最后,我们来看如何匹配 meta 标签中的元数据。假设我们有以下的 HTML 代码:




    HTML 标题示例
    
    
    


    

这是一级标题

段落内容

这是二级标题

段落内容

我们可以使用 preg_match_all() 函数和正则表达式 /]+s)*names*=s*(['"]?)keywords([^>]+s)*>/,来提取其中的关键词元数据:

$html = file_get_contents('example.html');
preg_match_all('/]+s)*names*=s*(['"]?)keywords([^>]+s)*>/', $html, $matches);
print_r($matches[0]);

上述代码中,我们使用 file_get_contents() 函数读取 HTML 文件内容,然后使用 preg_match_all() 函数和正则表达式 /]+s)*names*=s*(['"]?)keywords([^>]+s)*>/,来匹配其中的关键词元数据。

正则表达式中的 /]+s)*names*=s*(['"]?)keywords([^>]+s)*>/,表示匹配 name 属性为 keywords 的 meta 标签内部的字符串。

输出结果如下:

Array
(
    [0] => 
)

可以看到,我们成功匹配了 HTML 页面中的关键词元数据。

四、总结

本文介绍了如何使用 PHP 正则表达式,匹配 HTML 页面中的不同类型的标题。通过使用 preg_match()、preg_match_all()、preg_replace() 等函数,并结合正则表达式的语法和规则,我们可以很方便地提取 HTML 代码中的相关信息,进而进行后续的处理和分析。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

10

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

29

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

13

2026.01.22

PHP特殊符号教程合集
PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法,阅读专题下面的文章了解更多详细内容。

11

2026.01.22

PHP探针相关教程合集
PHP探针相关教程合集

本专题整合了PHP探针相关教程,阅读专题下面的文章了解更多详细内容。

8

2026.01.22

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

55

2026.01.22

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 9.2万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 10.4万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号