如何使用 PHP 正则表达式精准提取 HTML 中广告区之后的商店区块

聖光之護

发布时间：2026-01-27 14:07:05

979人浏览过

来源于php中文网

原创

如何使用 PHP 正则表达式精准提取 HTML 中广告区之后的商店区块

本文介绍如何在 php 中通过字符串预处理结合正则匹配，跳过网页顶部广告区域，准确提取 `

` 开始、以 `

` 或 `

` 结束的有效商店区块。

在解析类似 ZAP.co.il 商品比价页这类结构化但含干扰区块（如顶部广告商）的 HTML 时，单纯依赖 preg_match_all() 匹配 <div class="StoreLine"> 容易误抓广告区内容——因为广告与真实商店区块共享相同的起始标签。

关键思路不是“在正则中排除广告”，而是先定位并截取广告区之后的主体内容区域，再对干净子串进行精确匹配。观察目标页面 HTML 结构可知：广告区（前 N 个 .StoreLine）之后，紧跟着一个标志性容器 <div class="SortBy">，其后才是用户真正关心的非广告商店列表。

✅ 推荐做法（简洁、可靠、避免复杂正则回溯）：

// 1. 截断：只保留从 '.SortBy' 开始的后续 HTML（自动跳过所有广告区块）
$str = strstr($str, '<div class="SortBy">');
if ($str === false) {
    throw new RuntimeException("无法定位 '.SortBy' 区域，可能页面结构已变更");
}

// 2. 在截取后的子串中，安全匹配每个完整商店区块
$pattern = '/<div\s+class="StoreLine">(.*?)<\/div>\s*?(?=<div\s+class="(SmartBuyButtons|BuyButtons)">)/is';
preg_match_all($pattern, $str, $matches, PREG_SET_ORDER);

// $matches 现在仅包含有效商店区块（含完整 HTML 内容）
foreach ($matches as $match) {
    echo trim($match[1]); // 输出每个 .StoreLine 内部的 HTML 片段
}

⚠️ 注意事项：

Khroma

AI调色盘生成工具

下载

立即学习“PHP免费学习笔记（深入）”；

永远优先使用 DOM 解析器（如 DOMDocument + XPath）处理 HTML；正则仅适用于结构高度稳定、且无嵌套/动态渲染的场景。本例因 .StoreLine 块为扁平同级结构，且目标页无 JS 渲染干扰，可谨慎使用。
原正则 /...*?.../s 存在隐患：.*? 在跨标签时易受注释、JS 脚本或换行符影响；改用非贪婪捕获组 (.*) 并配合 (?=...) 正向先行断言更可控。
若需兼容大小写或空格变体（如 class = "StoreLine"），建议增强正则：/<div\s+class\s*=\s*["\']StoreLine["\']>(.*?)<\/div>/is。
实际生产环境应添加 libxml_use_internal_errors(true) 配合 DOMDocument::loadHTML() 做健壮性兜底。

总结：面对“跳过前 N 个同类区块”的需求，与其在正则中强行判断上下文（易错且难维护），不如利用 HTML 中稳定的语义锚点（如 .SortBy）做预分割——这既是性能更优的选择，也是符合 Web 抓取工程实践的稳健方案。

宝塔面板下数据库导入SQL文件提示“文件过大”该如何调整？

宝塔面板下PHP项目报错504 Gateway Timeout？调整宝塔面板执行超时

如何在宝塔面板中一键清理PHP运行产生的Session垃圾？

如何在宝塔面板中通过WebHook实现代码更新后自动清理缓存？

宝塔面板面板更新后出现乱码该如何通过命令行强制回退版本？

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php html js 正则表达式正则表达式字符串 class JS dom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php怎么判断变量为IPv6地址_phpIPv6地址识别技巧【示例】下一篇：Laravel 8: 自动填充当前登录用户 ID 到多行表单数据

作者最新文章

Go 中为何不能直接转换切片类型？深入解析类型转换规则与安全替代方案

2026-03-12 09:23

Vue 中实现多选限制：仅允许勾选 3 项，其余自动禁用（支持反选）

2026-03-12 09:25

OpenGL 3.x 渲染 20K 精灵体（Sprites）性能优化实战指南

2026-03-12 09:26

上海停车app如何进行预约

2026-03-12 09:27

vscode源控件里怎么好多数字

2026-03-12 09:43

Java 中正确解码 Unicode 私用区（PUA）字符的完整指南

2026-03-12 09:46

《生化危机9》MOD让疯狂难度更难被丧尸咬了会感染

2026-03-12 09:47

如何让图片的20%移出网页可视区域实现“半隐式”视觉效果

2026-03-12 10:09

如何在 Go 的 flag 包中为必需的位置参数提供清晰的 Usage 提示

2026-03-12 10:10

如何让图片的20%移出视口实现“半隐式”边缘展示效果

2026-03-12 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

767

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

548

2023.12.06

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板