如何使用 PHP 正则表达式精准提取网页中非广告区的商品店铺区块

聖光之護

发布时间：2026-01-27 13:43:00

490人浏览过

来源于php中文网

原创

如何使用 PHP 正则表达式精准提取网页中非广告区的商品店铺区块

本文介绍在解析电商比价页面时，如何通过字符串预处理结合正则匹配，跳过顶部广告区块、准确提取所有真实商家信息（每个以 `

` 开始、以 `

` 或 `

` 结束的区块）。

在实际网页抓取（如解析 ZAP.co.il 商品比价页）过程中，常遇到结构相似但语义不同的 HTML 区块：顶部是推广广告商家（同样使用 zuojiankuohaophpcndiv class="StoreLine">），而下方才是真实比价结果。若直接对全文用 preg_match_all() 匹配 StoreLine 到 BuyButtons 的闭合区块，会错误包含广告内容。

核心思路不是“在正则中跳过前 N 个”——而是先定位语义分界点，截断无关前导 HTML，再进行精确匹配。
该页面中，广告区与真实比价区之间存在一个稳定的结构锚点：<div class="SortBy">（即“按价格/评分排序”标题栏）。它标志着广告结束、真实商家列表开始。因此，应优先使用 strstr() 提取从该标记起的后续全部 HTML：

// 截取从第一个 <div class="SortBy"> 开始的子串（含该标签）
$str = strstr($str, '<div class="SortBy">');
if ($str === false) {
    throw new RuntimeException('未找到 SortBy 分隔标识，可能页面结构已变更');
}

完成预处理后，再执行安全、非贪婪的正则匹配：

$pattern = '/<div\s+class="StoreLine">(.*?)<(?:div\s+class="SmartBuyButtons"|div\s+class="BuyButtons")>/is';
preg_match_all($pattern, $str, $matches, PREG_SET_ORDER);

// $matches 现在只包含真实商家区块（含完整 HTML 片段）
$stores = [];
foreach ($matches as $match) {
    $stores[] = $match[0]; // 完整匹配字符串（含 StoreLine 至 BuyButtons）
}

✅ 关键优化说明：

使用 i（忽略大小写）和 s（. 匹配换行符）修饰符提升鲁棒性；
.*? 采用非贪婪模式，避免跨区块误匹配；
替换原正则中易出错的 *.*? 冗余写法，明确限定起始标签为 <div\s+class="StoreLine">（\s+ 更容错空格/换行）；
使用 PREG_SET_ORDER 返回结构化数组，便于后续 DOM 解析或字段提取。

⚠️ 注意事项：

ModelGate

一站式AI模型管理与调用工具

下载

立即学习“PHP免费学习笔记（深入）”；

此方案依赖页面稳定的语义分隔符（如 SortBy）。若目标站点改版，需同步更新锚点选择器；
强烈建议后续用 DOMDocument 或 simple_html_dom 解析 $stores 中的 HTML 片段，而非二次正则提取价格/店名——更健壮、可维护；
生产环境务必添加异常处理与超时控制，避免因网络或 HTML 异常导致脚本中断。

总结：正则表达式擅长“局部模式匹配”，但面对复杂 HTML 层级结构时，“先宏观截断、再微观提取”往往比强行设计超长正则更简洁、高效且易于调试。

Windows下Workerman支持多进程吗_系统限制说明与解决方法【说明】

宝塔面板环境下如何安装并运行Swoole扩展？

Swoole版本回滚怎么操作_Swoole旧版本恢复方法【介绍】

Revolt事件驱动是什么_Workerman5.0底层引擎介绍【介绍】

Swoole隐藏内存池配置_Swoole内存池优化汇总【详解】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php html 正则表达式正则表达式字符串 class dom 选择器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php按冒号分割文本只取前两段_php冒号分割取前两段法【技巧】下一篇：php统计数据图表API接口设计_php返回JSON供前端绘图【技巧】

作者最新文章

Go 中为何不能直接转换切片类型？深入解析类型转换规则与安全替代方案

2026-03-12 09:23

Vue 中实现多选限制：仅允许勾选 3 项，其余自动禁用（支持反选）

2026-03-12 09:25

OpenGL 3.x 渲染 20K 精灵体（Sprites）性能优化实战指南

2026-03-12 09:26

上海停车app如何进行预约

2026-03-12 09:27

vscode源控件里怎么好多数字

2026-03-12 09:43

Java 中正确解码 Unicode 私用区（PUA）字符的完整指南

2026-03-12 09:46

《生化危机9》MOD让疯狂难度更难被丧尸咬了会感染

2026-03-12 09:47

如何让图片的20%移出网页可视区域实现“半隐式”视觉效果

2026-03-12 10:09

如何在 Go 的 flag 包中为必需的位置参数提供清晰的 Usage 提示

2026-03-12 10:10

如何让图片的20%移出视口实现“半隐式”边缘展示效果

2026-03-12 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板