如何使用正则表达式在 PHP 中精准提取营养成分数据（类别、数值、单位）

花韻仙語

发布时间：2026-01-29 21:12:10

277人浏览过

来源于php中文网

原创

如何使用正则表达式在 PHP 中精准提取营养成分数据（类别、数值、单位）

本文介绍如何通过 preg_match_all 配合命名捕获组正则，从结构化文本中准确分离「标签名」「数值」和「单位」三部分，避免 preg_split 误切空格与标点导致的数据错乱。

在处理类似营养成分表的半结构化文本时，直接使用 preg_split('/[0-9].\s/', $content) 存在根本性缺陷：它试图“按数字+任意字符+空白”切割，但既无法区分数字是标签的一部分（如 Sodium, Na 中的 Na）还是真实数值起点，又会破坏浮点数（如 229.6104534866）的完整性，更无法保留括号、逗号等标签内合法符号——这正是你观察到 Total lipid (fat) 被错误拆分为多段的原因。

正确思路不是「分割」，而是「匹配提取」：每一行本质上是一个三元组 —— 非数字开头的标签（category） + 紧随其后的空白 + 连续数字与小数点组成的数值（value） + 后续空白 + 剩余单位字符串（unit）。因此应使用 preg_match_all() 配合精准锚定的模式：

$pattern = '~^(?P\D+)\s+(?P[\d.]+)\s+(?P.+)~m';

其中关键细节解析：

^ 和 m 修饰符：确保 ^ 匹配每行开头（而非整个字符串开头）；
(?P\D+)：\D 匹配任意非数字字符，+ 表示至少一个，完美涵盖 Weight、Total lipid (fat)、Carbohydrate, by difference 等含空格、逗号、括号的完整标签；
\s+：匹配一个或多个空白（空格/制表符），作为标签与数值间的分隔；
(?P[\d.]+)：明确限定数值仅由数字和小数点构成，排除单位中可能出现的 .（如 kcal 无点，但安全起见仍建议确保输入规范）；
(?P.+)：捕获剩余全部内容作为单位（g、kcal、mg 等），. 在 m 模式下不匹配换行符，保证单行匹配。

完整可运行示例：

立即学习“PHP免费学习笔记（深入）”；

Akkio

Akkio 是一个无代码 AI 的全包平台，任何人都可以在几分钟内构建和部署AI

下载

\D+)\s+(?P[\d.]+)\s+(?P.+)~m';
preg_match_all($pattern, $content, $matches, PREG_SET_ORDER);

// 结构化输出示例
foreach ($matches as $match) {
    echo sprintf(
        "Label: '%s' | Value: '%s' | Unit: '%s'\n",
        trim($match['category']),
        $match['value'],
        trim($match['unit'])
    );
}
?>

输出效果：

Label: 'Weight' | Value: '229.6104534866' | Unit: 'g'
Label: 'Energy' | Value: '374.79170898476' | Unit: 'kcal'
Label: 'Total lipid (fat)' | Value: '22.163422468932' | Unit: 'g'
...

✅ 优势总结：

完整保留标签原始格式（支持空格、逗号、括号、连字符等）；
数值提取精确到小数点，无截断风险；
单位自动捕获，无需额外处理；
PREG_SET_ORDER 返回每行一个关联数组，语义清晰，便于后续 JSON 化或数据库写入。

⚠️ 注意事项：

若输入存在异常行（如无数字、数值含字母），该模式将跳过该行（preg_match_all 默认只返回完全匹配项），建议增加容错逻辑（如预过滤空行或使用 if (count($matches) === 0) 提示错误）；
如需兼容科学计数法（如 1.23e+04），可将 [\d.]+ 扩展为 [\d.]+(?:[eE][+-]?\d+)?；
实际项目中建议对 trim() 后的 category 和 unit 做进一步标准化（如去除多余空格、统一单位缩写）。

此方案以声明式正则替代过程式分割，兼顾鲁棒性与可维护性，是解析此类规则文本的推荐实践。

php怎样快速二维转一维_php快速降维array_merge+array_values【步骤】

php获取本机公网ip怎么实现_php请求外部接口取公网ip【技巧】

php读取rtf文件依赖哪些库_php读取rtf库选择指南【技巧】

php动态网站开发如何加密用户密码_PHP动态网站密码加密技巧【方案】

php数据统计图表纵坐标自适应_php动态调整Y轴范围法【步骤】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php js json go 正则表达式 json 正则表达式 if 关联数组 count 字符串数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 WordPress 页面模板中根据页面名称或 ID 动态设置背景图下一篇：如何在 WordPress 页面模板中根据页面 ID 或名称动态设置背景图

作者最新文章

Intel旗舰酷睿Ultra X9 388H实测：大小核IPC性能全面超越Zen 5/5c

2026-01-29 16:29

如何在并行加载 JavaScript 脚本的同时保证执行顺序

2026-01-29 16:29

JavaScript 中实现数组排序后单次通知的优雅方案

2026-01-29 16:49

脉脉怎么取消自动续费-脉脉关闭自动续费方法

2026-01-29 16:49

动态生成多页面并实现URL路由跳转的JavaScript教程

2026-01-29 16:53

Flask 中如何通过 URL 参数传递多个变量并获取输入框数据

2026-01-29 17:02

如何让 SVG 在 Flex 布局中严格适配父容器高度且保持宽高约束

2026-01-29 17:09

小鹏汽车app如何修改手机号

2026-01-29 17:18

如何使用 Flexbox 实现水平导航列表项等宽自适应填充

2026-01-29 17:34

重返历史杀鬼子！国产抗日FPS《抵抗者》新预告

2026-01-29 17:34

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

419

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

535

2023.08.23