SQL 正则表达式 REGEXP 应用案例

冰川箭仙

发布时间：2026-02-21 00:35:29

629人浏览过

来源于php中文网

原创

mysql 8.0前regexp不支持反向引用和懒惰匹配，提取需用substring_index+locate或升级至8.0+用regexp_substr()；pg用~和regexp_matches()，后者支持捕获但返回数组；sql正则无法替代应用层解析结构化数据。

sql 正则表达式 regexp 应用案例

MySQL 的 `REGEXP` 不支持反向引用和懒惰匹配

MySQL 原生 REGEXP（8.0 之前）用的是 Henry Spencer 的正则引擎，功能非常基础。它不支持 \1 这类捕获组反向引用，也不支持 *? 或 +? 这种懒惰量词——这意味着你没法靠正则直接提取“第一个引号对之间的内容”这种常见需求。

实操建议：

如果必须做分组提取（比如从 "name":"Alice" 中取 Alice），别硬扛，改用 SUBSTRING_INDEX() + LOCATE() 组合，或升级到 MySQL 8.0+ 用 REGEXP_SUBSTR()
避免写类似 \".*\" 去匹配 JSON 字符串值——它会贪婪吞掉中间所有引号，直到最后一个 "，结果错得离谱
MySQL 5.7 及更早版本的 REGEXP 区分大小写，但默认字符集（如 utf8mb4_general_ci）会让比较实际不区分，行为容易误判，建议显式加 BINARY 控制

`REGEXP_SUBSTR()` 在 MySQL 8.0+ 怎么安全提取字段

MySQL 8.0 引入了 REGEXP_SUBSTR()，终于能做子串提取，但它默认只返回第一个匹配，且索引从 1 开始，和多数语言习惯相反。

实操建议：

提取 JSON key 的 value 时，用 REGEXP_SUBSTR(json_col, '"name"[[:space:]]*:[[:space:]]*"([^"]*)"', 1, 1, 'c', 1) —— 第 5 个参数 'c' 表示区分大小写，第 6 个参数 1 指定返回第 1 个捕获组
注意第 4 个参数是「第几次出现」，不是「从第几个字符开始」；想跳过前 N 次匹配，得手动算位置或嵌套调用
空匹配会返回 NULL，不是空字符串，做 COALESCE(..., '') 更稳妥
性能上，REGEXP_SUBSTR() 比纯字符串函数慢不少，高频查询字段建议提前解析并存到单独列

PostgreSQL 的 `~` 和 `regexp_matches()` 行为差异

PostgreSQL 不用 REGEXP 关键字，而是用操作符 ~（区分大小写）和函数 regexp_matches()。前者只返回布尔值，后者才真正提取——这点常被刚从 MySQL 切过来的人忽略。

Asp.net企业项目资料管理系统

1 系统使用三层构架2 数据库访问使用sqlHelper3 编辑器使用FreeTextBox4 布局采用Div+Css5 正则表达式实现数据验证6 动态构建sql查询语句

下载

实操建议：

WHERE col ~ '^\d{3}-\d{2}-\d{4}$' 可以快速过滤社保号格式，但不能取其中段数字；要取，必须用 regexp_matches(col, '(\d{3})-(\d{2})-(\d{4})', 'g')
regexp_matches() 默认只返回第一个匹配，加 'g' 标志才全量；但返回的是 text[] 数组，需配合 UNNEST() 或 (...)[1] 取值
PostgreSQL 正则支持 (?i) 内联标志，比在函数外加参数更灵活，比如 col ~ '(?i)http://'
若正则里有 $，注意它匹配行尾而非字符串尾——多行文本中可能意外失败，改用 \Z

SQL 正则无法替代应用层解析的三个硬伤

无论 MySQL 还是 PostgreSQL，SQL 层正则都只是文本模式扫描工具，不是解析器。它没语法树、不理解嵌套结构、也无法处理转义逻辑。

典型踩坑场景：

解析 CSV 字段：含逗号的带引号字段（"a,b",c,"d""e"）用正则基本不可靠，引号内转义、嵌套引号都会崩
提取 HTML 标签内容：哪怕简单如 <p>hello</p>，遇到 <p onclick="alert('>')">test</p> 就会错切，SQL 没状态机能力
验证邮箱或 URL：RFC 标准正则长达上千字符，SQL 执行慢且难以维护，不如应用层用成熟库（如 Python 的 email-validator）

真正需要结构化提取时，数据库该做的只是粗筛（比如 WHERE content REGEXP 'error|timeout'），精细解析留给应用代码——这不是偷懒，是边界清晰。

SQL 事务的 ACID 特性解析

SQL JSON 数据索引优化方法

SQL Hudi 的 compaction 策略与 clustering 定时任务配置

SQL ClickHouse 的 system.parts 的 MergeTree 合并状态检查

SQL Iceberg 的 hidden partitioning 与 schema 演进能力对比

相关标签:

正则表达式 sql mysql json 正则表达式 NULL Error 字符串 regexp postgresql 数据库 http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL 索引与 ORDER BY 优化技巧下一篇：暂无

作者最新文章

Python 缺失值填充策略的业务选择

2026-02-19 12:34

手机淘宝删除订单记录怎么找回来？手机淘宝删除的订单信息怎么找回

2026-02-19 12:34

没带手机微信电脑版怎么登陆微信电脑版无手机登录解决办法

2026-02-19 13:15

Linux 日志集中收集与分析方法

2026-02-19 13:19

edge怎么设置成中文语言首选项与界面语言切换

2026-02-19 13:29

微信电脑版手机操作微信电脑版手机操作说明

2026-02-19 13:30

GitHub 仓库怎么删除文件？仓库文件删除操作说明

2026-02-19 13:37

SQL 复杂报表生成 SQL 方法

2026-02-19 13:45

腾讯会议声音怎么调设置

2026-02-19 14:07

SQL checkpoint_completion_target 0.9 的检查点平滑分布实践

2026-02-19 14:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1006

2023.10.12