
std::regex 是 C++11 引入的标准库正则表达式工具,支持基础的模式匹配、查找、替换和子匹配提取。它语法接近 Perl 风格(ECMAScript 默认),但功能比 Python 或 JavaScript 的正则略精简,且性能和错误提示较弱——使用时需注意编译选项(如 -std=c++11 或更高)、异常处理和 locale 兼容性。
基本匹配:判断字符串是否符合模式
用 std::regex_match 检查整个字符串是否完全匹配正则;用 std::regex_search 查找子串是否匹配(更常用)。
-
regex_match("123", std::regex(R"(\d+)"))→ true(全串匹配数字) -
regex_match("abc123", std::regex(R"(\d+)"))→ false(不全匹配) -
regex_search("abc123", std::regex(R"(\d+)"))→ true(找到子串 "123")
建议优先用 regex_search,除非你明确要求“从头到尾严格匹配”。注意原始字符串字面量 R"(...)" 可避免反斜杠转义混乱,比如写 R"(\w+@\w+\.\w+)" 比 "\\w+@\\w+\\.\\w+" 更清晰。
提取匹配内容:获取捕获组或全部匹配结果
用 std::smatch 存储匹配详情,配合 regex_search 或 regex_iterator 遍历所有匹配。
立即学习“C++免费学习笔记(深入)”;
- 单次匹配:
smatch m; if (regex_search(s, m, pattern)) { cout (m.str(0)是整个匹配,m.str(1)是第一个括号组) - 多次匹配:
for (sregex_iterator it(s.begin(), s.end(), pattern); it != sregex_iterator(); ++it) { cout str(); }
例如匹配邮箱:regex pattern(R"((\w+)@(\w+\.\w+))");,m.str(1) 得用户名,m.str(2) 得域名。
字符串替换:简单替换与格式化替换
std::regex_replace 返回新字符串,原字符串不变。支持字面替换和基于捕获组的格式化替换(类似 Python 的 \1)。
- 字面替换:
regex_replace("a1b2c3", regex(R"(\d)"), "X")→ "aXbXcX" - 捕获组引用:
regex_replace("2023-04-01", regex(R"((\d{4})-(\d{2})-(\d{2}))"), "$2/$3/$1")→ "04/01/2023" - 注意:
$1、$2是 ECMAScript 风格(C++ 默认),不是\1;若想用\1,需加 flagstd::regex_constants::basic
实用提醒:常见坑与优化建议
std::regex 在部分标准库实现(如 libstdc++ 旧版本)中性能较差、不支持某些特性(如 lookahead),且编译失败时只抛 std::regex_error,错误信息有限。
- 预编译正则对象(
static const regex pat{R"(...)"}),避免重复构造 - 简单场景(如固定分隔符拆分)优先用
find/substr,比正则快得多 - 调试时可先用在线工具(如 regex101.com,选 ECMAScript 模式)验证模式
- 中文或 Unicode 字符需确保字符串为 UTF-8 编码,并注意 std::regex 对 Unicode 支持有限(不支持 \p{L} 等)
不复杂但容易忽略。











