不建议用正则表达式解析XML,因其无法处理嵌套、属性变体、命名空间等复杂结构;仅在格式严格、无嵌套、无属性变化的简单场景下可谨慎使用非贪婪匹配,并优先选用标准XML解析器。

不建议用正则表达式解析或提取 XML 内容,因为 XML 是嵌套、递归、可扩展的结构化语言,而正则表达式不具备处理嵌套层级的能力(例如 `
只匹配单层、无嵌套的开始/结束标签
例如提取形如 中的文本内容:
推荐写法(非贪婪):
匹配 title 标签内的最小一段内容(支持换行需加 s 修饰符,如 /s 在 Python 的 re.DOTALL)。
注意避开常见陷阱:
- 不要用
(贪婪匹配可能导致跨标签捕获)(.*) - 避免匹配到注释
或 CDATA 段,正则无法可靠识别它们 - 不处理自闭合标签如
,需额外规则(如),但仍易误判]*/>
提取带属性的标签(仅限简单情况)
如匹配 中的属性值和文本:
可尝试:
括号分别捕获 id、type 和正文。但该正则会失败于:属性顺序不同、有空格/换行、属性含单引号或转义符、存在其他属性等。
更稳健的做法是限制输入:确保 XML 是机器生成、无换行、属性固定且顺序一致。
为什么不能靠正则处理真实 XML
XML 合法但正则难处理的情况包括:
- 嵌套相同标签:
—— 正则无法计数匹配层级innerouter - 属性值含
>或引号:或 - 命名空间:
- DOCTYPE、PI(处理指令)、实体引用(
&)等
真正该用什么替代正则
请优先使用标准 XML 解析器:
- Python:用
xml.etree.ElementTree(轻量)、lxml(功能强、支持 XPath) - JavaScript:用
DOMParser(浏览器)或fast-xml-parser(Node.js) - Java:用
DocumentBuilder或JAXB - 命令行:用
xmlstar或xq(基于 jq 的 XML 工具)
它们能正确处理编码、命名空间、实体、嵌套、验证,并提供 XPath/XQuery 精准定位——这才是提取 XML 内容的可靠方式。










