Schematron是一种基于XPath的XML验证语言,专注业务规则而非结构定义,通过assert/report实现断言检查,由schema、pattern、rule三层结构组成,常与XSD互补使用。

什么是Schematron
Schematron 是一种基于 XPath 的 XML 文档验证语言,它不描述数据结构,而是表达业务规则和逻辑约束。和 XML Schema(XSD)不同,Schematron 不关心元素是否合法、是否嵌套正确、类型是否匹配,而是专注“这个 XML 是否满足我的业务要求”。比如:“每个 book 元素必须包含一个非空的 title”,或“当 status 为 archived 时,expiryDate 不得为空”。这类判断靠断言(assert)或报告(report)实现。
Schematron 规则的基本结构
一个 Schematron 文件本质是 XML,核心由三部分组成:
-
schema:根元素,声明命名空间
http://purl.oclc.org/dsdl/schematron - pattern:一组相关规则的容器,可带 ID 和名称,用于组织逻辑域(如“元数据规则”“业务状态规则”)
-
rule:定义验证上下文(用
@context指定 XPath 路径),内部包含或
例如:
每本图书必须有非空标题。 图书价格必须大于零。
如何用 Python(lxml)做 Schematron 验证
最常用且轻量的方式是使用 lxml.etree.Schematron。前提是已安装 lxml(pip install lxml):
- 把 Schematron 规则读作
etree.XML()对象,传给etree.Schematron()构造器 - 用
etree.parse()加载待验证的 XML 文档 - 调用
schematron.validate(xml_doc),返回布尔值 - 若失败,可用
schematron.error_log查看具体哪条断言未通过、在哪一行
注意:lxml 内置的 Schematron 支持基于 ISO Schematron 1.5 标准,但不支持所有高级特性(如 或外部变量)。复杂场景建议配合 Jing 工具链。
常见验证模式与实用技巧
实际编写规则时,几个高频要点:
- 用
normalize-space()判断文本是否真正非空,避免仅含空格的“假内容” - 跨元素约束用相对 XPath,如
../author或following-sibling::date - 报错信息尽量写清楚,直接面向业务人员,例如“发货日期不能早于下单日期”比“assert failed at line 42”有用得多
- 多个 pattern 可按模块拆分,再用
合并,便于复用和维护
它不替代 XSD,而是互补——XSD 确保“语法正确”,Schematron 保证“语义合理”。两者结合,XML 数据质量才真正可控。










