TMX是一种开放XML标准格式,用于跨CAT工具无损共享双语翻译数据;其结构含必填元信息的和存翻译单元的,支持UTF-8等编码及规范实体转义,解决跨平台迁移、协作标准化与人机协同三大问题。

TMX(Translation Memory eXchange)是一种专为翻译记忆库设计的开放XML标准格式,核心作用是让不同CAT工具之间能安全、无损地共享和迁移已有的双语翻译数据。它不依赖特定软件,也不绑定某家厂商,所以Trados、memoQ、Déjà Vu甚至自研系统都能读写同一份TMX文件。
TMX的结构组成
一个合法TMX文件必须是标准XML,根元素为
-
:包含元信息,比如创建工具名(creationtool)、源语言(srclang)、目标语言(trglang)、字符编码(o-encoding)、分段类型(segtype)等。其中creationtool、srclang、adminlang、datatype、segtype、o-tmf这6项为必填属性。 -
:存放全部翻译单元(
),每个 代表一个独立的源文–译文对。它内部至少含两个 (Translation Unit Variant),分别标注不同语言(如en和zh-CN),每个 里用 包裹实际文本内容。
语言与字符规范
TMX支持UTF-8、UTF-16和ASCII(ISO-646)三种编码,推荐统一使用UTF-8以兼容中日韩及特殊符号。XML中只允许5种实体转义:&(&)、(>(>)、'(')、"(")。其他特殊字符应直接以UTF-8原样保存,不必转义。
一个最小可用TMX示例
以下是一个合法、可被主流CAT工具识别的极简TMX片段(中英对照):
为什么TMX至今仍是行业通用格式
它解决了三个关键问题:
- 跨平台迁移——客户换用新CAT工具时,不用重翻历史项目,导出TMX再导入即可复用90%以上已有译文;
- 协作标准化——多个译员共用同一份TM,只要都按TMX规范存入,就不会因工具差异导致术语或句段错位;
- 与机器翻译联动——现代工作流常将TMX作为“人机协同”的中间层:先用MT初译,再用TMX匹配高亮重复/近似句段,人工审校后回写更新TMX。









