PHP不原生支持RTF解析,推荐使用php-rtf-lib(轻量、适合正文提取)或rtf-html-php(转HTML、兼容性好);避免正则硬解析、PEAR Text_RTF及shell调用等不安全或过时方案。

PHP 本身不原生支持 RTF(Rich Text Format)文件的解析,读取 RTF 需要借助第三方库或系统级工具。核心难点在于 RTF 是一种带控制字、嵌套组和编码规则的格式,不是纯文本,直接用 file_get_contents() 只能拿到原始代码,无法提取真实内容或样式。
推荐的 PHP RTF 解析库
目前稳定可用、维护较活跃的主流选择有以下两个:
-
php-rtf-lib(GitHub: github.com/andrey-helldar/php-rtf-lib)
轻量、专注解析,支持基础文本提取、段落结构、字体/颜色等少量格式信息;依赖少(仅需 PHP 7.4+),无外部扩展要求;适合只需“读正文”的场景。 -
rtf-html-php(GitHub: github.com/mtibben/rtf-html-php)
将 RTF 转为 HTML 中间格式再处理,兼容性更好,能还原粗体、斜体、列表、表格等;需注意部分复杂嵌套或新版 Word 生成的 RTF 可能解析不全。
不推荐或需谨慎使用的方案
以下方法存在明显局限,仅在特定条件下可考虑:
-
shell 命令调用(如 unrtf、pandoc)
需服务器允许 exec()、安装对应命令行工具;unrtf 输出简陋,pandoc 更准但依赖大;存在安全风险(RTF 文件若含恶意控制序列可能被利用)。 -
正则硬解析 RTF 源码
RTF 控制字嵌套深、转义多(如 \uN?、\\'xx)、编码混杂(ANSI/UTF-16/Unicode),极易出错;维护成本高,不建议用于生产环境。 -
PEAR 的 Text_RTF
已多年未更新(最后版本 2009),不兼容 PHP 7+,且功能极简,仅适合遗留项目应急。
实际使用建议
根据需求选型后,注意几个关键细节:
立即学习“PHP免费学习笔记(深入)”;
- RTF 文件开头通常含
{\rtf1\ansi\deff0等标识,可用 file_get_contents() 先检查是否为合法 RTF 头,避免误解析其他格式。 - 中文内容需关注字符集声明:若 RTF 含
\ansicpg936(GBK)或\uc1+ Unicode 转义,php-rtf-lib 默认按 UTF-8 处理,可能乱码;建议预处理转码或改用 rtf-html-php(它内部做了编码适配)。 - 若需保留样式并导出 PDF/Word,建议先转 HTML,再用 Dompdf 或 PhpWord 继续处理,比直接解析 RTF 更可靠。











