0

0

docx文件的document.xml是什么 如何从中提取文本内容

畫卷琴夢

畫卷琴夢

发布时间:2026-01-23 08:35:22

|

836人浏览过

|

来源于php中文网

原创

document.xml 是 docx 文件 zip 包中存储文档主体结构化内容的 xml 文件,位于 word/document.xml 路径,含段落、文本、样式引用等,但不含图片、元数据及页眉页脚等内容。

docx文件的document.xml是什么 如何从中提取文本内容

document.xml 是什么

document.xml 是一个 ZIP 压缩包内部的 XML 文件,位于 DOCX 文件的 word/document.xml 路径下。DOCX 本质上是多个 XML、rels、media 等文件组成的 ZIP 包,document.xml 存储了文档主体的结构化内容(段落、文字、样式引用等),但不包含二进制资源(如图片)或元数据(如作者、修改时间)。

它不是纯文本,而是带命名空间的 XML,含大量 w:t(文本节点)、w:tabw:brw:hyperlink 等元素,且文本常被拆散在多个 w:t 下(尤其含格式变化时)。

直接解压 + 解析 document.xml 提取文本

手动提取可行,但要注意以下几点:

Atoms.dev
Atoms.dev

AI创业智能体平台,通过多智能体系统实现业务自主构建与运营。

下载
  • 必须先用 ZIP 工具解压 DOCX(DOCX 就是 ZIP,可直接改后缀为 .zip 解压)
  • 不要依赖正则匹配文本,必须用 XML 解析器(如 Python 的 xml.etree.ElementTreelxml
  • 必须处理命名空间:{<a href="https://www.php.cn/link/0f18e4824fc601cd270a4d31b084bb5d">https://www.php.cn/link/0f18e4824fc601cd270a4d31b084bb5d</a>},否则 find('w:t') 找不到节点
  • 需合并连续的 w:t(同一段落内可能有多个,中间夹着 w:tabw:br
import zipfile
from xml.etree import ElementTree as ET
<p>def extract_text_from_document_xml(docx_path):
with zipfile.ZipFile(docx_path) as docx:
with docx.open('word/document.xml') as f:
tree = ET.parse(f)
root = tree.getroot()
ns = {'w': '<a href="https://www.php.cn/link/0f18e4824fc601cd270a4d31b084bb5d">https://www.php.cn/link/0f18e4824fc601cd270a4d31b084bb5d</a>'}</p><pre class='brush:php;toolbar:false;'>text_parts = []
for t in root.findall('.//w:t', ns):
    if t.text:
        text_parts.append(t.text)
return ''.join(text_parts)

示例调用

print(extract_text_from_document_xml('example.docx'))

为什么不用正则或字符串替换
  • document.xml 中文本可能被 CDATA 包裹(如含特殊字符)
  • w:t 可能为空,或仅含空格,或嵌套在 w:instrText(字段代码)中,误提取会导致乱码或错误内容
  • 表格、文本框、页眉页脚的内容不在 document.xml,而在 word/document.xml 的子结构或单独文件(如 word/header1.xml)中
  • 样式信息(加粗、颜色)不参与文本提取,但若需保留结构(如标题层级),就得解析 w:pStylew:pPr

更可靠的做法:用专业库替代手撕 XML

直接解析 document.xml 容易漏内容、难维护。实际项目中应优先使用成熟库:

  • Python 推荐 python-docx:自动处理命名空间、段落/表格/列表/页眉页脚,还能读写
  • Node.js 推荐 mammoth:专注从 DOCX 提取语义 HTML 或纯文本,对复杂格式鲁棒性好
  • Java 推荐 Apache POI:支持低层 XML 访问,也提供高阶 API
# python-docx 示例(比手撕 XML 稳定得多)
from docx import Document
<p>doc = Document('example.docx')
full_text = []
for para in doc.paragraphs:
full_text.append(para.text)
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
for para in cell.paragraphs:
full_text.append(para.text)
print('\n'.join(full_text))</p>

真正容易被忽略的是:DOCX 中的文本分散在至少 5 个位置——document.xmlheader<em>.xml</em>footer.xmlfootnotes.xmlendnotes.xml。只读 document.xml 就像只看主菜不吃配菜,看起来完整,其实漏了关键部分。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

18

2026.02.03

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1945

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1166

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

759

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1564

2023.10.24

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号