讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何处理XML中的混合内容(Mixed Content)

煙雲

发布时间：2026-02-04 11:44:02

|

753人浏览过

|

来源于php中文网

原创

XML混合内容指元素内文本与子元素交错，如这是强调的文字；因其在解析时被拆为text/tail导致顺序丢失，故难处理。

如何处理xml中的混合内容(mixed content)

什么是XML混合内容，为什么它难处理

XML混合内容指一个元素中同时包含文本节点和子元素，比如

这是强调的文字

。这种结构在HTML中很常见，但在严格XML解析器（如Python的xml.etree.ElementTree或JavaScript的DOMParser）里，文本会被拆成element.text、element.tail两部分，而子元素夹在中间——导致顺序丢失、遍历时容易漏掉文本。

Python ElementTree：正确提取混合内容的顺序

ElementTree不提供“扁平化遍历”API，必须手动拼接text、子元素、tail。关键点是：每个元素的text属于它自己，tail属于它的父元素中“紧跟在它之后”的文本。

root.text 是根元素开始标签后的文本（若有）
每个子元素e的e.text是后的文本，e.tail是后的文本（即紧邻其后的兄弟文本）
要还原原始线性顺序，需按DFS遍历，先输出text，再递归子元素，最后输出tail

def flatten_mixed_content(elem):
    parts = []
    if elem.text:
        parts.append(elem.text)
    for child in elem:
        parts.extend(flatten_mixed_content(child))
        if child.tail:
            parts.append(child.tail)
    return parts
示例：Helloworld!
输出：['Hello', 'world', '!']

JavaScript DOM：用childNodes替代textContent

textContent会抹平结构、丢弃标签；要保留混合结构语义并按序访问，必须用childNodes，它返回包含Text和Element节点的混合列表。

ARC Lab

ARC Lab

腾讯旗下ARC实验室推出的AI人像修复、抠图和增强工具

下载

node.childNodes 保证文档顺序，含Node.TEXT_NODE与Node.ELEMENT_NODE
避免用innerHTML反序列化再解析——会引入XSS风险且破坏原始空白
注意whitespace-only文本节点在不同浏览器中可能被忽略（取决于document.xmlVersion或解析方式）

function getMixedContentNodes(el) {
  return Array.from(el.childNodes).map(node => {
    if (node.nodeType === Node.TEXT_NODE) {
      return { type: 'text', data: node.data.trim() };
    } else if (node.nodeType === Node.ELEMENT_NODE) {
      return { type: 'element', name: node.nodeName, children: getMixedContentNodes(node) };
    }
  }).filter(Boolean);
}

Schema验证时如何允许混合内容

DTD或XSD默认禁止混合内容（除非显式声明）。若需校验又允许文本+元素共存，DTD中用#PCDATA配合|并列子元素，并加*量词；XSD则必须用。

DTD示例： —— 表示任意顺序、任意次数的文本或指定元素
XSD示例：
注意：mixed="true"仅控制内容模型，不改变解析器对text/tail的拆分逻辑

混合内容本质是XML设计中对“文档级语义”的妥协，解析时顺序还原比结构识别更易出错。真正棘手的不是怎么读，而是怎么在保持语义的前提下做变换——比如把

A²+B

转成LaTeX时，必须确保A、2、+B三段文本的位置关系绝对准确，任何基于innerText或正则的偷懒方案都会在这里翻车。

相关文章

JavaScript上传XML文件 JS如何通过AJAX提交XML

JavaScript中XMLHttpRequest对象怎么处理XML响应

JS怎么遍历XML节点 JavaScript XML DOM遍历方法

医疗HL7 v2消息如何映射成XML？

JavaScript中的DOMParser是什么如何在浏览器中解析XML字符串

相关标签:

javascript python java html node 浏览器 app ai xml解析为什么 xss xml 递归 dom innerHTML

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：ZAP工具如何扫描XML注入漏洞下一篇：暂无

作者最新文章

C# 结构体和类的选择 C#什么时候应该用struct代替class

2026-02-04 09:34

C# 条件弱表ConditionalWeakTable C#如何实现对象的动态附加属性

2026-02-04 09:35

XML文件用什么软件打开_打开XML文件的常用软件列表

2026-02-04 10:07

Java多态是否支持属性的多态

2026-02-04 10:11

如何找到应用宝网页版入口官网首页直接登录入口

2026-02-04 10:22

python免费代码_从入门练习到企业级应用的可运行完整代码示例

2026-02-04 10:36

c语言中文网_国内知名的C语言学习教程与参考工具网站介绍

2026-02-04 10:38

考研帮官网网页版入口 2026考研帮电脑端登录

2026-02-04 10:44

在Electron应用中如何安全地处理本地XML文件上传

2026-02-04 10:46

美团骑手装备哪里买美团骑手官方装备购买渠道【必知】

2026-02-04 10:49

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

更多

pdf怎么转换成xml格式

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1911

2024.04.01

xml怎么变成word

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2095

2024.08.01

xml是什么格式的文件

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1096

2024.11.28

DOM是什么意思

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

3472

2024.08.14

DOM是什么意思

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

3472

2024.08.14

全国统一发票查询平台入口合集

全国统一发票查询平台入口合集

本专题整合了全国统一发票查询入口地址合集，阅读专题下面的文章了解更多详细入口。

37

2026.02.03

短剧入口地址汇总

短剧入口地址汇总

本专题整合了短剧app推荐平台，阅读专题下面的文章了解更多详细入口。

103

2026.02.03

植物大战僵尸版本入口地址汇总

植物大战僵尸版本入口地址汇总

本专题整合了植物大战僵尸版本入口地址汇总，前往文章中寻找想要的答案。

49

2026.02.03

c语言中/相关合集

c语言中/相关合集

本专题整合了c语言中/的用法、含义解释。阅读专题下面的文章了解更多详细内容。

9

2026.02.03

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

React 教程

React 教程

共58课时 | 4.6万人学习

TypeScript 教程

TypeScript 教程

共19课时 | 2.7万人学习

Bootstrap 5教程

Bootstrap 5教程

共46课时 | 3.2万人学习

最新文章

更多

PHP如何动态生成XML并输出到浏览器

PostgREST如何暴露视图以接收和处理XML数据

SVG中的<g>标签有什么用 SVG元素分组方法

Python如何处理带CDATA的XML节点

Google Cloud Dataflow如何处理XML数据转换

C#如何从XML文件中读取连接字符串

VS Code怎么格式化XML文件 VS Code XML插件推荐

C# XmlSerializer怎么指定根元素和命名空间

在Electron应用中如何安全地处理本地XML文件上传

无代码/低代码平台如何做XML映射？

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部