
本文介绍如何使用 php 将含竖线(`|`)分隔的 xml 文本内容(如 `
在实际 XML 数据处理中,常遇到“伪复合字段”——即单个 XML 元素内用分隔符(如 |、,)拼接多个值。例如:
https://example.com/1.jpg|https://example.com/2.jpg|https://example.com/3.jpg
目标是将其规范化为语义清晰、符合 XML 标准的嵌套结构:
https://example.com/1.jpg https://example.com/2.jpg https://example.com/3.jpg
为此,我们设计一个高内聚、低耦合的函数 split_images(),它仅接收纯文本内容(即 $value),不依赖原始 XML 标签字符串,从而提升可测试性与复用性:
function split_images($value, $baseTag = 'Image', $parentTag = 'ImageURL') {
if (empty(trim($value))) {
return "<{$parentTag}>{$parentTag}>";
}
$urls = array_filter(array_map('trim', explode('|', $value)));
$result = "<{$parentTag}>\n";
foreach ($urls as $index => $url) {
$childTag = $baseTag . ($index + 1);
$result .= " <{$childTag}>" . htmlspecialchars($url, ENT_XML1, 'UTF-8') . "{$childTag}>\n";
}
$result .= "{$parentTag}>";
return $result;
}
// 使用示例
$rawUrls = 'https://example.com/example.jpg|https://example.com/example2.jpg';
echo split_images($rawUrls);✅ 输出效果:
立即学习“PHP免费学习笔记(深入)”;
https://example.com/example.jpg https://example.com/example2.jpg
关键设计说明:
- 安全转义:使用 htmlspecialchars(..., ENT_XML1) 防止 URL 中特殊字符(如 &, )破坏 XML 结构;
-
空值防护:array_filter() + trim() 自动过滤空项和首尾空白,避免生成
空标签; - 灵活命名:支持自定义基础标签名($baseTag)和父容器名($parentTag),便于适配不同业务场景(如 Thumbnail1 / GalleryURL);
- 结构友好:自动添加缩进换行,生成人类可读、工具可解析的标准 XML。
⚠️ 注意事项:
- 此函数处理的是已提取的文本值(即 DOM 节点的 textContent),而非原始 XML 字符串。若需从完整 XML 中定位并替换
节点,请结合 SimpleXML 或 DOMDocument 进行节点操作; - 若原始数据含非法 XML 字符(如未转义的 &),建议在输入前统一预处理或改用 DOMDocument::createCDATASection() 包裹内容;
- 大量数据批量处理时,建议启用输出缓冲或流式构建,避免内存峰值。
该方案简洁、安全、可扩展,是 XML 内容规范化处理的典型实践。











