使用 XSLT 3 精准标注 XML 中的软件名称（基于上下文与偏移定位）

霞舞

发布时间：2026-01-31 21:30:01

286人浏览过

来源于php中文网

原创

使用 XSLT 3 精准标注 XML 中的软件名称（基于上下文与偏移定位）

本文介绍如何利用 xslt 3 和 saxon-he（通过 python 的 `saxonche` 库）对嵌套 `` 标签的 `

` 段落中特定软件名进行精准包装，依据 json 提供的上下文和规范化名称实现语义化标注，避免正则误匹配与 dom 结构破坏。

在处理学术文献或技术文档的 XML 数据时，常需从富文本段落（如含、 等内联标签的

）中识别并标注软件名称（如 “MODELLER”、“PROSA”）。难点在于：软件名可能夹杂在纯文本与子元素之间，传统字符串替换会破坏结构，而仅靠 itertext() 或 lxml 的文本遍历又难以精确定位到原始上下文中的确切位置——尤其当 JSON 注释数据提供了带偏移量（offsetStart/offsetEnd）和完整上下文句子（context）时，应优先利用该语义信息而非盲目模式匹配。

XSLT 3 提供了强大且声明式的解决方案：它原生支持 JSON 解析（parse-json() / json-doc()）、高阶迭代（xsl:iterate）、隧道参数（tunnel="yes"）以及正则感知的文本分析（analyze-string），完美契合本任务需求。以下是一个可直接运行的端到端方案：

✅ 步骤一：安装依赖
pip install saxonche
✅ 步骤二：编写 XSLT 脚本（wrap-software.xsl）
[{"type":"software","software-type":"software","software-name":{"rawForm":"MODELLER","normalizedForm":"MODELLER","offsetStart":79,"offsetEnd":87},"context":"The reliability of the model structure was tested using the ENERGY commands of MODELLER (Sali and Blundell, 1993)."}] {.}
✅ 步骤三：Python 调用执行（wrap.py）
from saxonche import PySaxonProcessor # 加载 XML 和 XSLT xml_content = '''
The reliability of the model structure was tested using the ENERGY commands of MODELLER (Sali and Blundell, 1993). The modelled structures were also validated using the program PROSA (Wiederstein and Sippl, 2007).
''' with PySaxonProcessor() as proc: xslt_proc = proc.new_xslt30_processor() # 直接传入 XML 字符串和 XSLT 文件路径 executable = xslt_proc.compile_stylesheet(stylesheet_file='wrap-software.xsl') output = executable.transform_to_string(xdm_node=proc.parse_xml(xml_text=xml_content)) print(output)
⚠️ 注意事项与最佳实践

上下文匹配优先：XSLT 严格比对 context 字段与
内纯文本拼接结果（string-join($p//text(), '')），确保仅在真实语境中触发标注，杜绝跨句误包。

倍塔塞司
AI职业规划、AI职业测评、定制测评、AI工具等多样化职业类AI服务。

下载

安全正则处理：analyze-string() 自动转义 normalizedForm 中的正则特殊字符（如 +, *, .），无需手动 re.escape()。

多软件支持：xsl:iterate 可顺序处理 JSON 中全部软件条目；若多个软件共存于同一
，将按 JSON 顺序依次包装（无嵌套冲突）。

性能提示：对于超大 XML，建议将 JSON 预加载为变量（json-doc()），避免重复解析；生产环境推荐使用 Saxon-HE Java 版本以获得更优性能。

扩展性：如需支持大小写不敏感匹配，可将 contains() 替换为 matches(., concat('.*', $software?software-name?normalizedForm, '.*'), 'i')。

此方案摒弃了易出错的手动 DOM 拆解逻辑，以声明式、可验证、可复用的 XSLT 实现精准语义标注，是处理结构化文本中实体识别任务的专业级实践。

Python IO 密集型任务的优化思路

Python Protocol 的设计初衷

Python 服务优雅退出的处理方法

Python 捕获子进程输出的正确方式

python人马兽系列资源分享网盘链接

相关标签:

python java js json node app ai json String xml 字符串 dom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何正确从 OpenAI ChatCompletion 响应中提取消息内容下一篇：暂无

作者最新文章

《如龙极3》试玩玩家反应画质问题官方回应是BUG补丁修复

2026-01-31 13:57

如何在 PHP 中动态累加数组中查询返回的数值

2026-01-31 14:03

如何在 Go 运行时动态覆盖命令行 flag 值

2026-01-31 14:09

如何在 Handlebars 中通过 #each 同时遍历多个数组并渲染表格？

2026-01-31 14:36

TypeORM 迁移生成失败的常见原因与解决方案

2026-01-31 14:40

《胜利女神》官宣神秘新联动！《寂静岭f》还是《莉可丽丝》？

2026-01-31 14:54

Thymeleaf 邮件模板中正确渲染 HTML 内容的完整实践指南

2026-01-31 14:55

品牌建设提示词大全

2026-01-31 15:27

N×N 矩阵顺时针旋转 90 度（支持多次旋转）的 Python 实现

2026-01-31 15:29

市场调研提示词大全

2026-01-31 15:34

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

420

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

536

2023.08.23