0

0

Python Pydantic如何用于校验解析后的XML数据

星降

星降

发布时间:2026-02-10 12:06:51

|

757人浏览过

|

来源于php中文网

原创

Pydantic 不直接解析 XML,需先用 xmltodict 或 lxml 将 XML 转为字典,再校验;注意属性映射(@id)、重复元素强制转 list、根节点嵌套及容错建模(Union/alias/extra="ignore")。

python pydantic如何用于校验解析后的xml数据

Pydantic 本身不解析 XML,需先转成 dict 或 JSON-like 结构

Pydantic 的 BaseModel 只接受 Python 原生数据(dictlist 等),不能直接喂给 XML 字符串。必须先用其他库把 XML 解析成嵌套字典,再传给 Pydantic 模型校验。常见组合是:xmltodict(轻量)或 lxml + 手动映射(可控性强)。

注意:xmltodict.parse() 默认会把单个子元素转成 dict,多个同名子元素转成 list —— 这种隐式行为容易导致 Pydantic 校验失败,比如你预期是 List[Item],但实际只收到一个 Item dict。

  • xmltodict.parse(xml_str, force_list=("item", "entry")) 显式指定哪些标签总是转成 list
  • 若 XML 有属性(如 ),xmltodict 会把属性存进 @id 键,需在 Pydantic 模型中对应字段命名为 id: Optional[str] = Field(alias="@id")
  • 根节点会被包进顶层 key,例如 A 解析后是 {"root": {"name": "A"}},模型得按这个结构定义,或用 xmltodict.parse(..., process_namespaces=False) 后手动取 result["root"]

定义 Pydantic 模型时要适配 XML 的扁平/重复结构

XML 没有类型概念,同一个标签下可能混着文本、属性、子元素。Pydantic 要能容错,否则 ValidationError 会频繁抛出。关键策略是用 Union 和默认值兜底。

from typing import Union, Optional, List
from pydantic import BaseModel, Field, ConfigDict

class Item(BaseModel): model_config = ConfigDict(extra="ignore") # 忽略 XML 中多出的字段 id: Optional[str] = Field(alias="@id", default=None) name: Union[str, None] = None # 容忍缺失或空文本 tags: Optional[List[str]] = Field(default_factory=list)

class Root(BaseModel): items: List[Item] = Field(alias="item", default_factory=list)

这里 alias="item" 对应 XML 中的 标签名;Field(default_factory=list) 防止解析结果里没有 item 节点时报错;extra="ignore" 避免 XML 加了新字段就崩。

立即学习Python免费学习笔记(深入)”;

PHP5 和 MySQL 圣经
PHP5 和 MySQL 圣经

本书是全面讲述PHP与MySQL的经典之作,书中不但全面介绍了两种技术的核心特性,还讲解了如何高效地结合这两种技术构建健壮的数据驱动的应用程序。本书涵盖了两种技术新版本中出现的最新特性,书中大量实际的示例和深入的分析均来自于作者在这方面多年的专业经验,可用于解决开发者在实际中所面临的各种挑战。

下载

校验失败时的错误信息指向 XML 位置困难

Pydantic 报错只显示字段路径(如 items.0.name),不反映原始 XML 行号或标签层级。调试时得反向查:先确认 xmltodict.parse() 输出是否符合预期,再比对模型字段名和 alias 是否匹配。

  • 打印解析后的 dict:用 pprint.pprint(xmltodict.parse(xml_str)) 看真实结构
  • 检查 alias 拼写:XML 属性是 @type,不是 type;子元素是 "child",不是 "child_element"
  • 遇到 Input should be a valid dictionary or object,大概率是传了字符串或 None 给 Root.model_validate(),而不是 dict

性能与嵌套深度限制需留意

xmltodict 是纯 Python 实现,大 XML(>10MB)解析慢且吃内存;Pydantic v2 的 model_validate 对深层嵌套 dict 校验也有开销。生产环境处理大文件时,别一次性全量解析校验。

  • 改用流式解析:用 lxml.etree.iterparse() 边读边校验单个 ,每条走一次 Item.model_validate()
  • 禁用 Pydantic 的 strict 模式:model_validate(data, strict=False) 允许 int/float 自动转换,减少类型报错
  • 避免在模型中写复杂 @field_validator,XML 数据本就松散,校验逻辑尽量前置到解析层(比如用正则提纯文本)

真正卡点往往不在 Pydantic,而在 XML 到 dict 的那一步 —— 结构不规整、命名不一致、编码乱码,这些都得在进 Pydantic 之前清理干净。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

435

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

543

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

317

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

582

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

104

2025.10.23

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1923

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2100

2024.08.01

包子漫画网页版入口与全集阅读指南_正版免费漫画快速访问方法
包子漫画网页版入口与全集阅读指南_正版免费漫画快速访问方法

本专题汇总了包子漫画官网和网页版入口,提供最新章节抢先看方法、正版免费阅读指南,以及稳定访问方式,帮助用户快速直达包子漫画页面,无广告畅享全集漫画内容。

44

2026.02.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号