
本文介绍在python中使用beautifulsoup向xml(如soap请求)动态添加格式正确的xml标签时,避免字符转义问题的核心方法:必须使用`new_tag()`创建标签对象,而非拼接字符串。
在构建SOAP请求或修改XML文档时,开发者常试图通过字符串拼接方式插入新标签(例如 '
根本原因在于:BeautifulSoup的.append()方法对字符串参数默认执行HTML/XML实体转义以保障安全性;它不会解析字符串为DOM节点,除非显式告知其结构意图。
✅ 正确做法是使用 soup.new_tag() 方法创建一个真正的Tag对象:
from bs4 import BeautifulSoup
xml = '''<Envelope xmlns:S="http://schemas.xmlsoap.org/soap/envelope/">
<S:Header>
<Some_Header_Info/>
</S:Header>
<S:Body/>
</Envelope>'''
soup = BeautifulSoup(xml, "xml")
header = soup.find("S:Header")
# ✅ 正确:用 new_tag() 创建带属性的XML元素
no_email = soup.new_tag("errorEmailNotification", enabled="false")
# 插入到S:Header内末尾
header.append(no_email)
print(soup.prettify())输出结果将严格符合预期:
<?xml version="1.0" encoding="utf-8"?> <Envelope xmlns:S="http://schemas.xmlsoap.org/soap/envelope/"> <S:Header> <Some_Header_Info/> <errorEmailNotification enabled="false"/> </S:Header> <S:Body/> </Envelope>
? 补充技巧:
- 若需插入带文本内容的标签(如
success ),可链式调用:
soup.new_tag("status").string = "success" - 对于嵌套结构,可多次调用 .append() 或 .insert() 构建子树;
- 使用 "xml" 解析器(而非 "lxml" 或 "html.parser")确保严格XML语义支持命名空间与自闭合标签;
- 避免使用 str.replace() 或 html.unescape() 处理XML字符串后再插入——这仍无法让BeautifulSoup识别其为有效节点。
⚠️ 注意事项:
- 不要依赖 html.unescape() + 字符串拼接,它仅解决显示问题,不解决DOM结构问题;
- 若XML含命名空间(如 S:Header),new_tag() 创建的标签默认无前缀,但BeautifulSoup会自动继承父节点命名空间(无需手动指定 xmlns:S);
- 修改后建议用 soup.encode(formatter=None) 获取原始字节流,避免额外空格或编码干扰SOAP服务端解析。
掌握 new_tag() 是安全、可靠、符合XML规范地动态构造SOAP头/体内容的关键实践。










