
本文介绍如何在 python 中正确处理含重复键的 json 字符串,通过自定义解析器将相同键的所有值合并为一个以分号分隔的字符串,解决标准 json 解析器因键唯一性限制而丢失数据的问题。
本文介绍如何在 python 中正确处理含重复键的 json 字符串,通过自定义解析器将相同键的所有值合并为一个以分号分隔的字符串,解决标准 json 解析器因键唯一性限制而丢失数据的问题。
JSON 规范本身不允许重复键,因此标准解析器(如 json.loads())在遇到重复键时,通常仅保留最后一个值,导致前面的数据被静默丢弃。但在实际开发中(如 MuleSoft 配置、日志片段或遗留系统导出数据),我们常会遇到人为构造的“非标准 JSON”——即同一对象内存在多个同名键。此时,若需完整保留所有值并按业务逻辑聚合(例如用 ; 连接),就必须绕过默认解析行为,改用 object_pairs_hook 参数捕获原始键值对序列。
Python 的 json.loads() 支持 object_pairs_hook 参数,它会在解析每个 JSON 对象时,将该对象内按出现顺序排列的键值对列表(list[tuple[str, Any]])传入指定函数。这正是我们处理重复键的关键切入点:不依赖字典自动去重,而是手动分组聚合。
以下是一个健壮、可复用的解决方案:
本文档主要讲述的是MATLAB与VB混合编程技术研究;着重探讨了在VB应用程序中集成MATLAB实现程序优化的四种方法,即利用Matrix VB、调用DLL动态链接库、应用Active自动化技术和动态数据交换技术,并分析了集成过程中的关键问题及其基本步骤。这种混合编程实现了VB的可视化界面与MATLAB强大的数值分析能力的结合。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看
from itertools import groupby
import json
def merge_duplicates(pairs):
"""
将键值对列表按键分组,并将同键的所有值用 ';' 连接
注意:groupby 要求输入已按键排序,故先 sorted(pairs)
"""
# 按 key 排序确保相同 key 相邻
sorted_pairs = sorted(pairs, key=lambda x: x[0])
for key, group in groupby(sorted_pairs, key=lambda x: x[0]):
values = [value for _, value in group]
yield key, ';'.join(values)
def parse_json_with_duplicate_merge(json_str):
"""
解析含重复键的 JSON 字符串,合并同键值(分号分隔)
"""
return json.loads(json_str, object_pairs_hook=lambda pairs: dict(merge_duplicates(pairs)))
# 示例使用
json_input = '''{
"1061": "GROCERY",
"1073": "GM-HBC",
"4220": "PRODUCE",
"958": "MEAT",
"958": "DAIRY",
"958": "FROZEN"
}'''
result = parse_json_with_duplicate_merge(json_input)
print(result)
# 输出: {'1061': 'GROCERY', '1073': 'GM-HBC', '4220': 'PRODUCE', '958': 'DAIRY;FROZEN;MEAT'}✅ 关键说明与注意事项:
立即学习“Python免费学习笔记(深入)”;
- groupby 要求输入严格有序,因此必须先 sorted(pairs, key=lambda x: x[0]),否则同键元素可能分散,导致分组失败;
- 值的拼接顺序取决于原始 JSON 中键值对的出现顺序(经排序后为字典序),如需保持原始插入顺序,需改用 collections.OrderedDict 或记录索引,但本例中语义上顺序无关紧要;
- 此方法仅影响顶层对象;若 JSON 包含嵌套对象且其中也存在重复键,需递归应用该逻辑(可扩展为自定义 JSONDecoder 子类);
- 输入必须是合法 JSON 字符串(即使含重复键),若格式有误(如缺少逗号、引号不匹配),仍会抛出 json.JSONDecodeError;
- 该方案不修改原始 json 模块行为,安全无副作用,适合集成到现有数据管道中。
总结:通过 object_pairs_hook 捕获原始键值对流,结合 itertools.groupby 实现高效分组聚合,即可优雅解决“重复键值合并”这一常见反模式需求。无需第三方库,纯标准库实现,简洁、可控、生产就绪。





