Python 数据去重的多种实现方式对比

舞夢輝影

发布时间：2026-02-22 22:19:19

760人浏览过

来源于php中文网

原创

set()去重最快但丢序且不支持不可哈希类型；保序推荐dict.fromkeys(lst).keys()转list；含字典时需用业务键或json.dumps()预处理；大数据量应流式处理。

python 数据去重的多种实现方式对比

用 `set()` 去重最简单，但会丢顺序、不支持不可哈希类型

Python 里最常用的去重方式就是 list(set(lst))，快且短。但它只适合元素全是 int、str、tuple 这类可哈希类型的列表，一旦含 dict 或 list 就直接报 TypeError: unhashable type: 'dict'。另外，set 不保留原始顺序——哪怕你用的是 Python 3.7+，set 本身不保证插入序，list(set(...)) 的结果顺序是不确定的。

实操建议：

立即学习“Python免费学习笔记（深入）”；

网趣购物系统精装版

精装版对原程序进行了大量的更新和调整，在安全性和实用性上均有重大突破，特色功能：完美整合支付宝功能，根据用户需求，并具有打开和关闭支付宝的功能!匿名用户购买功能，商城支持匿名直接购买商品功能，方便用户购物!增加了后台LOGO图片上传管理功能，管理简单、易用对广告管理进行扩充，所有广告图片、FLASH均可实现在线上传管理!多种在线支付方式，程序同时支持网银、西部支付，可自由选择切换!支持简繁互换显示

下载

仅用于临时去重、且确定元素全可哈希、顺序无关的场景（比如统计唯一标签）
别在生产逻辑里依赖它的输出顺序
想保序又简单？改用 dict.fromkeys(lst).keys()，它利用字典键的唯一性和插入序（Python 3.7+），比 set 多半步但更可控

`dict.fromkeys()` 是保序去重的默认选择，但要注意返回视图对象

dict.fromkeys(lst) 返回一个字典，键是去重后的元素，值全为 None；取 .keys() 得到的是一个 dict_keys 视图——它不是列表，不能索引、不能切片，直接传给需要 list 的函数（比如 numpy.array()）会出错。

实操建议：

立即学习“Python免费学习笔记（深入）”；

要列表就显式转：list(dict.fromkeys(lst))
如果原列表超大（千万级），这个操作内存开销接近原列表两倍（字典 + 新列表），不如流式处理
对嵌套结构无效：dict.fromkeys([{"a":1}, {"a":1}]) 仍会报错，因为 dict 不可哈希

含字典或自定义对象时，得靠 `json.dumps()` 或自定义 key 函数

遇到 [{"id":1}, {"id":1}, {"id":2}] 这种，必须把“相等逻辑”显式写出来。常见做法是用 json.dumps(item, sort_keys=True) 当临时哈希键，但要注意：float 精度、NaN、顺序敏感字段（如时间戳字符串）、不含 datetime 等非 JSON 类型都会崩。

实操建议：

立即学习“Python免费学习笔记（深入）”；

优先用业务主键：比如每个字典都有 "id"，那就用 seen = set(); [x for x in lst if x["id"] not in seen and not seen.add(x["id"])]
真要序列化比较，加 default=str 防止 TypeError，并提前 sort_keys=True 统一结构
别在循环里反复调 json.dumps()，性能差；先预处理成 key 列表再去重

大数据量或需流式处理时，别一次性加载，用生成器 + 缓存集合

当列表有百万行以上，或来自文件/数据库游标，list(dict.fromkeys(...)) 会吃光内存。这时候得边读边判重，用一个 set 记已见 key，配合生成器 yield 结果。

实操建议：

立即学习“Python免费学习笔记（深入）”；

核心模式：seen = set(); for item in iterable: key = get_key(item); if key not in seen: seen.add(key); yield item
get_key() 必须稳定、轻量，避免在里头做 json.dumps() 或复杂计算
如果 key 可能超多（比如用户 ID 十亿级），set 内存占用大，考虑用 bloom filter（牺牲少量准确率换内存）或分块处理

去重看着简单，真正卡住人的永远是“相等怎么定义”和“数据规模超出预期”这两点。没想清楚 key 的语义，再短的代码也是坑。

Python Starlette 中间件的编写规范

Python poetry vs pdm vs rye 的2025对比

Python AutoML 工具在生产中的谨慎使用

Python 标准库 inspect 在调试中的实战用法

Python 3.11+ 的异常组与 except* 语法

相关标签:

python json numpy Float Array if for Filter 字符串 int 循环切片对象 default 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 协程中取消任务的 CancelledError 处理下一篇：Python orjson 的 dataclass 支持

作者最新文章

SQL 参数传递优化与性能提升

2026-02-22 06:15

苹果照片马赛克怎么打？iPhone 照片打码处理教程

2026-02-22 07:43

oppo手机怎么录屏详细教程 OPPO录屏完整步骤解析

2026-02-22 09:25

华为手机官网买靠谱吗华为官方渠道购买分析

2026-02-22 10:25

SQL 日期时间函数 DATE_FORMAT、NOW 应用

2026-02-22 11:21

腾讯会议视频怎么调成横屏

2026-02-22 11:32

华为手机锁屏怎么解除华为取消锁屏密码步骤

2026-02-22 11:56

oppo截屏按哪三个键常见组合键说明与误区解析

2026-02-22 12:25

微信电脑版文件手机打不开微信电脑版文件手机端打不开解决方法

2026-02-22 12:45

Linux SELinux 高级策略调优

2026-02-22 14:01

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

445

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23