Python set 去重的底层实现逻辑

冷炫風刃

发布时间：2026-01-28 18:12:50

633人浏览过

来源于php中文网

原创

Python set 去重平均 O(1) 因其底层为哈希表：通过 hash() 定位桶，再用 eq 判重；仅可哈希对象（如 int、str、tuple）可加入，list/dict/set 不可；哈希碰撞时线性探测+等值比较；扩容时单次 O(n)，均摊仍 O(1)。

python set 去重的底层实现逻辑

Python set 为什么能 O(1) 平均时间复杂度去重

因为 set 底层是哈希表（hash table），不是链表或树。插入/查找元素时，先对对象调用 hash() 得到哈希值，再映射到内部数组的某个索引位置；只要哈希函数分布合理、负载因子不过高，就能在常数时间内定位——去重本质就是“查重 + 跳过插入”，而查重靠的就是这个哈希查找。

注意：只有可哈希对象才能放进 set，比如 int、str、tuple（且内容全可哈希）；list、dict、set 自身不可哈希，直接塞进去会报 TypeError: unhashable type。

hash() 和 eq 是怎么配合判断“重复”的

两个对象被认为“相同”（即去重时只留一个），需同时满足：
– 哈希值相等（hash(a) == hash(b)）
– 且实际相等（a == b，即 a.__eq__(b) 返回 True）

这意味着：

立即学习“Python免费学习笔记（深入）”；

哈希碰撞不可避免，但 Python 会在同一桶（bucket）里用线性探测或开放寻址做二次比对，调用 __eq__
自定义类如果要放进 set，必须同时实现 __hash__ 和 __eq__，且逻辑一致：若 a == b，则 hash(a) == hash(b)，否则去重行为不可靠
字符串和小整数有特殊优化（比如小整数池、字符串驻留），它们的 hash 值固定且计算极快

set 去重不是“遍历后删”，而是“边插边判”

写 set(my_list) 不是先建空集合再循环 append 风格地加，而是逐个调用 set_add() 内部逻辑：对每个元素算哈希 → 找桶 → 若桶空则插入；若桶非空，则比对哈希 → 若哈希同，再比 __eq__ → 相等就跳过，不等就找下一个空位（可能触发扩容）。

Voicenotes

Voicenotes是一款简单直观的多功能AI语音笔记工具

下载

所以：

顺序不保留（set 无序），因为插入位置由哈希值决定，不是原列表索引
去重结果依赖哈希值稳定性：CPython 中字符串、数字哈希默认开启随机化（PYTHONHASHSEED 影响），但同一进程内是稳定的；重启后可能不同，不影响去重正确性，但影响 set 迭代顺序
内存开销比 list 大，因为哈希表要预留空槽（默认负载因子约 2/3），且每个桶存的是指针+哈希值+键对象引用

对比 list(set()) 和 dict.fromkeys() 的实际差异

常见误以为 list(set(lst)) 是最简去重法，但它丢顺序；而 list(dict.fromkeys(lst)) 在 Python 3.7+ 能保序且同样高效，因为 dict 同样基于哈希表，且插入顺序被保留。

关键区别：

set 只存值，dict 存键值对，但 fromkeys 的 value 统一为 None，不额外占空间
两者哈希逻辑完全一致，性能几乎没差别；但 dict.fromkeys 多一次键赋值操作，微乎其微
如果原数据含不可哈希项（如嵌套 list），两种都会报错，无法绕过

真正容易被忽略的是：哈希表扩容时的 rehash 成本——当元素数接近容量上限，插入可能触发整体重建，此时单次操作退化为 O(n)，但均摊仍是 O(1)。高频增删场景下，初始预估大小（用 set().__sizeof__() 观察或手动 set().update(...) 分批）有时比盲目构造更稳。

Python requirements.txt 的正确维护方式

Python yield 的执行流程解析

Python 正则表达式的执行原理

Python 对象的浅拷贝与深拷贝详解

Python 类与实例的属性查找顺序

相关标签:

python app 区别键值对为什么字符串 int 循环指针 append 对象 table

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：haproxy backend down 但 curl 正常的 check port / interval 配置下一篇：如何实现一个支持负索引、切片、in 的自定义容器

作者最新文章

Linux 孤儿进程为何不会成为问题？

2026-01-27 19:12

Win11 系统 C 盘满了如何清理？Win11 系统 C 盘清理方法说明

2026-01-27 19:16

Python 字符串操作的底层成本

2026-01-27 19:21

net.ipv4.tcp_tw_recycle 废弃后的 SO_REUSEADDR 与端口复用风险

2026-01-27 19:30

Python 内置类型缓存机制详解

2026-01-27 19:32

Python 带参数装饰器的实现方式

2026-01-27 19:32

Linux 配置变更如何避免事故？

2026-01-27 19:35

Python 对象 ID 与内存地址的对应关系

2026-01-27 19:41

MySQL thread_cache_size 与 connection pool 的合理配置

2026-01-27 19:47

PostgreSQL CTE 递归深度过大导致的 max_recursive_iterations 报错

2026-01-27 19:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

212

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1501

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

624

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

613

2024.03.22