Python set 去重底层实现与面试问题解析

舞姬之光

发布时间：2026-02-27 19:07:52

858人浏览过

来源于php中文网

原创

python的set去重依靠哈希表实现，平均时间复杂度o(1)，要求元素可哈希且满足hash与==一致性；去重本质是边插入边判重，不保序，不可含列表等可变类型。

python set 去重底层实现与面试问题解析

Python 的 set 去重靠的是哈希表（hash table）实现，不是简单遍历比较。它平均时间复杂度为 O(1)，插入、查找、删除都很快，但元素必须是可哈希的（immutable）。

set 底层用哈希表，不是链表或树

Python 的 set 内部基于字典（dict）的键结构演化而来，底层是一个开放寻址（open addressing）的哈希表。每个元素通过 hash() 计算哈希值，再映射到固定大小的数组索引位置。如果发生哈希冲突（不同对象算出相同哈希），Python 会用探测序列（如伪随机偏移）找下一个空槽，而不是拉链法。

所有元素必须可哈希：字符串、数字、元组（内部全不可变）可以；列表、字典、集合本身不行
哈希值在对象生命周期内必须不变，所以可变对象不能放入 set
两个相等对象（a == b）必须有相同哈希值（hash(a) == hash(b)），这是 Python 哈希协议的要求

去重过程其实是一次次“插入”而非“扫描”

写 set(lst) 去重时，并不是先建空 set 再逐个判断是否存在，而是对每个元素调用 set.add()：先算 hash，定位桶位，若为空则存入；若已存在相同 hash 且 == 判定为相等，则跳过——本质是“边插边判重”，没有额外的 O(n) 扫描步骤。

行者AI

行者AI绘图创作，唤醒新的灵感，创造更多可能

下载

list(set(lst)) 不保序，因为哈希表不记录插入顺序（CPython 3.7+ 的 dict 保序，但 set 仍不保序）
想保序去重，得用 dict.fromkeys(lst).keys() 或手动遍历 + set 记录已见元素
空 set 初始化后容量很小（通常 8 个 slot），随着元素增加自动扩容（约翻倍），触发 rehash

面试高频问题与关键点

面试官常借 set 考察你对哈希原理、可变性、边界情况的理解，不只是语法。

立即学习“Python免费学习笔记（深入）”；

为什么 {[1,2], [3,4]} 报错？ 列表不可哈希 → TypeError: unhashable type: 'list'
set([1, 2, 2, 3]) 结果是 {1, 2, 3}，但它是怎么知道第二个 2 要丢掉的？ 插入第二个 2 时，hash 值一样，且 2 == 2 为 True，判定重复，不插入
两个自定义类实例，== 相等但 hash() 不同，放进 set 会怎样？ 会当成两个不同元素（违反哈希协议），导致逻辑错误；正确做法是同时重写 __eq__ 和 __hash__
海量数据去重，内存不够怎么办？ set 全放内存，此时要考虑外部排序、布隆过滤器（近似去重）、分块处理或用数据库/Redis

小结：快是因为哈希，稳是因为协议

set 去重快，靠的是哈希表的平均 O(1) 操作；可靠，靠的是 Python 对可哈希对象的严格约束和哈希-相等一致性要求。理解这些，才能答好面试题，也才能避开运行时陷阱。

Python 多线程为什么不适合 CPU 密集任务

Python sys.path 搜索路径机制解析

如何为带有 inplace 参数的 Python 函数编写精确类型提示

Python 字符串驻留机制 intern 原理解析

Python 异常链机制原理解析

相关标签:

python 字符串对象 table redis 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 实现生产者消费者模型下一篇：Python 列表删除元素的正确方式面试常见问题

作者最新文章

Python 协程与生成器关系解析

2026-02-26 19:49

Python 多线程与多进程区别面试常见问题

2026-02-26 20:10

Python pytest 常见问题解析

2026-02-26 20:41

苹果手机id一直跳出id验证失败怎么办

2026-02-27 07:57

苹果官网SN码查询入口_苹果官方设备序列号(SN码)查询入口

2026-02-27 08:03

苹果手机照片加水印怎么弄苹果手机照片添加水印方法

2026-02-27 08:07

中国商标注册网查询商标方法_国家知识产权局商标检索系统查询入口指南

2026-02-27 08:38

ppt可以在手机上制作吗_ 手机PPT制作app推荐教程

2026-02-27 08:38

商标注册必须本地吗_商标注册必须本地吗全国统一在线申请指南

2026-02-27 08:44

IQOO电池校准 IQOO电池校准操作方法与技巧

2026-02-27 09:53

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

638

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

218

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1560

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

645

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1067

2024.03.22