0

0

Python集合去重原理_set底层机制

舞夢輝影

舞夢輝影

发布时间:2026-03-08 14:55:03

|

615人浏览过

|

来源于php中文网

原创

python集合去重依赖哈希表:元素必须可哈希,通过hash()定位位置,哈希相同再用__eq__()判等;不可变类型默认可哈希,可变类型需转不可变表示;平均时间复杂度o(1)。

python集合去重原理_set底层机制

Python集合(set)去重的本质,是依靠其底层哈希表(hash table)结构实现的:**每个元素必须可哈希,插入时通过哈希值定位存储位置,重复哈希值会触发相等性校验,相同则跳过**。

哈希表是核心存储结构

Python 的 set 底层和 dict 类似,使用开放寻址法(open addressing)的哈希表。它不存键值对,只存哈希后的键(即元素本身)。关键点包括:

  • 每个元素调用 hash() 得到一个整数哈希值,再通过掩码运算映射到表中某个索引位置
  • 哈希表初始容量较小(如 8),随着元素增多自动扩容(通常翻倍),并重新散列所有元素
  • 冲突时(不同元素哈希值映射到同一位置),Python 使用伪随机探测序列寻找下一个空槽,而非链地址法

去重依赖“哈希 + 相等”双重判断

仅哈希值相同不足以判定重复——因为存在哈希碰撞。Python 会在哈希命中位置进一步调用 __eq__() 方法确认是否真正相等:

SekoTalk
SekoTalk

商汤科技推出的AI对口型视频创作工具

下载
  • hash(a) == hash(b)a == bTrue,则视为重复,后者不插入
  • 因此,自定义类要放入 set,必须同时正确定义 __hash____eq__,且逻辑一致(例如不可变属性决定哈希与相等)
  • 常见例子:set([1, 1.0, True]) 结果是 {1},因为三者哈希值相同(hash(1) == hash(1.0) == hash(True)),且 1 == 1.0 == True

不可哈希对象无法加入 set

只有不可变类型(如 intstrtuple(内含不可变项))默认可哈希;可变类型(如 listdictset)不可哈希:

立即学习Python免费学习笔记(深入)”;

  • set([[1,2], [3,4]]) 会抛出 TypeError: unhashable type: 'list'
  • 这是设计使然:哈希值需在对象生命周期内稳定,而可变对象内容变化会导致哈希不一致,破坏哈希表结构
  • 若需对可变对象去重,可转为不可变表示(如 tuple(lst))或使用其他策略(如基于 id 或自定义判重逻辑)

去重操作的时间复杂度接近 O(1)

平均情况下,插入、查找、删除单个元素都是 O(1),所以构建去重集合整体为 O(n):

  • 得益于哈希表的平均常数时间访问,远优于用列表手动遍历去重的 O(n²)
  • 最坏情况(大量哈希冲突且表满)可能退化为 O(n),但 Python 哈希算法和扩容策略使其极难触发
  • list(set(lst)) 是常用去重写法,但注意:不保持原始顺序(Python 3.7+ dict 有序,但 set 本身无序);如需保序,可用 dict.fromkeys(lst).keys()

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

970

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

606

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

294

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

235

2025.08.29

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

490

2023.08.14

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

46

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

113

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

229

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

90

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号