python集合最核心价值在于高效去重和天然支持数学集合运算;底层基于哈希表,增删查平均o(1),适用于存在性判断、唯一元素提取及交并差等操作。

Python集合(set)最核心的价值在于高效去重和天然支持数学集合运算。它底层基于哈希表,插入、查找、删除平均时间复杂度为 O(1),特别适合处理“是否存在”“有哪些不同元素”“共同/独有元素”这类问题。
快速去重:比 list + dict 更简洁直接
当需要提取唯一值且不关心顺序时,set 是首选。相比用 dict.fromkeys() 或循环判断,一行代码即可完成:
-
去除列表重复项:
unique_items = list(set([1, 2, 2, 3, 3, 4]))(注意:结果顺序不确定) -
保留首次出现顺序的去重(需配合 dict):
list(dict.fromkeys([1, 2, 2, 3, 3, 4]))→[1, 2, 3, 4] -
对字符串去重并转回字符串:
''.join(set("hello"))→ 类似"ehlo"(顺序不定)
集合运算:交、并、差、对称差一目了然
set 支持中缀操作符(&, |, -, ^)和对应方法(.intersection(), .union(), .difference(), .symmetric_difference()),语义清晰,无需嵌套循环。
-
共同好友:
user_a_friends & user_b_friends -
所有关注者(合并):
followers_2023 | followers_2024 -
去年关注但今年取关的人:
followers_2023 - followers_2024 -
只在某一年关注过的人(非共同):
followers_2023 ^ followers_2024
成员检测与子集判断:比 in list 快得多
检查一个元素是否在大量数据中存在时,set 的 in 操作远快于 list —— 尤其当数据量大时(如万级),差异显著。
立即学习“Python免费学习笔记(深入)”;
-
黑名单校验:
if ip_address in banned_ips_set: block_request() -
权限校验:
if 'delete' in user_permissions_set: allow_deletion() -
判断是否为子集(如角色权限继承):
required_perms.issubset(user_perms)或required_perms
注意事项与常见陷阱
使用 set 要留意其不可变性限制和隐含行为:
-
set 本身不可变,但可变对象(如 list、dict)不能放入 set —— 会报
TypeError: unhashable type - 空 set 必须用
set()创建,{}是空 dict - set 运算返回新 set,原 set 不变;若需就地修改,用
.update(),.intersection_update()等带_update后缀的方法 - 浮点数精度可能导致意外结果,例如
set([0.1 + 0.2]) == set([0.3])为False









