Python 高性能字典与集合使用技巧

舞夢輝影

发布时间：2026-01-26 19:27:19

557人浏览过

来源于php中文网

原创

dict 和 set 在 CPython 中快是因为底层用高度优化的哈希表，平均时间复杂度 O(1)，但性能受哈希函数、冲突、内存布局及构造方式等影响；dict.fromkeys() 批量初始化更快；成员检测优先用 set；__slots__ 可节省内存并加速属性访问。

python 高性能字典与集合使用技巧

为什么 `dict` 和 `set` 在 CPython 中快得不像 Python？

因为底层用的是哈希表（hash table），且 CPython 实现高度优化：插入、查找、删除平均时间复杂度都是 O(1)。但这个“快”有前提——哈希函数要快，冲突要少，内存布局要友好。

常见误区是以为“只要用 dict 就一定快”，其实构造方式、键类型、扩容时机都会显著影响性能：

dict() 空初始化比 {} 略慢（字节码多一条 CALL_FUNCTION）
用可变对象（如 list）当 dict 键会直接报 TypeError: unhashable type
一次性插入大量数据时，预设容量能避免多次 rehash——但 Python 不支持直接指定初始大小，只能靠“先建再更新”的 trick

如何让 `dict.fromkeys()` 成为批量初始化的首选？

当你需要一个键存在、值统一的字典（比如去重后标记为 True），dict.fromkeys(iterable, value) 比循环 dict[key] = value 快 2–3 倍，因为它绕过了 Python 层的键值对赋值逻辑，直接在 C 层批量构建哈希表。

注意两个坑：

立即学习“Python免费学习笔记（深入）”；

第二个参数是引用传递：如果传的是可变对象（如 []），所有键共享同一个实例 → 改一个全改
它不检查键是否重复：输入含重复元素时，结果字典只保留最后一个出现的键

示例：

valid_keys = ["a", "b", "c"]<br>
flags = dict.fromkeys(valid_keys, False)  # ✅ 安全<br>
cache = dict.fromkeys(valid_keys, {})     # ❌ 危险：所有键共用一个 dict

什么时候该用 `set` 而不是 `list` 做成员检测？

只要涉及 if x in container:，且容器长度 > 100，几乎总是该换 set。列表是 O(n) 线性扫描，集合是 O(1) 哈希查找——10 万元素下，前者可能耗时 10ms+，后者稳定在 0.1ms 内。

但别忽略代价：

构建 set 本身要时间：从 list 转 set 是 O(n)，如果只查一次，不如直接遍历
set 占内存更大：每个元素额外存哈希值 + 更宽松的负载因子（默认 0.625），实际内存占用约是等效 list 的 2–3 倍
顺序不保留（Python 3.7+ dict 有序，但 set 依然无序）

`slots` 对自定义类里用 `dict` 存属性的影响

如果你写了一个高频实例化的类，又习惯用 self.__dict__ 动态存属性（比如解析 JSON 后挂载字段），那它的 dict 其实是每个实例独占的一份哈希表。此时开启 __slots__ 能省下每实例 ~50 字节，并加快属性访问——因为绕过了 __dict__ 查找路径。

但要注意限制：

一旦定义 __slots__，实例就不再有 __dict__，不能动态新增未声明的属性
继承链中只要有一个父类用了 __slots__，子类也必须显式定义（哪怕为空 __slots__ = ()），否则报错
如果类本身需要 __dict__（比如用 vars() 或某些 ORM），就不能用 __slots__

典型适用场景：DTO 类、解析后的消息体、高频创建的中间对象。

Python assert怎么用_断言调试与条件验证使用场景

Python Tkinter背景图怎么加_Canvas或Label组件铺满窗口并放置底层实现背景图片

Django怎么安装_pip安装Django与创建第一个Project

Python并查集怎么写_Disjoint Set路径压缩与连通性判断

Python怎么跨平台迁移_Windows到Linux项目环境同步技巧

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

python js json 字节 ai 内存占用键值对 json if 父类子类循环继承引用传递对象 table

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 对象序列化与反序列化最佳实践下一篇：numpy 如何用 np.ufunc.reduceat 实现分组归约

作者最新文章

Linux跨服务器同步数据_数据同步思路

2026-03-12 09:12

华为手表怎么连接手机打电话华为手表蓝牙通话设置方法

2026-03-12 09:42

Linux服务依赖异常处理_依赖关系排查

2026-03-12 10:57

视频号要怎么涨1000粉丝，2026年要怎么才能做好视频号

2026-03-12 10:57

视频号怎么快速涨1000粉？（教你一个简单实用的办法）

2026-03-12 11:03

PHP 自动加载机制面试高频题

2026-03-12 11:22

JavaScript代码压缩与混淆对运行环境执行的影响

2026-03-12 11:25

腾讯会议视频打不开是什么原因

2026-03-12 12:00

Linux挂载目录不可写_挂载权限问题分析

2026-03-12 13:20

Linux系统Swap交换分区创建管理及虚拟内存优化策略详解

2026-03-12 14:02

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23