Python 缓存导致的内存风险

舞夢輝影

发布时间：2026-01-28 19:09:32

436人浏览过

来源于php中文网

原创

必须显式设置@lru_cache的maxsize参数，避免内存无限增长；缓存值为强引用，慎缓存大型对象；参数须可哈希，不可变类型需手动转换；多线程下cache_clear()需加锁防护。

python 缓存导致的内存风险

缓存未设置最大容量会持续吃光内存

Python 的 @lru_cache 默认不限制缓存条目数，只要参数组合不同，就一直往缓存字典里塞。一旦函数被高频调用、且参数变化多（比如传入时间戳、UUID、用户 ID），缓存会无限增长，最终触发 MemoryError 或拖慢整个进程。

实操建议：

务必显式指定 maxsize 参数，例如 @lru_cache(maxsize=128)；设为 None 表示无限制，等同于自埋地雷
若不确定合理大小，先用 @lru_cache(maxsize=1) 测试——只缓存最后一次调用，观察性能是否可接受
对纯计算型函数（如数值递归），maxsize=128 通常够用；对带业务上下文的函数（如 get_user_profile(user_id)），需按预期并发用户量反推上限

缓存对象本身持有引用导致无法 GC

@lru_cache 内部用弱引用管理键，但值是强引用。如果缓存的返回值是大型对象（如 pandas DataFrame、numpy array、长字符串或嵌套 dict），这些对象会一直驻留内存，即使外部已无其他引用。

常见错误现象：

立即学习“Python免费学习笔记（深入）”；

反复调用同一函数后，psutil.Process().memory_info().rss 持续上涨
gc.collect() 后内存不下降，说明对象仍被缓存强持有

解决思路：

避免缓存大对象本身，改缓存其轻量标识（如文件路径、数据库主键、哈希值），再按需加载
用 functools.lru_cache 时，确保被装饰函数返回值尽可能“小”；若必须返回大数据，考虑用 functools.cache（Python 3.9+）配合手动清理逻辑
必要时调用 func.cache_clear() 主动清空，比如在批处理循环末尾或内存告警时

可变参数（如 list/dict）直接导致缓存失效或崩溃

@lru_cache 要求所有参数可哈希，而 list、dict、set 默认不可哈希。若函数签名含这类参数，运行时会抛出 TypeError: unhashable type，而不是静默跳过缓存。

Faceswap

免费开源的AI换脸工具

下载

使用场景中容易忽略的点：

看似传的是 tuple，实则内部含 list（如 (1, [2, 3])）→ 依然报错
用 **kwargs 接收参数，其中某个值是 dict → 缓存键构造失败
误以为 json.dumps(data, sort_keys=True) 能当缓存键用，但没意识到这增加了序列化开销和哈希碰撞风险

稳妥做法：

强制转换：把 list 改成 tuple，dict 改成 frozenset(dict.items())，并在函数文档里注明“仅接受不可变参数”
改用基于内容的缓存方案，如 joblib.Memory 或自定义装饰器，对可变结构做稳定哈希（如 hashlib.md5(pickle.dumps(obj)).hexdigest()），但要注意 pickle 安全性和性能代价

多线程下 cache_clear() 不是原子操作

多个线程同时调用 func.cache_clear() 可能引发竞态：一个线程刚清空缓存，另一个线程立刻命中旧缓存条目，或两个线程同时重建缓存造成重复计算。

这不是 bug，而是设计使然——lru_cache 本身线程安全（读写缓存键值是加锁的），但 cache_clear() 是“清空 + 重置计数器”，中间存在窗口期。

应对方式：

避免在热路径频繁调用 cache_clear()；优先用 maxsize 控制自然淘汰
若必须动态清空，用外部锁包裹：with clear_lock: func.cache_clear()
对高并发服务，考虑换用线程隔离缓存，如每个线程绑定独立的 functools.lru_cache(maxsize=...) 实例（通过 threading.local 管理）

最危险的不是缓存没生效，而是它悄悄活着——占着内存、拦着 GC、还假装自己很高效。检查每个 @lru_cache 装饰器时，顺手敲两行：func.cache_info() 看命中率，sys.getsizeof(func.cache_parameters)（需自行估算）估体积，比等 OOM 更省事。

如何实现一个支持负索引、切片、in 的自定义容器

Python set 去重的底层实现逻辑

Python with 语句的底层实现原理

Python 自定义对象作为 dict key 的注意事项

如何在 Python 数据类继承中为父类必需字段设置子类默认值

相关标签:

python js json 大数据 json numpy pandas Array 字符串递归可变参数循环线程多线程并发对象数据库 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：perf top 显示 [kworker] 高占比的 workqueue 长任务排查下一篇：python人马兽系列主要功能与应用场景

作者最新文章

httpx 如何设置 read_timeout 与 connect_timeout 分别控制

2026-01-27 19:25

Python 滑动窗口算法实现与性能分析

2026-01-27 19:26

如何让生成器支持 throw() 抛异常到生成器内部

2026-01-27 19:28

SQL 如何用慢查询日志 + pt-query-digest 找出 Top 慢 SQL

2026-01-27 19:34

类变量在多进程 fork 后的行为与修改陷阱

2026-01-27 19:39

SQL 如何用 pgstattuple 检查表/索引膨胀并触发清理

2026-01-27 19:41

SQL 如何用索引视图加速频繁的聚合查询（SQL Server）

2026-01-27 19:55

苹果MacBook Pro产品线传2026将迎史上最大改版

2026-01-28 09:28

2026下半年发布！荣耀Magic 9系列或采用双2亿像素传感器方案

2026-01-28 10:08

AI取代白领根本假议题？经济学人分析：你的工作比想像中难度要高

2026-01-28 10:10

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

419

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

535

2023.08.23