cpython 3.12+ 支持 --with-mimalloc 编译选项,启用后将 pymem_* 和 pyobject_malloc 全部转发至 mimalloc,需禁用 pymalloc 并静态链接;mimalloc 按 2mb segment 管理,支持部分回收,缓解 arena 碎片问题,但 gc.collect() 对其无效。

Python 默认用的是 pymalloc,不是系统 malloc
CPython 在小对象分配(pymalloc,这是它自己实现的内存池机制,和系统级的 malloc(如 glibc 的 ptmalloc)完全隔离。你改环境变量或 LD_PRELOAD mimalloc,对 Python 小对象分配路径基本没影响——除非你绕过 CPython 分配器,直接调用 C 层接口。
常见错误现象:malloc_stats() 看不到 Python 对象分配、valgrind --tool=massif 显示堆行为“不匹配”、替换 LD_PRELOAD=./libmimalloc.so 后内存占用/性能无变化。
-
pymalloc只管PyObject*和内部小块(如int、str的字符缓冲区),大对象(>512B)才 fallback 到系统malloc - 想让
mimalloc接管,得编译 CPython 时加--with-mimalloc(3.12+ 支持),或手动 patchPyMem_RawMalloc等函数指针 -
pymalloc的 arena 是 256KB 固定块,碎片化集中在 arena 内部;mimalloc按 segment(2MB)管理,更适应长生命周期混合分配
3.12+ 可以用 --with-mimalloc 编译,但有兼容代价
CPython 3.12 开始支持 --with-mimalloc 配置选项,启用后会把所有 PyMem_* 和 PyObject_Malloc 转发到 mimalloc。但这不是简单“换库”,而是重绑整个内存分配入口。
使用场景:你有大量自定义 C 扩展,且这些扩展直接调用 PyMem_Malloc,又对尾部延迟敏感(比如实时音视频处理)。
立即学习“Python免费学习笔记(深入)”;
- 必须静态链接
mimalloc(--with-mimalloc=static),否则运行时找不到符号 - 禁用
pymalloc(--without-pymalloc)是强制的,否则两种分配器混用会导致free()错配崩溃 - 某些调试构建(如
--with-pydebug)可能触发mimalloc的 assert,因为 CPython debug 模式会插桩检查指针来源
不用改解释器,也能让 mimalloc 生效的边界情况
如果你的应用重度依赖 NumPy、Pillow 或 PyTorch 这类底层用 C/C++ 分配内存的库,mimalloc 仍可能起作用——只要它们没显式调用 malloc,而是走标准 libc 接口。
典型例子:numpy.array(shape=(1000, 1000), dtype=float) 底层调的是 aligned_alloc 或 posix_memalign,这些会被 LD_PRELOAD 拦截;但 list.append() 一百万次,还是走 pymalloc。
- 验证是否生效:启动前设
export MIMALLOC_VERBOSE=1,看是否有 “mimalloc: init” 日志 - 注意
glibc的mallochook 机制在 musl 或某些容器里不可靠,Alpine Linux 上大概率失效 - Python 的 GC 不感知
mimalloc,所以gc.collect()对它分配的内存无效——这反而减少 GC 假阳性扫描
pymalloc 的碎片问题比想象中难观察
很多人以为 pymalloc 碎片多是因为“对象频繁创建销毁”,其实关键在 **arena 复用策略**:一个 arena 被释放后,如果还有任意一个 block 被占用,整个 arena 就卡住不还给系统,直到全部 block 归还。
这意味着:短生命周期小对象 + 极少数长生命周期对象(比如某个缓存字典一直活着),会让整块 256KB arena 锁死。而 mimalloc 的 segment 可以部分回收,更灵活。
- 用
sys.getsizeof()算不出碎片,得看tracemalloc的get_traced_memory()或/proc/PID/smaps的MMUPageSize字段 -
pymalloc不做 compaction,一旦碎片化,只能等 arena 彻底空闲;mimalloc有 lazy sweep,但代价是分配时可能稍慢 - 别指望
gc.collect()清掉 pymalloc 碎片——GC 只管 PyObject 引用计数,不管底层 block 是否空闲
真正要对比效果,得压测具体 workload:比如开 100 个线程持续生成临时 dict/list,跑 1 小时,再看 RSS 增长斜率。pymalloc 在这种场景下容易“只涨不跌”,mimalloc 相对平缓——但前提是它真被用上了。










