栈分配通常比堆快,因其仅需移动栈指针(如 sub rsp, N),无系统调用或锁竞争;而堆分配需内存管理、元数据更新及可能的内核态切换,延迟更高。

栈分配为什么通常比堆快
栈分配快的核心原因是它只涉及移动栈指针,几乎不触发系统调用或内存管理逻辑。每次 int x; 或 std::array 都只是在当前栈帧上偏移几个字节,CPU 级别指令(如 sub rsp, N)即可完成。
堆分配则必须经过内存管理器:检查空闲块、拆分、更新元数据、可能触发 brk 或 mmap 系统调用——这些操作涉及内核态切换和锁竞争(尤其多线程下 malloc 可能争抢全局 arena 锁)。
- 单次栈分配耗时通常在
- 小对象堆分配(如
new int)在优化后的 glibc 中约 10–50 ns,但波动大,受内存碎片和线程竞争影响显著 - 大块内存(>128 KiB)可能直接走
mmap,延迟跳升至数百 ns 甚至微秒级
std::vector 默认在堆上,但 push_back 不等于每次都 malloc
std::vector 的数据存储在堆上,但它的增长策略(通常是 1.5× 或 2× 扩容)意味着绝大多数 push_back 是 O(1) 摊还时间——只改 size、拷贝元素,不触发新分配。真正慢的是扩容那一刻的 operator new + 内存拷贝 + 旧内存 operator delete。
- 预分配足够空间(
v.reserve(N))可完全避免运行时堆分配 - 若已知大小且较小(如 ≤ 256 字节),考虑用
std::array或栈上缓冲(std::vector自定义 allocator 配合栈内存池) - 注意:
std::vector析构时会自动delete[],但不会归还内存给 OS(glibc 通常只把内存放回 free list)
频繁小对象分配时,new/delete 比 malloc/free 更慢
new 和 delete 不仅调用 malloc/free,还会执行构造/析构函数。即使类无自定义 ctor/dtor,编译器仍需插入调用桩(尤其虚函数表初始化、异常处理帧注册等隐式开销)。
立即学习“C++免费学习笔记(深入)”;
- 对 POD 类型(如
struct Point { int x,y; };),malloc+memset+free通常比new Point[100]快 10%–30% - 若对象有非平凡析构(如含
std::string成员),delete[]必须逐个调用析构,而free完全跳过——此时性能差距进一步拉大 - 现代编译器(GCC/Clang)在
-O2下可能把 trivial 类型的new优化为malloc,但不可依赖
真正影响性能的往往不是分配本身,而是缓存局部性
栈上变量天然连续、高局部性;堆上每次 new 返回地址取决于当前空闲块位置,容易分散在不同 cache line 甚至不同物理页。反复分配释放后,堆内存碎片化会导致访问跨度变大,L1/L2 cache miss 率上升——这比分配耗时本身更伤性能。
- 用
std::vector存对象(而非指针)比std::vector<:unique_ptr>>缓存友好得多 - 批量分配(如一次
new T[N])比循环N次new T更优,不仅减少调用次数,也提升空间连续性 - 对于高频小对象(如游戏中的粒子),务必考虑对象池(
std::pmr::memory_resource或自定义 pool allocator),而不是依赖默认堆
栈快是事实,但“该不该用栈”取决于生命周期和大小——栈溢出(stack overflow)崩溃比慢一点更致命。实际优化时,先 profile 分配热点,再决定是换容器、预分配,还是引入池化,而不是盲目替换 new 为栈变量。









