推荐用 std::vector 实现矩阵乘法,因其自动内存管理、支持动态尺寸、避免越界和栈溢出;需检查维度匹配(A列==B行),用三重循环i-j-p,初始化结果矩阵,关键错误多源于维度误判或未初始化。

用 std::vector 实现安全、可变尺寸的矩阵乘法
直接操作裸二维数组(如 int a[10][10])写矩阵乘法,容易越界、难传参、无法动态分配。推荐用 std::vector<:vector>></:vector> —— 它自动管理内存,支持运行时确定行列数,且能自然表达“每行长度可不同”(虽然乘法要求列数匹配,但结构上更清晰)。
关键前提:左矩阵 A 是 m × k,右矩阵 B 是 k × n,结果 C 为 m × n。必须检查 A[0].size() == B.size(),否则乘法无定义。
- 初始化结果矩阵:
C(m, std::vector<double>(n, 0.0))</double> - 三重循环顺序固定为
i-j-k(i行、j列、k求和索引),这是缓存友好的写法 - 避免在循环内重复调用
.size(),尤其在 Release 模式下编译器未必能完全优化
#include <vector>
std::vector<std::vector<double>> matmul(
const std::vector<std::vector<double>>& A,
const std::vector<std::vector<double>>& B) {
size_t m = A.size();
size_t k = A.empty() ? 0 : A[0].size();
size_t n = B.empty() ? 0 : B[0].size();
<pre class='brush:php;toolbar:false;'>if (k != B.size()) throw std::invalid_argument("Matrix dimensions don't match");
std::vector<std::vector<double>> C(m, std::vector<double>(n, 0.0));
for (size_t i = 0; i < m; ++i) {
for (size_t j = 0; j < n; ++j) {
for (size_t p = 0; p < k; ++p) { // 用 p 替代 k,避免和 size_t k 冲突
C[i][j] += A[i][p] * B[p][j];
}
}
}
return C;}
用原生二维数组时如何避免栈溢出和维度硬编码
写 int a[1000][1000] 在栈上会崩溃(约 4MB),而函数参数写 void mul(int a[][N], int b[][N]) 要求 N 是编译期常量,不灵活。正确做法是用一维数组模拟二维布局 + 显式传行列数。
立即学习“C++免费学习笔记(深入)”;
优势:内存连续(利于 CPU 缓存)、可堆分配、无模板或 STL 依赖,适合嵌入式或性能敏感场景。
- 按行优先存储:
A[i][j]对应a[i * cols_A + j] - 乘法公式不变,但索引要手动展开:
c[i * n + j] += a[i * k + p] * b[p * n + j] - 务必用
new double[m * k]分配,用完delete[];或改用std::unique_ptr<double></double>
遇到 segmentation fault 或结果全零?先查这三点
矩阵乘法出错,80% 以上源于维度或索引误算,而非算法逻辑。
-
A的列数 ≠B的行数 → 立即崩溃或静默错误(若未检查就访问B[k][j]) - 循环变量越界:例如把
for (int k = 0; k <= K; ++k)写成<=(应为<) - 结果矩阵未初始化:C++ 原生数组默认不初始化,
int c[10][10]里全是垃圾值,累加前必须清零
想提速?别急着手写 SIMD,先确认瓶颈在哪
对中小规模(< 200×200)矩阵,std::vector 版本足够快;盲目引入 OpenMP 或 AVX 反而因线程开销/寄存器压力变慢。
真正值得优化的点:
- 用
-O2 -march=native编译,让 g++/clang 自动向量化内层循环 - 交换循环顺序(如
i-k-j)可能提升缓存命中率,但需实测——现代 CPU 和编译器对此已很成熟 - 大矩阵(> 1000×1000)才考虑分块(tiling)或调用
BLAS(如 OpenBLAS 的dgemm)
手写高性能通用矩阵乘法极其复杂,工程中优先复用经过验证的库。










