哈夫曼编码本身不直接压缩文件,仅生成最优前缀码;真正压缩需字节流重组,用priority_queue构建树时需小顶堆,递归生成编码须引用传递code并手动回溯,位流压缩需逐位写入字节数组并记录补零数。

哈夫曼编码本身不直接“压缩文件”,它只是生成最优前缀码;真正压缩需要结合字节流重组(比如把 0/1 拼成 bit-level 数据),否则用 std::string 存二进制码反而会膨胀数倍。
如何用 priority_queue 构建哈夫曼树
核心是自定义比较:让频率小的节点优先级高(小顶堆)。注意不能只重载 operator,而要传入仿函数或 lambda,因为 <code>priority_queue 默认是大顶堆。
- 定义节点结构体,含
freq、left、right、ch(叶子节点才有效) - 构造
priority_queue<node vector>, decltype(cmp)></node>,其中cmp是[&](Node* a, Node* b) { return a->freq > b->freq; } - 每次取两个最小频次节点合并,新节点频次为二者和,左右子树分别挂上这两个节点
- 最后队列只剩一个根节点 —— 这就是哈夫曼树根
为什么递归遍历生成编码时必须用引用传递 code 字符串
如果用值传递,每层递归都会拷贝当前路径字符串,深度为 h 的树总开销达 O(h²);更严重的是,回溯时无法自动“弹出”最后一位,导致编码错乱。
- 正确做法:参数声明为
string& code - 进入左子树前 push_back('0'),返回前 pop_back()
- 进入右子树前 push_back('1'),返回前 pop_back()
- 遇到叶子节点(
node->left == nullptr && node->right == nullptr)时,保存code到map<char string></char>
如何把字符序列转成紧凑的 bit stream(避免空间爆炸)
直接存每个字符的 string 编码(如 "10110")会导致:原 1 字节变成 5 字节以上。必须按位写入字节数组。
立即学习“C++免费学习笔记(深入)”;
- 用
vector<uint8_t></uint8_t>存压缩后数据,维护当前字节current_byte和已写位数bits_in_byte - 对每个编码字符串,逐字符读 '0'/'1':设 bit = (c == '1'),然后
current_byte |= (bit - 每写满 8 位就 push_back(
current_byte),并重置current_byte = 0、bits_in_byte = 0 - 编码结束时若
bits_in_byte > 0,需 push 剩余字节,并在解码端记录实际末尾位数(通常额外存 1 字节表示补零数)
最易被忽略的是:哈夫曼编码无唯一解 —— 同频节点合并顺序不同会导致树结构不同,但只要保证前缀性质,压缩率理论一致;实际中建议固定左子树频次 ≤ 右子树,便于调试比对。










