哈夫曼树用priority_queue按频次升序构建最小堆,合并两最小权节点直至剩根节点;编码表通过递归dfs生成,叶子存码,单节点特判为"0";压缩文件需位级写入,开头存padding字节数,再写编码表和比特流。

哈夫曼树怎么建:用 priority_queue 比手写堆更稳
核心是按字符频次构建带权路径最短的二叉树。别自己实现最小堆,C++ 的 priority_queue 配合自定义比较就能搞定。关键点在于:优先队列必须按节点权重(频次)升序排列,所以得重载 operator,让小的在堆顶——注意不是默认的大顶堆逻辑。
常见错误是把频次大的先弹出,结果树高偏斜、压缩率下降。另外,所有叶子节点必须对应原始字符,内部节点权重等于左右子树权重之和,这个累加过程不能漏掉空节点判断。
- 初始化时,每个字符建一个
HuffmanNode,频次为实际统计值 - 合并两个最小节点后,新节点的
freq = left->freq + right->freq,且left和right指针必须非空 - 最终只剩一个根节点,它就是哈夫曼树的
root
编码表怎么生成:递归遍历比 BFS 更直观
从根开始深搜,左分支记 0,右分支记 1,到叶子就存下该字符的编码字符串。不用 BFS 或栈模拟,递归代码短、边界清晰。但要注意:编码字符串必须在进入子节点前拼接,回溯时再 pop,否则会串码。
容易忽略的是空文件或单字符输入场景:如果文本只有一种字符,哈夫曼树退化成单节点,此时编码应强制设为 "0"(不能空),否则解压时无法还原。
立即学习“C++免费学习笔记(深入)”;
- 递归函数签名类似
void generateCodes(Node* node, string code, unordered_map<char string>& table)</char> - 只在
node->left == nullptr && node->right == nullptr时插入table[node->ch] = code - 若整棵树只有根(无子节点),手动设
table[ch] = "0"
压缩文件怎么写:别直接写字符串,要按位写入字节
哈夫曼编码本质是变长比特序列,比如 'a' 编码是 "101",不能以字符串形式写进文件——那会占 3 字节(ASCII),完全失去压缩意义。必须把所有编码拼成连续比特流,每 8 位打包成一个 unsigned char 写入。
典型坑是末尾不足 8 位怎么处理:得在文件开头或结尾存一个长度标识(推荐开头存 1 字节表示补零位数),否则解压时无法截断最后无效比特。另外,原始文件名和编码表也得一并保存,否则无法解压。
- 用
std::vector<bool></bool>或手动位运算暂存比特流(后者更可控) - 写文件前先写 1 字节的 padding count(0–7),再写编码表(如 JSON 格式或自定义二进制结构),最后写压缩数据
- 避免用
std::ofstream 写字符串,改用 <code>write(reinterpret_cast<const char>(&byte), 1)</const>
解压时怎么查表快:用 map 不如用定长数组+哨兵
解压是边读比特边匹配编码表的过程。如果用 unordered_map<string char></string> 做前缀匹配,每次拼接字符串+哈希查找,性能差还易出错。更稳的方式是建一棵哈夫曼树镜像(即解码树):根出发,读 0 就走左,读 1 就走右,到叶子就输出字符并重置回根。
这棵树可以用指针结构体实现,但更轻量的是用二维数组 next[256][2](256 是状态数,2 是 0/1 分支),配合 isLeaf[256] 和 charAt[256]。构建时注意状态编号分配顺序,别跳号或重复。
- 编码表转解码树时,对每个
code字符串,从 root 开始逐位创建节点,最后标记叶子 - 读取压缩数据需逐 bit 解析:用
(byte >> (7 - bitPos)) & 1取当前位,bitPos 从 0 到 7 循环 - 遇到 EOF 但当前不在叶子?说明数据损坏或 padding 计数错
真正难的不是建树或编码,而是位操作边界、padding 对齐、以及编码表与二进制数据的混合存储格式设计。这几个地方错一点,压缩文件就彻底打不开。










