C++如何实现简单的哈夫曼编码压缩_C++数据结构应用之文本压缩【实战】

尼克

发布时间：2026-02-20 04:17:22

256人浏览过

来源于php中文网

原创

哈夫曼树用priority_queue按频次升序构建最小堆，合并两最小权节点直至剩根节点；编码表通过递归dfs生成，叶子存码，单节点特判为"0"；压缩文件需位级写入，开头存padding字节数，再写编码表和比特流。

c++如何实现简单的哈夫曼编码压缩_c++数据结构应用之文本压缩【实战】

哈夫曼树怎么建：用 priority_queue 比手写堆更稳

核心是按字符频次构建带权路径最短的二叉树。别自己实现最小堆，C++ 的 priority_queue 配合自定义比较就能搞定。关键点在于：优先队列必须按节点权重（频次）升序排列，所以得重载 operator，让小的在堆顶——注意不是默认的大顶堆逻辑。

常见错误是把频次大的先弹出，结果树高偏斜、压缩率下降。另外，所有叶子节点必须对应原始字符，内部节点权重等于左右子树权重之和，这个累加过程不能漏掉空节点判断。

初始化时，每个字符建一个 HuffmanNode，频次为实际统计值
合并两个最小节点后，新节点的 freq = left->freq + right->freq，且 left 和 right 指针必须非空
最终只剩一个根节点，它就是哈夫曼树的 root

编码表怎么生成：递归遍历比 BFS 更直观

从根开始深搜，左分支记 0，右分支记 1，到叶子就存下该字符的编码字符串。不用 BFS 或栈模拟，递归代码短、边界清晰。但要注意：编码字符串必须在进入子节点前拼接，回溯时再 pop，否则会串码。

容易忽略的是空文件或单字符输入场景：如果文本只有一种字符，哈夫曼树退化成单节点，此时编码应强制设为 "0"（不能空），否则解压时无法还原。

立即学习“C++免费学习笔记（深入）”；

BiLin AI

免费的多语言AI搜索引擎

下载

递归函数签名类似 void generateCodes(Node* node, string code, unordered_map<char string>& table)</char>
只在 node->left == nullptr && node->right == nullptr 时插入 table[node->ch] = code
若整棵树只有根（无子节点），手动设 table[ch] = "0"

压缩文件怎么写：别直接写字符串，要按位写入字节

哈夫曼编码本质是变长比特序列，比如 'a' 编码是 "101"，不能以字符串形式写进文件——那会占 3 字节（ASCII），完全失去压缩意义。必须把所有编码拼成连续比特流，每 8 位打包成一个 unsigned char 写入。

典型坑是末尾不足 8 位怎么处理：得在文件开头或结尾存一个长度标识（推荐开头存 1 字节表示补零位数），否则解压时无法截断最后无效比特。另外，原始文件名和编码表也得一并保存，否则无法解压。

用 std::vector<bool></bool> 或手动位运算暂存比特流（后者更可控）
写文件前先写 1 字节的 padding count（0–7），再写编码表（如 JSON 格式或自定义二进制结构），最后写压缩数据
避免用 std::ofstream 写字符串，改用 <code>write(reinterpret_cast<const char>(&byte), 1)</const>

解压时怎么查表快：用 map 不如用定长数组+哨兵

解压是边读比特边匹配编码表的过程。如果用 unordered_map<string char></string> 做前缀匹配，每次拼接字符串+哈希查找，性能差还易出错。更稳的方式是建一棵哈夫曼树镜像（即解码树）：根出发，读 0 就走左，读 1 就走右，到叶子就输出字符并重置回根。

这棵树可以用指针结构体实现，但更轻量的是用二维数组 next[256][2]（256 是状态数，2 是 0/1 分支），配合 isLeaf[256] 和 charAt[256]。构建时注意状态编号分配顺序，别跳号或重复。

编码表转解码树时，对每个 code 字符串，从 root 开始逐位创建节点，最后标记叶子
读取压缩数据需逐 bit 解析：用 (byte >> (7 - bitPos)) & 1 取当前位，bitPos 从 0 到 7 循环
遇到 EOF 但当前不在叶子？说明数据损坏或 padding 计数错

真正难的不是建树或编码，而是位操作边界、padding 对齐、以及编码表与二进制数据的混合存储格式设计。这几个地方错一点，压缩文件就彻底打不开。

C++如何实现带上下文的异常堆栈捕获？（结合backtrace_symbols）

C++中的默认参数是什么？（为什么在虚函数中要慎用）

C++如何处理UTF-8字符串？（跨平台编码转换）

c++如何获取数组长度_c++获取array大小的多种方式【入门】

C++如何使用constexpr？（编译期常量表达式示例）

相关标签:

编码 c++ json EOF String count 字符串递归 char void 循环指针数据结构 ofstream 栈堆 padding ASCII table

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++如何使用OpenSSL实现RSA加密_C++网络安全传输代码实例【方案】下一篇：暂无

作者最新文章

Kimi怎么导出为PDF文档_Kimi对话内容转换与离线保存方法【操作】

2026-02-19 10:43

中国移动app如何退订额外业务_中国移动app扣费查询教程【取消】

2026-02-19 10:47

composer如何为微服务通信客户端统一生成依赖？（OpenAPI + PHP Client自动化）

2026-02-19 10:47

如何清理电脑系统垃圾 DISM++工具【清理】

2026-02-19 10:51

电脑新建文件夹是ctrl加哪个键新建快捷键怎么用

2026-02-19 10:57

composer如何在VS Code中集成提示？（插件与智能感知配置）

2026-02-19 11:00

有道精品课上课平台有道精品课网页版登录网址

2026-02-19 11:03

Windows11桌面快捷方式箭头怎么去掉_Windows美化【建议】

2026-02-19 11:03

电脑怎么清理剪贴板记录？保护电脑隐私安全防止敏感信息泄露【方法】

2026-02-19 11:09

火狐怎么开启多账户容器_Firefox多账号同时登录插件用法【分享】

2026-02-19 11:11

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

442

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23