0

0

C++如何实现简单的哈夫曼编码压缩_C++数据结构应用之文本压缩【实战】

尼克

尼克

发布时间:2026-02-20 04:17:22

|

256人浏览过

|

来源于php中文网

原创

哈夫曼树用priority_queue按频次升序构建最小堆,合并两最小权节点直至剩根节点;编码表通过递归dfs生成,叶子存码,单节点特判为"0";压缩文件需位级写入,开头存padding字节数,再写编码表和比特流。

c++如何实现简单的哈夫曼编码压缩_c++数据结构应用之文本压缩【实战】

哈夫曼树怎么建:用 priority_queue 比手写堆更稳

核心是按字符频次构建带权路径最短的二叉树。别自己实现最小堆,C++ 的 priority_queue 配合自定义比较就能搞定。关键点在于:优先队列必须按节点权重(频次)升序排列,所以得重载 operator,让小的在堆顶——注意不是默认的大顶堆逻辑。

常见错误是把频次大的先弹出,结果树高偏斜、压缩率下降。另外,所有叶子节点必须对应原始字符,内部节点权重等于左右子树权重之和,这个累加过程不能漏掉空节点判断。

  • 初始化时,每个字符建一个 HuffmanNode,频次为实际统计值
  • 合并两个最小节点后,新节点的 freq = left->freq + right->freq,且 leftright 指针必须非空
  • 最终只剩一个根节点,它就是哈夫曼树的 root

编码表怎么生成:递归遍历比 BFS 更直观

从根开始深搜,左分支记 0,右分支记 1,到叶子就存下该字符的编码字符串。不用 BFS 或栈模拟,递归代码短、边界清晰。但要注意:编码字符串必须在进入子节点前拼接,回溯时再 pop,否则会串码。

容易忽略的是空文件或单字符输入场景:如果文本只有一种字符,哈夫曼树退化成单节点,此时编码应强制设为 "0"(不能空),否则解压时无法还原。

立即学习C++免费学习笔记(深入)”;

BiLin AI
BiLin AI

免费的多语言AI搜索引擎

下载
  • 递归函数签名类似 void generateCodes(Node* node, string code, unordered_map<char string>& table)</char>
  • 只在 node->left == nullptr && node->right == nullptr 时插入 table[node->ch] = code
  • 若整棵树只有根(无子节点),手动设 table[ch] = "0"

压缩文件怎么写:别直接写字符串,要按位写入字节

哈夫曼编码本质是变长比特序列,比如 'a' 编码是 "101",不能以字符串形式写进文件——那会占 3 字节(ASCII),完全失去压缩意义。必须把所有编码拼成连续比特流,每 8 位打包成一个 unsigned char 写入。

典型坑是末尾不足 8 位怎么处理:得在文件开头或结尾存一个长度标识(推荐开头存 1 字节表示补零位数),否则解压时无法截断最后无效比特。另外,原始文件名和编码表也得一并保存,否则无法解压。

  • std::vector<bool></bool> 或手动位运算暂存比特流(后者更可控)
  • 写文件前先写 1 字节的 padding count(0–7),再写编码表(如 JSON 格式或自定义二进制结构),最后写压缩数据
  • 避免用 std::ofstream 写字符串,改用 <code>write(reinterpret_cast<const char>(&byte), 1)</const>

解压时怎么查表快:用 map 不如用定长数组+哨兵

解压是边读比特边匹配编码表的过程。如果用 unordered_map<string char></string> 做前缀匹配,每次拼接字符串+哈希查找,性能差还易出错。更稳的方式是建一棵哈夫曼树镜像(即解码树):根出发,读 0 就走左,读 1 就走右,到叶子就输出字符并重置回根。

这棵树可以用指针结构体实现,但更轻量的是用二维数组 next[256][2](256 是状态数,2 是 0/1 分支),配合 isLeaf[256]charAt[256]。构建时注意状态编号分配顺序,别跳号或重复。

  • 编码表转解码树时,对每个 code 字符串,从 root 开始逐位创建节点,最后标记叶子
  • 读取压缩数据需逐 bit 解析:用 (byte >> (7 - bitPos)) & 1 取当前位,bitPos 从 0 到 7 循环
  • 遇到 EOF 但当前不在叶子?说明数据损坏或 padding 计数错

真正难的不是建树或编码,而是位操作边界、padding 对齐、以及编码表与二进制数据的混合存储格式设计。这几个地方错一点,压缩文件就彻底打不开。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

442

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

322

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

790

2023.08.02

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

199

2023.11.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

574

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

660

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Rust 教程
Rust 教程

共28课时 | 6万人学习

Git 教程
Git 教程

共21课时 | 3.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号