70倍极致压缩！大模型的检查点再多也不怕

WBOY

发布时间：2024-08-05 21:30:36

428人浏览过

来源于机器之心

转载

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该论文的作者均来自于华为诺亚实验室，第一作者为李文硕，通讯作者为王云鹤和陈醒濠。相关团队团队近年来在ICML、CVPR、NeurIPS、ICCV、ECCV等顶会上有多项代表性工作发表，在高效大语言模型、视觉模型等领域都有丰富的成果产出，和知名高校和科研机构合作广泛。

大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」，吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大，系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里，系统会崩溃 466 次，平均 2.78 小时一次！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

70倍极致压缩！大模型的检查点再多也不怕

那么，频繁存储检查点就显得十分必要。但存储检查点本身也是一个大工程。

70倍极致压缩！大模型的检查点再多也不怕

Meta 做了很多努力来加速存储检查点时间和增加存储频率，来对抗频繁出现的系统失效。但频繁存储也意味着大量的存储资源开销，其训练集群配备了 240PB 的 SSD 来应对这一挑战，光存储这一项的耗费就要亿元！

华为诺亚的 ExCP 方法也就应运而生，为了应对存储带来的巨大开销，他们提出了极致压缩检查点技术，能够无损压缩模型 70 倍，大幅降低训练中的存储开销。

70倍极致压缩！大模型的检查点再多也不怕

代码目前已经开源，在 Apache 2.0 框架下发布，issue 中已经有小伙伴成功复现了结果。

70倍极致压缩！大模型的检查点再多也不怕

文章地址：https://arxiv.org/abs/2406.11257
仓库地址：https://github.com/Gaffey/ExCP

方法也很有创新性，文章中提到了两个重要的概念，一个是利用训练中检查点的残差信息，通过时间序列上信息的稀疏性实现更高的剪枝比例；另一个是将优化器和权重联合起来进行压缩，实现整体的高压缩率。

70倍极致压缩！大模型的检查点再多也不怕

具体方法

1. 检查点残差

在训练过程中，当前的参数可以看作上一个检查点存储的权重加上逐次迭代时梯度更新的总和，这部分是相对稀疏的，包含的信息量较少，因此对这一残差进行压缩，可以获得更好的压缩比例。而与此相反的，优化器中存储的动量是梯度一阶矩和二阶矩的滑动平均值，对于一阶矩来说，它的滑动平均默认的参数是 0.9，在数百到数千个迭代之后与上一次检查点存储的内容已经没有太大的关联，所以对于优化器直接压缩其本身的值而非残差。最终待压缩的检查点表示为

70倍极致压缩！大模型的检查点再多也不怕

2. 权重 - 优化器动量联合压缩

目前已有的模型压缩相关的工作一般只关注于模型的推理性能，或者是模型最终存储检查点的大小，而不关注模型在整个训练过程中对储存空间的开销。因而已有工作只对权重进行压缩，而忽略了 Adam 等常见优化器中实际上存储了两倍于权重数量的动量。这一工作一方面将两者一起进行了压缩，显著提升了整体的压缩比例；另一方面也利用了权重和优化器动量的关联性，进一步提升彼此的压缩比例。

权重剪枝：由于剪枝的权重是残差值，优化器动量的二阶矩可以大致表示在过去一段时间内权重残差值的变化幅度，所以可以使用优化器动量的二阶矩作为指标来确定不同层的剪枝比例。剪枝策略如下文公式所示

70倍极致压缩！大模型的检查点再多也不怕式中，W 和分别表示权重和二阶矩。

Glimmer Ai

基于GPT-3和DALL·E2的PPT制作工具

下载

优化器动量剪枝：对于动量剪枝，可以使用一阶矩作为指示器来进行剪枝，论文中有关于可收敛性的一个简要证明。同时，如果一个位置的权重已经被剪枝，那么对应位置的优化器动量也应该同步被处理，所以剪枝策略如下文公式所示

70倍极致压缩！大模型的检查点再多也不怕

式中，

表示一阶矩。

3. 整体压缩流程

整体压缩流程如 Algorithm 1 所示，依次进行计算权重残差 / 联合压缩 / 非均匀量化 / 编码压缩等步骤，得到最终的压缩结果。

70倍极致压缩！大模型的检查点再多也不怕

而恢复出检查点完整文件的流程则如 Algorithm 2 所示，进行解压缩之后，首先从非均匀量化后存储的码本和下标中恢复出浮点结果，然后再与基准权重（上一个检查点的原始权重或恢复出的重建权重）相加，得到检查点完整文件。而恢复出整个训练流程中的检查点文件的流程如 Algorithm 3 所示，在完成训练后只保存初始化权重的随机种子和每个检查点存储的压缩结果，然后依次对检查点进行恢复以得到完整的检查点序列，以供从其中选择某个或多个检查点恢复训练 / 进行测试等。

实验结果

文章中不仅对于大语言模型做了评估，在 ViT-L32 这样较大的视觉模型上这一方法也能取得很好的效果。

70倍极致压缩！大模型的检查点再多也不怕

从消融实验里也可以看出，采用残差剪枝的方法大大减少了剪枝带来的损失。

70倍极致压缩！大模型的检查点再多也不怕

文章中还提供了大语言模型压缩前后问答的样例，可以看到压缩本身对于模型的问答能力也没有造成损害。

70倍极致压缩！大模型的检查点再多也不怕

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

Symphony— OpenAI 开源的 Agent 编排系统

如何解决代码中难以排查的性能瓶颈利用ChatGPT提供针对性优化建议

如何零基础入门AI提示词工程利用DeepSeek官方教程实现技能进阶

如何掌握提示词工程技巧利用ChatGPT万能公式提升回复质量

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4223

2026.01.21

apache是什么意思

Apache是Apache HTTP Server的简称，是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一，由Apache软件基金会开发和维护，Apache具有稳定、安全和高性能的特点，得益于其成熟的开发和广泛的应用实践，被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程，希望对各位有所帮助。

421

2023.08.23

apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容，可以阅读本专题下面的文章。

939

2024.01.16

Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用，系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控，结合实际业务场景，帮助开发者构建高吞吐量、低延迟的实时数据流管道，实现高效的数据流转与处理。

173

2026.02.04

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2911

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板