0

0

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

DDD

DDD

发布时间:2024-11-07 18:31:25

|

836人浏览过

|

来源于机器之心

转载

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。

自从 ResNet 提出后,残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题,使得网络的训练更加稳定。

但是,现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡,无法同时解决。

为此,字节豆包大模型 Foundation 团队于近日提出超连接(Hyper-Connections),针对上述 “跷跷板式” 困境,实现了显著提升。

该方法适用于大规模语言模型(LLMs)的预训练,在面向 Dense 模型和 MoE 模型的实验中,展示了显著性能提升效果,使预训练收敛速度最高可加速 80%。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
研究团队还发现,超连接在两个小型的视觉任务中表现同样优异,这表明,该方法在多个领域有广泛的应用前景。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
  • 论文标题:Hyper-Connections
  • 论文链接:https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及,残差连接的两种主要变体 Pre-Norm 和 Post-Norm 各自都有其局限性,具体体现如下:

  • Pre-Norm:在每个残差块之前进行归一化操作,可有效减少梯度消失问题。然而,Pre-Norm 在较深网络中容易导致表示崩溃,即深层隐藏表示过于相似,从而削弱了模型学习能力。
  • Post-Norm:在残差块之后进行归一化操作,有助于减少表示崩溃问题,但也重新引入梯度消失问题。在 LLM 中,通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接(Depth-connections)和宽度连接(Width-connections)。

从理论上,这使得模型不仅能够动态调整不同层之间的连接强度,甚至能重新排列网络层次结构,弥补了残差连接在梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。

深度连接与宽度连接

起初,该方法会将网络输入扩展为 n 个隐向量(n 称作 Expansion rate)。之后每一层的输入都会是 n 个隐向量,超连接会对这些隐向量建立以下两类连接:

  • 深度连接(Depth-Connections):这些连接类似于残差连接,只为输入与输出之间的连接分配权重,允许网络学习不同层之间的连接强度。
  • 宽度连接(Width-Connections):这些连接使得每一层多个隐藏向量之间可进行信息交换,从而提高模型表示能力。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
静态与动态超连接

超连接可以是静态的,也可以是动态的。

其中,静态超连接(Static Hyper-Connections, SHC)意味着连接权重在训练结束后固定不变。而动态超连接(Dynamic Hyper-Connections, DHC)则对应连接权重可根据输入动态调整。实验表明,动态超连接效果更好。

2. 技术细节

超连接(Hyper-connections)

首先,考虑第 k 层的输入隐藏向量字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,网络的初始输入为字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,并将其复制 n 次,形成初始的超隐藏矩阵(Hyper Hidden Matrix):
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
这里,n 称为扩展率(Expansion Rate)。在第 k 层,输入是上一层的超隐藏矩阵字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,即:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
对最后一层的超隐藏矩阵逐行求和,得到所需的隐藏向量,并通过一个投影层输出网络最终的结果(在 Transformer 中即为归一化层和解嵌入层)。

为了简化后续分析的符号表示,作者省略层索引,直接将超隐藏矩阵表示为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
超连接可以用一个矩阵来表示,对于扩展率为 n 的情况,超连接矩阵 HC 如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
考虑一层网络字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%可以简单地表示为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
也就是说,用 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%作为权重对输入 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%进行加权求和,得到当前层的输入字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%同时,字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%用于将 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%映射到残差超隐藏矩阵字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,表示如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
最终的输出表达式为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
伪代码如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
动态超连接的实现

超连接矩阵 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的元素可以动态依赖于输入 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,动态超连接的矩阵表示为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
同样,给定层 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%和输入字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,可以得到动态超连接的输出:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
在实际操作中,团队结合了静态和动态矩阵来实现动态超连接,动态参数通过线性变换获得。

为了稳定训练过程,团队在线性变换前引入归一化,并在其后应用 tanh 激活函数,通过一个可学习的小因子进行缩放。动态参数的计算公式如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
实验表明,动态超连接在语言建模任务中优于静态超连接。

3. 为什么使用超连接(Hyper-Connections)

研究团队认为,残差连接的两种变体,即前归一化(Pre-Norm)和后归一化(Post-Norm),可以被视为不可训练的超连接。

随后,团队引入了顺序 - 并行二象性概念,展示了超连接如何动态优化层的排列以提升网络性能。

残差连接是不可训练的超连接

前归一化和后归一化的残差连接可以表示为以下扩展率为 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的超连接矩阵:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
其中,字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%和 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80% 分别表示神经网络层输入和输出的标准差,字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%表示它们之间的协方差。

对于 Pre-Norm,其超连接矩阵是一个 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的矩阵,右下三角部分填充为 1,其余部分为占位符 0。对于 Post-Norm,权重依赖于输入和输出的方差及协方差,形成一个 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的矩阵。因此,它们的超连接矩阵是不可训练的。

而本工作提出的方法的超连接矩阵是 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%矩阵,且权重是可训练的,甚至可以基于输入进行动态预测。

顺序 - 并行二象性

给定一系列神经网络模块,我们可以将它们顺序排列或并行排列。作者认为,超连接可以学习如何将这些层重新排列,形成顺序和并行配置的混合。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
在不失一般性的情况下,可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习,神经网络将被顺序排列:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
在这种情况下,深度连接退化为残差连接,如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时,神经网络每两层将被并行排列,类似于 Transformer 中的 parallel transformer block 的排列方式,如图 (b) 所示。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
因此,通过学习不同形式的超连接矩阵,网络层的排列可以超越传统的顺序和并行配置,形成软混合甚至动态排列。对于静态超连接,网络中的层排列在训练后保持固定;而对于动态超连接,排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上,涵盖了 Dense 模型和 MoE 模型。

实验结果表明,使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
只要扩展率 > 1,效果就十分显著,且训练更稳定,消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型,效果也十分亮眼,同时可以看到有超连接的网络训练更稳定。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
7B 候选激活 1.3B 的 MoE 模型实验
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
可以看到,下游指标全涨,在 ARC-Challenge 上甚至涨了 6 个百分点。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
综上,研究团队介绍了超连接(Hyper-Connections),它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明,超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是,超连接的引入几乎不增加额外的计算开销或参数量,团队认为,该成果具有广泛的应用潜力,可以推广到文音视图模态的不同任务上,包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题,尤其在 LLMs 和多模态方面,期望实现更多突破。

更多团队技术研究进展,可以进入「豆包大模型团队」技术解读栏目了解。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1997

2024.08.16

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

6

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

59

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

80

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

37

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

17

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

155

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 7万人学习

Node.js 教程
Node.js 教程

共57课时 | 9万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号