此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

王林

发布时间：2023-06-14 13:43:17

1289人浏览过

来源于51CTO.COM

转载

前段时间，一条指出谷歌大脑团队论文《Attention Is All You Need》中 Transformer 构架图与代码不一致的推文引发了大量的讨论。

对于 Sebastian 的这一发现，有人认为属于无心之过，但同时也会令人感到奇怪。毕竟，考虑到 Transformer 论文的流行程度，这个不一致问题早就应该被提及 1000 次。

Sebastian Raschka 在回答网友评论时说，「最最原始」的代码确实与架构图一致，但 2017 年提交的代码版本进行了修改，但同时没有更新架构图。这也是造成「不一致」讨论的根本原因。

随后，Sebastian 在 Ahead of AI 发布文章专门讲述了为什么最初的 Transformer 构架图与代码不一致，并引用了多篇论文简要说明了 Transformer 的发展变化。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

以下为文章原文，让我们一起看看文章到底讲述了什么：

几个月前，我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》，积极的反馈非常鼓舞人心！因此，我添加了一些论文，以保持列表的新鲜感和相关性。

同时，保持列表简明扼要是至关重要的，这样大家就可以用合理的时间就跟上进度。还有一些论文，信息量很大，想来也应该包括在内。

我想分享四篇有用的论文，从历史的角度来理解 Transformer。虽然我只是直接将它们添加到理解大型语言模型的文章中，但我也在这篇文章中单独来分享它们，以便那些之前已经阅读过理解大型语言模型的人更容易找到它们。

On Layer Normalization in the Transformer Architecture (2020)

虽然下图（左）的 Transformer 原始图（https://arxiv.org/abs/1706.03762）是对原始编码器 - 解码器架构的有用总结，但该图有一个小小的差异。例如，它在残差块之间进行了层归一化，这与原始 Transformer 论文附带的官方 (更新后的）代码实现不匹配。下图（中）所示的变体被称为 Post-LN Transformer。

Transformer 架构论文中的层归一化表明，Pre-LN 工作得更好，可以解决梯度问题，如下所示。许多体系架构在实践中采用了这种方法，但它可能导致表征的崩溃。

因此，虽然仍然有关于使用 Post-LN 或前 Pre-LN 的讨论，也有一篇新论文提出了将两个一起应用：《 ResiDual: Transformer with Dual Residual Connections》（https://arxiv.org/abs/2304.14802），但它在实践中是否有用还有待观察。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

图注：图源 https://arxiv.org/abs/1706.03762 (左 & 中) and https://arxiv.org/abs/2002.04745 (右）

Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)

这篇文章推荐给那些对历史花絮和早期方法感兴趣的人，这些方法基本上类似于现代 Transformer。

例如，在比 Transformer 论文早 25 年的 1991 年，Juergen Schmidhuber 提出了一种递归神经网络的替代方案（https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922），称为 Fast Weight Programmers (FWP)。实现快速权值变化的另一个神经网络是通过使用梯度下降算法缓慢学习的 FWP 方法中所涉及的前馈神经网络。

这篇博客 (https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 将其与现代 Transformer 进行类比，如下所示:

在今天的 Transformer 术语中，FROM 和 TO 分别称为键 (key) 和值 (value)。应用快速网络的输入称为查询。本质上，查询由快速权重矩阵 (fast weight matrix) 处理，它是键和值的外积之和 (忽略归一化和投影)。我们可以使用加法外积或二阶张量积来实现端到端可微的主动控制权值快速变化，因为两个网络的所有操作都支持微分。在序列处理期间，梯度下降可以用于快速调整快速网络，从而应对慢速网络的问题。这在数学上等同于 (除了归一化之外) 后来被称为具有线性化自注意的 Transformer (或线性 Transformer)。

正如上文摘录所提到的，这种方法现在被称为线性 Transformer 或具有线性化自注意的 Transformer。它们来自于 2020 年出现在 arXiv 上的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》（https://arxiv.org/abs/2006.16236）以及《Rethinking Attention with Performers》（https://arxiv.org/abs/2009.14794）。

2021 年，论文《Linear Transformers Are Secretly Fast Weight Programmers》（https://arxiv.org/abs/2102.11174）明确表明了线性化自注意力和 20 世纪 90 年代的快速权重编程器之间的等价性。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

图源：https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

CodeBuddy

腾讯云AI代码助手

下载

Universal Language Model Fine-tuning for Text Classification (2018)

这是另一篇从历史角度来看非常有趣的论文。它是在原版《Attention Is All You Need》发布一年后写的，并没有涉及 transformer，而是专注于循环神经网络，但它仍然值得关注。因为它有效地提出了预训练语言模型和迁移学习的下游任务。虽然迁移学习已经在计算机视觉中确立，但在自然语言处理 (NLP) 领域还没有普及。ULMFit（https://arxiv.org/abs/1801.06146）是首批表明预训练语言模型在特定任务上对其进行微调后，可以在许多 NLP 任务中产生 SOTA 结果的论文之一。

ULMFit 建议的语言模型微调过程分为三个阶段:

1. 在大量的文本语料库上训练语言模型；
2. 根据任务特定的数据对预训练的语言模型进行微调，使其能够适应文本的特定风格和词汇；
3. 微调特定任务数据上的分类器，通过逐步解冻各层来避免灾难性遗忘。

在大型语料库上训练语言模型，然后在下游任务上对其进行微调的这种方法，是基于 Transformer 的模型和基础模型 (如 BERT、GPT-2/3/4、RoBERTa 等) 使用的核心方法。

然而，作为 ULMFiT 的关键部分，逐步解冻通常在实践中不进行，因为 Transformer 架构通常一次性对所有层进行微调。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

Gopher 是一篇特别好的论文（https://arxiv.org/abs/2112.11446），包括大量的分析来理解 LLM 训练。研究人员在 3000 亿个 token 上训练了一个 80 层的 2800 亿参数模型。其中包括一些有趣的架构修改，比如使用 RMSNorm (均方根归一化) 而不是 LayerNorm (层归一化)。LayerNorm 和 RMSNorm 都优于 BatchNorm，因为它们不局限于批处理大小，也不需要同步，这在批大小较小的分布式设置中是一个优势。RMSNorm 通常被认为在更深的体系架构中会稳定训练。

除了上面这些有趣的花絮之外，本文的主要重点是分析不同规模下的任务性能分析。对 152 个不同任务的评估显示，增加模型大小对理解、事实核查和识别有毒语言等任务最有利，而架构扩展对与逻辑和数学推理相关的任务从益处不大。

此「错」并非真的错：从四篇经典论文入手，理解Transformer架构图「错」在何处

图注：图源 https://arxiv.org/abs/2112.11446

豆包提示词该如何用提示词实战应用思路

如何用AI进行市场趋势预测？消费品行业应用实例

如何利用AI进行多角度选题，避免内容创作枯竭

如何用AI写出符合学术规范的摘要(Abstract)？

AI生成产品FAQ（常见问题解答）页面内容

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

329

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

235

2023.10.07

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6173

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

819

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1069

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1358

2024.03.01

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

409

2023.08.14

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27