田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

王林

发布时间：2023-06-12 13:56:09

1333人浏览过

来源于51CTO.COM

转载

transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域，不过目前只是实验效果非常惊艳，对transformer工作原理的相关研究仍然十分有限。

其中最大谜团在于，Transformer为什么仅依靠一个「简单的预测损失」就能从梯度训练动态（gradient training dynamics）中涌现出高效的表征？

最近田渊栋博士公布了团队的最新研究成果，以数学严格方式，分析了1层Transformer（一个自注意力层加一个解码器层）在下一个token预测任务上的SGD训练动态。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/abs/2305.16380

代悟

开发者专属的AI搜索引擎

下载

这篇论文打开了自注意力层如何组合输入token动态过程的黑盒子，并揭示了潜在的归纳偏见的性质。

具体来说，在没有位置编码、长输入序列、以及解码器层比自注意力层学习更快的假设下，研究人员证明了自注意力就是一个判别式扫描算法（discriminative scanning algorithm）：

从均匀分布的注意力（uniform attention）开始，对于要预测的特定下一个token，模型逐渐关注不同的key token，而较少关注那些出现在多个next token窗口中的常见token

对于不同的token，模型会逐渐降低注意力权重，遵循训练集中的key token和query token之间从低到高共现的顺序。

有趣的是，这个过程不会导致赢家通吃，而是由两层学习率控制的相变而减速，最后变成（几乎）固定的token组合，在合成和真实世界的数据上也验证了这种动态。

田渊栋博士是Meta人工智能研究院研究员、研究经理，围棋AI项目负责人，其研究方向为深度增强学习及其在游戏中的应用，以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位，2013年获得美国卡耐基梅隆大学机器人研究所博士学位。

曾获得2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions），ICML2021杰出论文荣誉提名奖。

曾在博士毕业后发布《博士五年总结》系列，从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。

揭秘1层Transformer

基于Transformer架构的预训练模型通常只包括非常简单的监督任务，比如预测下一个单词、填空等，但却可以为下游任务提供非常丰富的表征，实在是令人费解。

之前的工作虽然已经证明了Transformer本质上就是一个通用近似器（universal approximator），但之前常用的机器学习模型，比如kNN、核SVM、多层感知机等其实也是通用近似器，这种理论无法解释这两类模型在性能上的巨大差距。

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

研究人员认为，了解Transformer的训练动态（training dynamics）是很重要的，也就是说，在训练过程中，可学习参数是如何随时间变化的。

文章首先以严谨数学定义的方式，形式化描述了1层无位置编码Transformer的SGD在下一个token预测（GPT系列模型常用的训练范式）上的训练动态。

1层的Transformer包含一个softmax自注意力层和预测下一个token的解码器层。

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

在假设序列很长，而且解码器的学习速度比自注意力层快的情况下，证明了训练期间自注意力的动态行为：

1. 频率偏差Frequency Bias

模型会逐渐关注那些与query token大量共现的key token，而对那些共现较少的token降低注意力。

2. 判别偏差Discrimitive Bias

模型更关注那些在下一个要预测的token中唯一出现的独特token，而对那些在多个下一个token中出现的通用token失去兴趣。

这两个特性表明，自注意力隐式地运行着一种判别式扫描（discriminative scanning）的算法，并存在归纳偏差（inductive bias），即偏向于经常与query token共同出现的独特的key token

此外，虽然自注意力层在训练过程中趋向于变得更加稀疏，但正如频率偏差所暗示的，模型因为训练动态中的相变（phase transition），所以不会崩溃为独热（one hot）。

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

学习的最后阶段并没有收敛到任何梯度为零的鞍点，而是进入了一个注意力变化缓慢的区域（即随时间变化的对数），并出现参数冻结和学会（learned）。

研究结果进一步表明，相变的开始是由学习率控制的：大的学习率会产生稀疏的注意力模式，而在固定的自注意力学习率下，大的解码器学习率会导致更快的相变和密集的注意力模式。

研究人员将工作中发现的SGD动态命名为扫描（scan）和snap：

扫描阶段：自注意力集中在key tokens上，即不同的、经常与下一个预测token同时出现的token；其他所有token的注意力都下降。

snap阶段：注意力全中几乎冻结，token组合固定。

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

这一现象在简单的真实世界数据实验中也得到验证，使用SGD在WikiText上训练的1层和3层Transformer的最低自注意力层进行观察，可以发现即使在整个训练过程中学习率保持不变，注意力也会在训练过程中的某一时刻冻结，并变得稀疏。

ai怎么关掉透视网格工具_ai透视网格关闭的两种方法【避坑】

如何设计高端商务名片利用Canva AI工具一键生成设计稿

用AI做孕期记录怎么赚钱_AI绘画孕期日记定制接单

如何快速策划一场公司年会活动利用智谱清言生成全套执行方案

ai怎么写_ai文字输入编辑技巧【实操】

相关专题

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28