谷歌、DeepMind新研究：归纳偏置如何影响模型缩放？

WBOY

发布时间：2023-04-09 20:21:01

1338人浏览过

来源于51CTO.COM

转载

Transformer 模型的缩放近年来引发了众多学者的研究兴趣。然而，对于模型架构所施加的不同归纳偏置的缩放性质，人们了解得并不多。通常假设，在特定标度（计算、大小等）的改进可以迁移到不同的规模和计算区域。

不过，理解架构和标度律之间的相互作用至关重要，设计在不同标度上表现良好的模型具有重要的研究意义。有几个问题还需要搞清楚：模型体系架构之间的缩放性不同吗？如果是这样，归纳偏置如何影响缩放表现？又如何影响上游（预训练）和下游（迁移）任务？

在最近的一篇论文中，谷歌的研究者试图了解归纳偏置（体系架构）对语言模型标度律的影响。为此，研究者在多个计算区域和范围内（从 1500 万到 400 亿参数）预训练和微调了十种不同的模型架构。总体来说，他们预训练和微调了 100 多种不同体系架构和大小的模型，并提出了在缩放这十种不同体系架构方面的见解和挑战。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2207.10551.pdf

他们还注意到，缩放这些模型并不像看起来那么简单，也就是说，缩放的复杂细节与本文中详细研究的体系架构选择交织在一起。例如，Universal Transformers (和 ALBERT) 的一个特性是参数共享。与标准的 Transformer 相比，这种体系架构的选择不仅在性能方面，而且在计算指标如 FLOPs、速度和参数量方面显著 warp 了缩放行为。相反，像 Switch Transformers 这样的模型则截然不同，它的 FLOPs 和参数量之间的关系是不寻常的。

具体来说，本文的主要贡献如下：

首次推导出不同归纳偏置和模型架构的标度律。研究者发现这个标度系数在不同的模型中有很大的不同，并指出这是模型开发中的一个重要考虑因素。事实证明，在他们考虑的所有十种体系架构中，普通的 Transformer 拥有最好的缩放性能，即使它在每个计算区域的绝对性能不是最好的。
研究者观察到，在一个计算标度区域中运行良好的模型不一定是另一个计算标度区域中的最佳模型。此外，他们发现，某些模型尽管在低计算区域表现良好，但是难以进行缩放。这意味着很难通过在某个计算区域进行逐点对比来获得模型缩放性的全貌。
研究者发现，当涉及到缩放不同的模型架构时，上游预训练的困惑度可能与下游迁移不太相关。因此，底层架构和归纳偏置对于下游迁移也是至关重要的。
研究者强调了在某些架构下进行缩放的困难，并展示了一些模型没有进行缩放（或以消极趋势进行缩放）。他们还发现线性时间注意力模型（比如 Performer）难以进行扩展的趋势。

方法与实验

在论文的第三章，研究者概述了整体的实验设置，并介绍了实验中评估的模型。

下表 1 展示了本文的主要结果，包括可训练参数量、FLOPs（单次正向传递）和速度（每秒步数）等，此外还包括了验证困惑度（上游预训练）和 17 个下游任务的结果。

所有模型的缩放方式是否相同？

下图 2 展示了增加 FLOPs 数量时所有模型的缩放行为。可以观察到，所有模型的缩放行为是相当独特和不同的，即其中大多数不同于标准 Transformer。也许这里最大的发现是，大多数模型（例如 LConv、Evolution）似乎都与标准 Transformer 表现相当或更好，但无法按照更高的计算预算去缩放。

另一个有趣的趋势是，「线性」Transformer，如 Performer，不能按比例缩放。如图 2i 所示，从 base 到 large scale 相比，预训练的困惑度只下降了 2.7% 。而对于 vanilla Transformer 来说这一数字是 8.4%。

Vondy

下一代AI应用平台，汇集了一流的工具/应用程序

下载

下图 3 展示了下游迁移任务上所有模型的缩放曲线，可以发现，和 Transformer 相比，大多数模型有着不同的缩放曲线，在下游任务中变化明显。值得注意的是，大多数模型都有不同的上游或下游缩放曲线。

研究者发现，一些模型如 Funnel Transformer 和 LConv，似乎在上游表现相当不错，但在下游受到很大影响。至于 Performer，上游和下游的性能差距似乎更大。值得注意的是，SuperGLUE 的下游任务通常需要编码器上的伪交叉注意力，而卷积这样的模型是无法处理的（Tay et al., 2021a）。

因此，研究者发现尽管某些模型拥有良好的上游性能，但可能还是难以学习下游任务。

每一标度的最佳模型是否有所不同？

下图 1 展示了根据上游或下游性能进行计算时的帕累托边界。图的颜色代表不同的模型，可以观察到，每个标度和计算区域的最佳模型可能是不同的。此外，从上图 3 中也可以看到这一点。例如，Evolved Transformer 似乎在微小（tiny）到小（small）的区域（下游）和标准 Transformer 一样表现很好，但是当放大模型时，这种情况迅速改变。研究者在 MoS-Transformer 也观察到了这一点，它在某些区域的表现明显优于普通的 Transformer ，但在其他区域则不然。

每个模型的标度律

下表 2 给出了多种情况下每个模型的拟合线性直线 α 的斜率。研究者通过绘制 F（FLOPs）、U （上游困惑度）、D （下游准确率）和 P（参数量）得到了α。一般来说，α 描述了模型的缩放性，例如 α_F,U 根据上游性能绘制 FLOPs。唯一的例外是α_U,D，它是衡量上游和下游性能的度量，高的 α_U,D 值意味着向下游任务迁移的模型缩放更佳。总体来说，α 值是一个度量，表示一个模型在缩放上的相对表现。

Scaling Protocols 是否以同样的方式影响模型体系架构？

下图 4 展示了四个模型体系架构（MoS-Transformer、Transformer、Evolved Transformer、LConv）中缩放深度的影响。

下图 5 展示了在相同的四个体系架构中缩放宽度的影响。首先，在上游（负对数困惑）曲线上可以注意到，虽然不同的架构在绝对性能上有明显的差异，但缩放趋势仍然非常相似。在下游，除了 LConv 之外，深度缩放（上图 4）在大多数体系架构上的作用似乎是一样的。同时，相对于宽度缩放，似乎 Evolved Transformer 在应用宽度缩放时会稍微好一点。值得注意的是，与宽度缩放相比，深度缩放对下游缩放的影响要大得多。

更多研究细节，可参考原论文。

aishort提示生成失败怎么办_aishort常见报错处理办法【解答】

WorkBuddy技能包运行失败怎么办_WorkBuddy技能执行错误解决办法

Perplexity如何使用Gemini模型_Perplexity多模型协作搜索教程【高级】

OpenClaw隐藏设置_OpenClaw隐藏配置详解【详解】

Perplexity自定义搜索范围_Perplexity Focus模式使用教程【核心】

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

switch语句用法

switch语句用法：1、Switch语句只能用于整数类型，枚举类型和String类型，不能用于浮点数类型和布尔类型；2、每个case语句后面必须跟着一个break语句，以防止执行其他case的代码块，没有break语句，将会继续执行下一个case的代码块；3、可以在一个case语句中匹配多个值，使用逗号分隔；4、Switch语句中的default代码块是可选的等等。

569

2023.09.21

Java switch的用法

Java中的switch语句用于根据不同的条件执行不同的代码块。想了解更多switch的相关内容，可以阅读本专题下面的文章。

441

2024.03.13

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2922

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板