上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

碧海醫心

发布时间：2025-03-05 17:48:58

1008人浏览过

来源于php中文网

原创

aixiv专栏：探索mom：混合记忆模型，兼顾强大的记忆扩展能力和低序列复杂度

AIxiv专栏持续关注并报道全球顶尖AI学术研究和技术进展，至今已发布超过2000篇高质量文章。欢迎投稿或联系报道：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

回顾AGI发展历程，从最初的预训练模型和数据规模扩展，到后续的精调和强化学习反馈规模扩展，再到推理能力的强化学习扩展，始终围绕着寻找正确的扩展维度展开。Transformer架构自2017年问世以来经久不衰，其强大的“无损记忆”能力功不可没，但也需要付出巨大的键值对缓存代价。换言之，Transformer架构拥有强大的记忆扩展能力。

DeepSeek NSA通过三种方式压缩键值对实现稀疏注意力，但这并非优雅的解决方案，因为它以牺牲Transformer的记忆能力为代价换取效率提升。

另一方面，自2023年以来备受关注的线性序列建模方法（包括线性注意力机制、Mamba系列和RWKV系列）则走向另一个极端：仅维护固定大小的RNN记忆状态，通过门控机制和更新规则进行调整，但这种方法的性能上限较低，因此衍生出各种混合架构的折中方案，这些方案同样不够优雅。

我们认为，未来的模型架构应具备两大特性：强大的记忆扩展能力 + 关于序列长度的低复杂度。后者可通过高效的注意力机制实现，例如线性或稀疏注意力，是实现长序列建模的必要条件。而前者仍有待深入探索，我们将其称为“稀疏记忆”。

基于此，我们设计了MoM：混合记忆模型，它突破了现有主流线性序列建模方法中修改门控机制和RNN更新规则的模式，能够稀疏且无限制地扩展记忆大小。MoM通过路由器分发token（灵感源于MoE），维护多个键值对记忆，实现记忆维度的扩展。每个记忆单元又可以进行RNN风格的计算，因此整体训练复杂度与序列长度线性相关，推理复杂度则为常数级。此外，我们还设计了共享记忆和局部记忆协同工作，分别处理全局和局部信息。实验结果令人惊艳，尤其是在线性方法效果欠佳的召回密集型任务上表现突出，1.3B参数规模的MoM模型甚至已与Transformer架构不相上下。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://www.php.cn/link/6f0cdeedf664c24860cba8842e94b300
代码地址：https://www.php.cn/link/76fdca9cd791acce9582bb354b48e608
未来集成于：https://www.php.cn/link/65d851427e109c75b5c2b2a28333c25f
模型权重：https://www.php.cn/link/2db2a8235e4512a7fa7aa9a192c6b13a

方法细节

线性循环记忆

熟悉线性序列建模的读者可跳过此部分。

输入经过查询键值投影得到：

最简洁的循环形式线性序列建模方法（与最基本的线性注意力机制对应）按照以下公式进行RNN更新：

各种门控机制（前面的）和更新规则（右边的）是对上述公式的改进，具体形式如下表所示：（各种方法本身符号不同，如Mamba、HGRN，此处为统一对比，全部对标到线性注意力形式。Titans方法将记忆更新规则视为优化器更新，其核心仍是SGD形式，暂忽略动量/权重衰减，用一个公式表达的话，写成这种梯度更新的形式是合理的。）

这些方法可进一步细分为不同类别（许多地方粗略地统称为线性RNN或RNN），论文暂未提及：

线性注意力、闪电注意力、RetNet、GLA、DeltaNet、门控DeltaNet属于线性注意力类；
Mamba2属于SSM类，HGRN2属于线性RNN类；
TTT、Titans属于测试时训练类。

混合记忆

MoM的思路非常简单，与MoE类似，根据token进行分发，通过路由器为每个token选择topk个记忆单元并计算各自权重：

所有激活的topk个记忆单元按照各自权重加权求和得到混合记忆：

然后回到线性方法惯用的输出计算：

腾讯交互翻译

腾讯AI Lab发布的一款AI辅助翻译产品

下载

此外，我们引入了共享记忆的概念，即每个token都会经过这个始终激活的记忆单元，有助于模型获取全局信息。相对而言，其他稀疏激活的记忆单元更擅长获取局部信息。消融实验表明，共享记忆的存在对模型效果有积极作用。

硬件高效实现

MoM的硬件高效Triton算子易于实现，其输出计算可简化为：

这意味着MoM中每个记忆单元的计算过程可以复用现有的单个算子，然后将所有记忆单元的输出加权求和。这与在算子内部先求和再计算输出在数学上是等价的。

实验结果

上下文召回密集型任务

线性序列建模方法由于记忆大小有限，在上下文召回密集型任务上的表现一直欠佳，而Transformer模型凭借其强大的无损记忆能力，擅长此类任务。因此，出现了各种层间混合模型来提升线性模型在此类任务上的效果。

我们首先重点测试了这类任务（结果见下表），使用门控DeltaNet作为MoM的记忆计算形式（在记忆更新过程中，每个记忆单元都使用门控DeltaNet的门控机制和更新规则），总共4个局部稀疏记忆单元，激活2个，还有一个共享记忆单元。其中标†的模型来自开源项目（https://www.php.cn/link/1ac065e393605e57f3eb01f535522c98），未标†的是我们从头预训练的模型。

结果显示MoM单纯地效果更好，这与预期一致，扩展记忆大小后，效果优于其他线性方法。令人意外的是，1.3B参数规模的MoM模型与Transformer不相上下。

其他评测结果

其他评测结果也相当不错：

推理效率

推理效率是线性序列建模方法的重点，结果显示MoM在常数级复杂度推理速度和显存占用方面具有显著优势。

消融实验

损失曲线

所有图片均保留原始格式和位置。

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

Symphony— OpenAI 开源的 Agent 编排系统

如何解决代码中难以排查的性能瓶颈利用ChatGPT提供针对性优化建议

如何零基础入门AI提示词工程利用DeepSeek官方教程实现技能进阶

如何掌握提示词工程技巧利用ChatGPT万能公式提升回复质量

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板