原作者带队，LSTM真杀回来了！

王林

发布时间：2024-05-10 08:49:21

620人浏览过

来源于机器之心

转载

lstm：这次重生，我要夺回 transformer 拿走的一切。

在20世纪90年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来，LSTM经受住了时间的考验，并为众多深度学习的成功案例做出了贡献。然而，随着Transformer横空出世之后，LSTM自身所存储的局限性使其风光不再。

当人们都以为 Transformer 在语言模型领域稳坐江山的时候，LSTM 又杀回来了 —— 这次，是以 xLSTM 的身份。

5 月 8 日，LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

原作者带队，LSTM真杀回来了！

在论文的机构中还出现了一家名为“NXAI”的公司，Sepp Hochreiter表示：“借助xLSTM，我们缩小了与现有最先进LLM的差距。借助NXAI，我们已开始构建自己的欧洲LLM。”

原作者带队，LSTM真杀回来了！

论文标题：xLSTM: Extended Long Short-Term Memory
论文链接：https://arxiv.org/pdf/2405.04517

具体来说，xLSTM 从三个层面解决了 LSTM 以往所存在的局限性：

(i) 无法修改存储决策。

可以通过「最近邻搜索」（Nearest Neighbor Search）问题来举例说明这一局限性：在给定参考向量的情况下，必须按顺序扫描序列，寻找最相似的向量，以便在序列末端提供其附加值。图 2 左侧显示了这项任务的均方误差。当发现更相似的向量时，LSTM 难以修改存储的值，而新的 xLSTM 通过指数门控弥补了这一限制。

原作者带队，LSTM真杀回来了！

(ii) 存储容量有限，即信息必须压缩成标量单元状态。

图 2 右侧给出了 Wikitext103 上不同 token 频率的 token 预测困惑度。由于 LSTM 的存储容量有限，它在不常见 token 上的表现较差。xLSTM 通过矩阵内存解决了这一问题。

(iii) 由于内存混合而缺乏可并行性，需要进行顺序处理。例如，从一个时间步到下一个时间步的隐藏状态之间的隐藏 - 隐藏连接。

与此同时，Sepp Hochreiter 和团队在这篇新论文中回答了一个关键问题：如果克服这些局限性并将 LSTM 扩展到当前大语言模型的规模时，能实现怎样的性能？

将 LSTM 扩展到数十亿参数

为了克服 LSTM 的局限性，xLSTM 对等式（1）中的 LSTM 理念进行了两项主要修改。

原作者带队，LSTM真杀回来了！

在原来的 LSTM 中，恒定误差选择轮盘是由单元输入 z_t 对单元状态 c_(t-1)（绿色）进行的加法更新，并由 sigmoid 门（蓝色）进行调节。输入门 i_t 和遗忘门 f_t 控制这一更新，而输出门 o_t 控制存储单元的输出，即隐藏状态 h_t。存储单元的状态被 ψ 归一化或压缩，然后输出门控得到隐藏状态。

xLSTM 的修改包括指数门控和新颖的内存结构，因此丰富了 LSTM 家族的两个成员：

(i) sLSTM（第 2.2 节），具有标量内存、标量更新和内存混合功能；

(ii) mLSTM（第 2.3 节），具有矩阵内存和协方差（外积）更新规则，完全可并行处理。

sLSTM 和 mLSTM 都通过指数门控增强了 LSTM。为了实现并行化，mLSTM 放弃了内存混合，即隐藏 - 隐藏递归连接。mLSTM 和 sLSTM 都可以扩展到多个存储单元，其中 sLSTM 具有跨单元内存混合的特点。此外，sLSTM 可以有多个头，但不存在跨头的内存混合，而只存在每个头内单元间的内存混合。通过引入 sLSTM 头和指数门控，研究者建立了一种新的内存混合方式。对于 mLSTM 而言，多头和多单元是等价的。

将这些新的 LSTM 变体集成到残差块模块中，就得到了 xLSTM 块。将这些 xLSTM 块剩余堆叠到架构中，就形成了 xLSTM 架构。xLSTM 架构及其组件见图 1。

一点PPT

一句话生成专业PPT，AI自动排版配图

下载

原作者带队，LSTM真杀回来了！

xLSTM 块应在高维空间中对过去进行非线性总结，以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素（如下一个 token）的先决条件。研究者在此采用了 Cover 定理，该定理指出，在高维空间中，非线性嵌入模式比在原始空间中更有可能被线性分离。

他们考虑了两种残差块结构：(i) post up-projection 的残差块（如 Transformer），它非线性地概括了原始空间中的历史，然后线性地映射到高维空间，应用非线性激活函数，再线性地映射回原始空间（图 3 左侧和图 1 第三栏，更详细的版本见图 9）。(ii) pre up-projection 的残差块（如状态空间模型），它线性地映射到高维空间，在高维空间中非线性地总结历史，然后线性地映射回原始空间。对于包含 sLSTM 的 xLSTM 块，研究者主要使用了 post up-projection 块。对于包含 mLSTM 的 xLSTM 块，使用 pre up-projection 块，因为在高维空间中内存容量会变大。

原作者带队，LSTM真杀回来了！

实验

随后，研究者对 xLSTM 进行了实验评估，并将其与现有的语言建模方法进行了比较。

第 4.1 节讨论了 xLSTM 在合成任务中的具体能力。首先，研究者测试了 xLSTM 的新指数门控与内存混合在形式化语言上的有效性。然后，他们评估了 xLSTM 的新矩阵内存在多次查询联想记忆任务（Multi-Query Associative Recall，MQAR）中的有效性。最后，研究者评估了 xLSTM 在 Long Range Arena（LRA）中处理长序列的性能。

原作者带队，LSTM真杀回来了！

第 4.2 节比较了当前各种语言建模方法的验证集复杂度，包括在同一数据集上对 xLSTM 进行消融研究，然后对不同方法的缩放行为进行评估。

研究者在自回归语言建模设置中使用 SlimPajama 的 15B token 训练了 xLSTM、Transformers、状态空间模型（SSM）等模型。表 1 中的结果显示，xLSTM 在验证复杂度方面优于所有现有方法。

原作者带队，LSTM真杀回来了！

图 6 显示了该实验的扩展结果，表明 xLSTM 对于更大规模的模型也有良好的表现。

原作者带队，LSTM真杀回来了！

消融研究则表明，性能改进源于指数门控和矩阵内存。

原作者带队，LSTM真杀回来了！

第 4.3 节进行了更深入的语言建模实验。

研究者增加了训练数据量，对来自 SlimPajama 的 300B 个 token 进行了训练，并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型（125M、350M、760M 和 1.3B），进行了深入的评估。首先，评估这些方法在推断较长语境时的表现；其次，通过验证易混度和下游任务的表现来测试这些方法；此外，在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法；最后，评估了不同方法的扩展行为，但使用的训练数据多了 20 倍。

可以看出，xLSTM 在性能和扩展性上都更胜一筹。

原作者带队，LSTM真杀回来了！

更多研究细节，可参考原论文。

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6631

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

843

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2200

2024.03.01

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

446

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板