500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

王林

发布时间：2023-06-10 10:42:30

1288人浏览过

来源于51CTO.COM

转载

OneAI

将生成式AI技术打包为API，整合到企业产品和服务中

下载

记性差是目前主流大型语言模型的主要痛点，比如chatgpt只能输入4096个token（约3000个词），经常聊着聊着就忘了之前说什么了，甚至都不够读一篇短篇小说的。

过短的输入窗口也限制了语言模型的应用场景，比如给一篇科技论文（约1万词）做摘要的时候，需要把文章手动切分后再输入到模型中，不同章节之间关联信息就丢失了。

虽然GPT-4最长支持32000个token、升级后的Claude最高支持10万token，但也只能缓解脑容量不足的问题。

最近一家创业团队Magic宣布即将发布LTM-1模型，最长支持500万token，大约是50万行代码或5000个文件，直接比Claude高50倍，基本可以覆盖大多数的存储需求，这可真就量变产生质变了！

LTM-1的主要应用场景在于代码补全，比如可以生成更长、更复杂的代码建议。

还可以跨越多个文件重用、合成信息。

坏消息是，LTM-1的开发商Magic并没有发布具体技术原理，只是说设计了一种全新的方法the Long-term Memory Network (LTM Net)。

但也有个好消息，2021年9月，DeepMind等机构的研究人员曾经提出一种名为 ∞-former 的模型，其中就包含了长期记忆（long-term memory，LTM）机制，理论上可以让Transformer模型具有无限长的记忆力，但目前并不清楚二者是否为同一技术，或是改良版。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

论文链接：https://arxiv.org/pdf/2109.00301.pdf

开发团队表示，虽然LTM Nets可以比GPT看到更多的上下文，但LTM-1模型的参数量比当下的sota模型小的多，所以智能程度也更低，不过继续提升模型规模应该可以提升LTM Nets的性能。

目前LTM-1已经开放alpha测试申请。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

申请链接：https://www.php.cn/link/bbfb937a66597d9646ad992009aee405

LTM-1的开发商Magic创立于2022年，主要开发类似GitHub Copilot的产品，可以帮助软件工程师编写、审查、调试和修改代码，目标是为程序员打造一个AI同事，其主要竞争优势就是模型可以读取更长的代码。

Magic致力于公众利益（public benefit），使命是构建和安全部署超过人类只能的AGI系统，目前还是一家只有10人的创业公司。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

今年2月，Magic获得由Alphabet旗下CapitalG领投的2300万美元A轮融资，投资人还包括GitHub前首席执行官和Copilot的联合出品人Nat Friedman，目前公司总资金量已达2800万美元。

Magic的首席执行官兼联合创始人Eric Steinberger本科毕业于剑桥大学计算机科学专业，曾在FAIR做过机器学习研究。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

在创立Magic前，Steinberger还曾创立过ClimateScience，以帮助全世界的儿童学习气候变化的影响。

无限记忆的Transformer

语言模型核心组件Transformer中注意力机制的设计，会导致每次增加输入序列的长度时，时间复杂度都会呈二次方增长。

虽然已经有一些注意力机制的变体，比如稀疏注意力等降低算法复杂度，不过其复杂度仍然与输入长度有关，不能无限扩展。

∞-former中长期记忆（LTM）的Transformer模型可以将输入序列扩展到无限的关键在是一个连续空间注意力框架，该框架用降低表征粒度的方式提升记忆信息单元的数量（基函数）。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

在框架中，输入序列被表示为一个「连续信号」，代表N个径向基函数（RBF）的线性组合，这样一来，∞-former的注意复杂度就降为了O(L^2 + L × N)，而原始Transformer的注意力复杂度为O(L×(L+L_LTM))，其中L和L_LTM分别对应于Transformer输入大小和长期记忆长度。

这种表示方法有两个主要优势：

1. 上下文可以用小于token数量的基函数N来表示，减少了注意力的计算成本；

2. N可以是固定的，从而能够在记忆中表示无限的上下文，并且不会增加注意力机制的复杂度。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

当然，天下没有免费的午餐，代价就是分辨率的降低：使用较少数量基函数时，会导致在将输入序列表示为连续信号时降低精度。

为了缓解分辨率降低问题，研究人员引入了「粘性记忆」（sticky memories）的概念，将LTM信号中的较大空间归结为更频繁访问的记忆区域，在LTM中创造了一个「永久性」的概念，使模型能够更好地捕捉长时间的背景而不丢失相关信息，也是从大脑的长期电位和可塑性中得到了启发。

实验部分

为了验证∞-former能否对长语境进行建模，研究人员首先对一个合成任务进行实验，即在一个长序列中按频率对token进行排序；然后通过微调预训练语言模型，对语言建模和基于文档的对话生成进行实验。

排序

输入包括一个根据概率分布（系统未知）采样的token序列，目标是按照序列中频率递减顺序生成token

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

为了研究长期记忆是否被有效利用，以及Transformer是否只是通过对最近的标记进行建模来排序，研究人员将标记概率分布设计为随时间变化。

词表中有20个token，分别用长度为4,000、8,000和16,000的序列进行实验，Transformer-XL和compressive transformer作为对比基线模型。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

实验结果可以看出，在短序列长度（4,000）的情况下，Transformer-XL实现了比其他模型略高的精度；但当序列长度增加时，其精度也迅速下降，不过对于∞-former来说，这种下降并不明显，表明其在对长序列进行建模时更有优势。

语言建模

为了了解长期记忆是否可以用来扩展预训练的语言模型，研究人员在Wikitext103和PG-19的一个子集上对GPT-2 small进行了微调，包括大约2亿个token。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

实验结果可以看到，∞-former可以降低Wikitext-103和PG19的困惑度，并且∞-former在PG19数据集上获得的改进更大，因为书籍比维基百科文章更依赖于长期记忆。

基于文档对话

在以文档为基础的对话生成中，除了对话历史之外，模型还可以获得关于对话主题的文档。

在CMU Document Grounded Conversation dataset（CMU-DoG）中，对话是关于电影的，并给出了电影的摘要作为辅助文档；考虑到对话包含多个不同的连续语篇，辅助文档被分为多个部分。

为了评估长期记忆的有用性，研究人员只让模型在对话开始前才能访问文件，使这项任务更具挑战性。

在对GPT-2 small进行微调后，为了让模型在记忆中保持整个文档，使用一个N=512个基函数的连续LTM（∞-former）扩展GPT-2。

为了评估模型效果，使用perplexity、F1 score、Rouge-1和Rouge-L，以及Meteor指标。

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

从结果来看，∞-former和compressive Transformer能够生成更好的语料，虽然二者的困惑度基本相同，但∞-former在其他指标上取得了更好的分数。

如何提升代码的跨语言迁移效率利用DeepSeek将Java/C++代码一键转为Python

如何提高PPT汇报的专业视觉感利用Gamma实现自动化精美排版

如何实现短视频脚本的高产高效利用通义千问构建多版本创意大纲

如何提高自媒体账号的社会价值感利用豆包AI策划具有公益色彩的选题内容

如何快速写出吸引人的个人简介利用DeepSeek提炼极简职场标签

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6584

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

841

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1091

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2098

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

3982

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

493

2023.08.14

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

557

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

616

2023.10.25

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板