0

0

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

WBOY

WBOY

发布时间:2023-10-19 12:21:11

|

1203人浏览过

|

来源于机器之心

转载

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

近年来,大语言模型(llm)及其底层的 transformer 架构已经成为了对话式 ai 的基石,并催生了广泛的消费级和企业应用程序。尽管有了长足的进步,但 llm 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 llm,它们的最大输入长度只允许支持几十条消息回复或短文档推理。

与此同时,受限于 transformer 架构的自注意力机构,简单地扩展 transformer 的上下文长度也会导致计算时间和内存成本成倍增加,这就使得全新的长上下文架构成为紧迫的研究课题。

不过,即使我们能够克服上下文缩放的计算挑战,但最近的研究却表明,长上下文模型很难有效地利用额外的上下文。

这如何解决呢?考虑到训练 SOTA LLM 所需的大量资源以及上下文缩放明显的回报递减,我们迫切需要支持长上下文的替代技术。加州大学伯克利分校的研究者在这方面有了新的进展。

在本文中,研究者探究了如何在继续使用固定上下文模型的同时,提供无限上下文的幻觉(illusion)。他们的方法借鉴了虚拟内存分页的思路,使得应用程序能够处理远超出可用内存的数据集。

基于该思路,研究者利用 LLM 智能体函数调用能力的最新进展,设计出了一个受 OS 启发、用于虚拟上下文管理的 LLM 系统 ——MemGPT。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

论文主页:https://memgpt.ai/

arXiv 地址:https://arxiv.org/pdf/2310.08560.pdf

项目已经开源,在 GitHub 上已经斩获了 1.7k 的 star 量。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

GitHub 地址:https://github.com/cpacker/MemGPT

方法概览

该研究从传统操作系统的分层内存管理中汲取灵感,在上下文窗口(类似于操作系统中的「主存(main memory)」)和外部存储之间有效地「分页」进出信息。MemGPT 则负责管理内存、LLM 处理模块和用户之间的控制流。这种设计允许在单个任务期间反复进行上下文修改,从而允许智能体更有效地利用其有限的上下文窗口。

MemGPT 将上下文窗口视为受限内存资源,并为 LLM 设计类似于传统操作系统中分层内存(Patterson et al., 1988)的层次结构。为了提供更长的上下文长度,该研究允许 LLM 通过「LLM OS」——MemGPT,来管理放置在其上下文窗口中的内容。MemGPT 使 LLM 能够检索上下文中丢失的相关历史数据,类似于操作系统中的页面错误。此外,智能体可以迭代地修改单个任务上下文窗口中的内容,就像进程可以重复访问虚拟内存一样。

MemGPT 能够让 LLM 在上下文窗口有限的情况下处理无界上下文,MemGPT 的组件如下图 1 所示。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

MemGPT 通过函数调用协调主上下文(上下文窗口中的内容)和外部上下文之间的数据移动,MemGPT 根据当前上下文自主更新和检索。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star
把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

值得注意的是,上下文窗口需要用 warning token 来标识其限制,如下图 3 所示:

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

实验及结果

在实验部分,研究者在两个长上下文域中来评估 MemGPT,分别是对话式智能体和文档处理。其中对于对话式智能体,他们扩展了现有的多会话聊天数据集(Xu et al. (2021)),并引入了两个新的对话任务以评估智能体在长对话中保留知识的能力。对于文档分析,他们根据 Liu et al. (2023a) 提出的任务对 MemGPT 进行基准测试,包括对长文档的问答和键值检索。

用于对话智能体的 MemGPT

当与用户对话时,智能体必须满足以下两个关键标准。

  • 一是一致性,即智能体应保持对话的连贯性,提供的新事实、引用和事件应与用户、智能体之前的陈述保持一致。

  • 二是参与度,即智能体应该利用用户的长期知识来个性化响应。参考之前的对话可以使对话更加自然和引人入胜。

    Pixso AI
    Pixso AI

    Pixso AI是一款智能生成设计稿工具,通过AI一键实现文本输入到设计稿生成。

    下载

因此,研究者根据这两个标准对 MemGPT 进行评估:

  • MemGPT 是否可以利用其记忆来提高对话一致性?能否记住过去交互中的相关事实、引用、事件以保持连贯性?

  • MemGPT 是否可以利用记忆生成更有吸引力的对话?是否自发地合并远程用户信息以个性化信息?

关于使用到的数据集,研究者在 Xu et al. (2021) 提出的多会话聊天(MSC)上对 MemGPT 和固定上下文的基线模型展开评估对比。

首先来一致性评估。研究者引入了一个基于 MSC 数据集的深层记忆检索(deep memory retrieval, DMR)任务,旨在测试对话智能体的一致性。在 DMR 中,用户向对话智能体提出一个问题,并且该问题明确引用先前的对话,预期答案范围会非常窄。具体可以参加下图 5 示例。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

MemGPT 利用内存来保持一致性。下表 2 显示了 MemGPT 与固定记忆基线模型的性能对比,包括 GPT-3.5 和 GPT-4。

可以看到,MemGPT 在 LLM 判断准确度和 ROUGE-L 分数方面显著优于 GPT-3.5 和 GPT-4。MemGPT 能够利用回想记忆(Recall Memory)查询过去的对话历史,进而回答 DMR 问题,而不是依赖递归摘要来扩展上下文。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

然后在「对话开场白」任务中,研究者评估智能体从先前对话积累的知识中提取引人入胜的消息并传递给用户的能力。

研究者在下表 3 中展示了 MemGPT 开场白的 CSIM 分数。结果表明,MemGPT 能够制作引人入胜的开场白,其表现可以媲美甚至超越人类手写的开场白。此外还观察到 MemGPT 倾向于制作比人类基线更长且涵盖更多角色信息的开场白。下图 6 为示例。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

用于文档分析的 MemGPT

为了评估 MemGPT 分析文档的能力,研究者对 MemGPT 以及在 Liu et al. (2023a) 检索器 - 阅读器文档 QA 任务上的固定上下文基线模型进行了基准测试。

结果显示,MemGPT 能够通过查询档案存储有效地对检索器进行多次调用,从而可以扩展到更大的有效上下文长度。MemGPT 主动从档案存储中检索文档并且可以迭代地分页浏览结果,因而其可用的文档总数不再受到适用 LLM 处理器上下文窗口的文档数量的限制。

由于基于嵌入的相似性搜索的局限性,文档 QA 任务对所有方法都构成了极大的挑战。研究者观察到,MemGPT 会在检索器数据库耗尽之前停止对检索器结果进行分页操作。

此外 MemGPT 更复杂操作所创建的检索文档容量也存在权衡,如下图 7 所示,其平均准确度低于 GPT-4(高于 GPT-3.5),但可以轻松地扩展到更大的文档。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

研究者还引入了一项基于合成键值检索的新任务,即嵌套键值检索(Nested Key-Value Retrieval),用以演示 MemGPT 如何对来自多个数据源的信息进行整理。

从结果来看,虽然 GPT-3.5 和 GPT-4 在原始键值任务上表现出了良好性能,但在嵌套键值检索任务中表现不佳。而 MemGPT 不受嵌套层数的影响,并能够通过函数查询重复访问存储在主内存中的键值对,来执行嵌套查找。

MemGPT 在嵌套键值检索任务上的性能,展示了其利用多个查询的组合执行多条查找的能力。

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

更多技术细节和实验结果请参阅原论文。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6197

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

820

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1070

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1359

2024.03.01

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

1043

2026.01.21

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

359

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2082

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

MySQL 教程
MySQL 教程

共48课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号