复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

WBOY

发布时间：2024-03-05 09:19:17

1040人浏览过

来源于51CTO.COM

转载

最近，OpenAI 的视频生成模型 Sora 爆火，生成式 AI 模型在多模态方面的能力再次引起广泛关注。

现实世界本质上是多模态的，生物体通过不同的渠道感知和交换信息，包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力，主要涉及多模态编码器与语言模型的集成，从而使其能够跨各种模态处理信息，并利用 LLM 的文本处理能力来产生连贯的响应。

然而，这一策略仅仅适用于文本生成，并不涵盖多模态输出。一些开拓性的研究在语言模型中实现了多模态理解和生成，取得了重大进展，但这些模型仅限于单一的非文本模态，比如图像或音频。

为了解决上述问题，复旦大学邱锡鹏团队联合 Multimodal Art Projection（MAP）、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型，该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说，AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令，并能熟练地选择合适的多模态组合进行响应。

例如给出一段语音 prompt，AnyGPT 能够生成语音、图像、音乐形式的综合响应：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

给出文本 + 图像形式的 prompt，AnyGPT 能够按照 prompt 要求生成音乐：

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

论文地址：https://arxiv.org/pdf/2402.12226.pdf
项目主页：https://junzhan2000.github.io/AnyGPT.github.io/

方法简介

AnyGPT 利用离散表征来统一处理各种模态，包括语音、文本、图像和音乐。

为了完成任意模态到任意模态的生成任务，该研究提出了一个可以统一训练的综合框架。如下图 1 所示，该框架由三个主要组件组成，包括：

多模态 tokenizer
作为主干网络的多模态语言模型
多模态 de-tokenizer

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

其中，tokenizer 将连续的非文本模态转换为离散的 token，随后将其排列成多模态交错序列。然后，语言模型使用下一个 token 预测训练目标进行训练。在推理过程中，多模态 token 被相关的 de-tokenizer 解码回其原始表征。为了丰富生成的质量，可以部署多模态增强模块来对生成的结果进行后处理，包括语音克隆或图像超分辨率等应用。

AnyGPT 可以稳定地训练，无需对当前的大型语言模型（LLM）架构或训练范式进行任何改变。相反，它完全依赖于数据级预处理，使得新模态无缝集成到 LLM 中，类似于添加新语言。

这项研究的一个关键挑战是缺乏多模态交错指令跟踪数据。为了完成多模态对齐预训练，研究团队利用生成模型合成了第一个大规模「任意对任意」多模态指令数据集 ——AnyInstruct-108k。它由 108k 多轮对话样本组成，这些对话错综复杂地交织着各种模态，从而使模型能够处理多模态输入和输出的任意组合。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

这些数据通常需要大量比特才能准确表征，从而导致序列较长，这对语言模型的要求特别高，因为计算复杂度随着序列长度呈指数级增加。为了解决这个问题，该研究采用了两阶段的高保真生成框架，包括语义信息建模和感知信息建模。首先，语言模型的任务是生成在语义层面经过融合和对齐的内容。然后，非自回归模型在感知层面将多模态语义 token 转换为高保真多模态内容，在性能和效率之间取得平衡。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

实验

实验结果表明，AnyGPT 能够完成任意模态对任意模态的对话任务，同时在所有模态中实现与专用模型相当的性能，证明离散表征可以有效且方便地统一语言模型中的多种模态。

该研究评估了预训练基础 AnyGPT 的基本功能，涵盖所有模态的多模态理解和生成任务。该评估旨在测试预训练过程中不同模态之间的一致性，具体来说是测试了每种模态的 text-to-X 和 X-to-text 任务，其中 X 分别是图像、音乐和语音。

为了模拟真实场景，所有评估均以零样本模式进行。这意味着 AnyGPT 在评估过程中不会对下游训练样本进行微调或预训练。这种具有挑战性的评估设置要求模型泛化到未知的测试分布。

评估结果表明，AnyGPT 作为一种通用的多模态语言模型，在各种多模态理解和生成任务上取得了令人称赞的性能。

图像

该研究评估了 AnyGPT 在图像描述任务上的图像理解能力，结果如表 2 所示。

文本到图像生成任务的结果如表 3 所示。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持语音

该研究通过计算 LibriSpeech 数据集的测试子集上的词错误率 (WER) 来评估 AnyGPT 在自动语音识别 (ASR) 任务上的性能，并使用 Wav2vec 2.0 和 Whisper Large V2 作为基线，评估结果如表 5 所示。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

音乐

该研究在 MusicCaps 基准上评估了 AnyGPT 在音乐理解和生成任务方面的表现，采用 CLAP_score 分数作为客观指标，衡量生成的音乐和文本描述之间的相似度，评估结果如表 6 所示。

复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

感兴趣的读者可以阅读论文原文，了解更多研究内容。

Clawdbot— 开源AI个人助手，本地部署实现自然语言控制设备

混元图像3.0图生图— 腾讯推出的图像生成与编辑模型

告别大众脸！2026年超火的AI生成头像玩法：打造赛博朋克、复古油画风（附指令公式）

微信头像换新｜3步用AI生成头像：上传照片→选风格→一键导出（附操作步骤）

AI生成头像可控性有多强？实测8款工具的“自定义”功能（调整表情/更换背景/指定服饰）

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6142

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

816

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1340

2024.03.01

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

2025.09.05

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.16

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

2025.11.17

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.27

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

热门下载

网站特效

网站源码

网站素材

前端模板