朱军团队在清华开源了首个基于Transformer的多模态扩散大型模型，经过文本和图像改写全部完成。

PHPz

发布时间：2023-05-08 20:34:08

1609人浏览过

来源于51CTO.COM

转载

据悉 GPT-4 将于本周发布，多模态将成为其一大亮点。当前的大语言模型正在成为理解各种模态的通用接口，能够根据不同模态信息来给出回复文本，但大语言模型生成的内容也仅仅局限于文本。另一方面，当前的扩散模型 DALL・E 2、Imagen、Stable Diffusion 等在视觉创作上掀起一场革命，但这些模型仅仅支持文到图的单一跨模态功能，离通用式生成模型还有一定距离。而多模态大模型将能够打通各种模态能力，实现任意模态之间转化，被认为是通用式生成模型的未来发展方向。

清华大学计算机系朱军教授带领的 TSAIL 团队近期公开的一篇论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》，率先发布了对多模态生成式模型的一些探索工作，实现了任意模态之间的相互转化。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

论文链接：https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

开源代码：https://github.com/thu-ml/unidiffuser

该论文提出了一个为多模态设计的概率建模框架 UniDiffuser，并采用该团队提出的基于 transformer 的网络架构 U-ViT，在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型，使得一个底层模型能够高质量地完成多种生成任务（图 1）。简单来讲，除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能，大幅提升文图内容的生产效率，也进一步提升了生成式模型的应用想象力。

该论文一作鲍凡目前博士在读，是此前 Analytic-DPM 的提出者，凭借在扩散模型方面的优秀工作荣获 ICLR 2022 的 outstanding paper award（目前唯一一篇大陆单位独立完成的获奖论文）。

此外，机器之心之前还报道过 TSAIL 团队提出的 DPM-Solver 快速算法，目前仍是扩散模型最快的生成算法。多模态大模型正是该团队在深度概率模型的算法和原理方面上长期深入积累的一个集中展示。该工作的合作者包括人民大学高瓴人工智能学院的李崇轩、北京智源研究院的曹越等。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

值得注意的是，该项目的论文和代码均已开源。

效果展示

如下的图 8 展示了 UniDiffuser 在图文联合生成的效果：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

如下的图 9 展示了 UniDiffuser 在文到图上的效果：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

如下的图 10 展示了 UniDiffuser 在图到文上的效果：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

如下的图 11 展示了 UniDiffuser 在无条件图像生成上的效果：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

如下的图 12 展示了 UniDiffuser 在图像改写上的效果：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

如下的图 15 展示了 UniDiffuser 能够实现在图文两个模态之间的来回跳跃：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

如下图 16 展示了 UniDiffuser 能对真实的两张图像进行插值：

方法概览

研究团队将针对通用生成式模型的设计划分成了两个子问题：

概率建模框架：是否能寻找到一个概率建模框架，能同时建模出模态之间所有的分布，例如图文之间的边缘分布、条件分布、联合分布等？
网络架构：是否能设计出一个统一的网络架构，来支持各种不同模态的输入？

概率建模框架

针对概率建模框架，研究团队提出 UniDiffuser，一个基于扩散模型的概率建模框架。UniDiffuser 能够显示地建模多模态数据中包括边缘分布、条件分布、联合分布在内的所有分布。研究团队发现，关于不同分布的扩散模型学习都可以统一成一个视角：首先向两个模态的数据分别加入某种大小的噪声，然后再预测两个模态数据上的噪声。其中两个模态数据上的噪声大小决定了具体的分布。例如，将文本的噪声大小设置为 0，则对应了文生图的条件分布；将文本噪声大小设置为最大值，则对应了无条件图像生成的分布；将图文噪声大小设置为相同，则对应了图文的联合分布。根据该统一的视角，UniDiffuser 只需要将原始扩散模型的训练算法做少许的修改，便能同时学习上述的所有分布 — 如下图所示，UniDiffuser 同时向所有模态加噪而非单个模态，输入所有模态对应的噪声大小，以及预测所有模态上的噪声。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

以双模态为例子，最终的训练目标函数如下所示：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

其中

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

小羊标书

一键生成百页标书，让投标更简单高效

下载

代表数据，

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

代表加入到两个模态中的标准高斯噪声，

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

代表两个模态加入噪声的大小（即时间），两者独立的从 {1,2,…,T} 中采样，

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

为噪声预测网络，同时预测两个模态上的噪声。

在训练后，通过向噪声预测网络设置两个模态合适的时间，UniDiffuser 能够实现无条件、条件以及联合生成。例如将文本的时间设置为 0，可以实现文到图生成；将文本的时间设置为最大值，可以实现无条件图像生成；将图文时间设置为相同值，可以实现图文联合生成。

下面罗列了 UniDiffuser 的训练和采样算法，可见这些算法相对原始的扩散模型均只做了微小的改动，易于实现。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

此外，由于 UniDiffuser 同时建模了条件分布和无条件分布，因此 UniDiffuser 天然地支持 classifier-free guidance。下面的图 3 展示了 UniDiffuser 的条件生成和联合生成在不同的 guidance scale 下的效果：

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

网络架构

针对网络架构，研究团队提出使用基于 transformer 的架构来参数化噪声预测网络。具体地，研究团队采用了最近提出的 U-ViT 架构。U-ViT 将所有的输入都视作 token，并在 transformer 块之间加入了 U 型连接。研究团队也采用了 Stable Diffusion 的策略，将不同模态的数据都转换到了隐空间再进行扩散模型的建模。值得注意的是，U-ViT 架构同样来自该研究团队，并且已被开源在 https://github.com/baofff/U-ViT。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

实验结果

UniDiffuser 首先和 Versatile Diffusion 进行了比较。Versatile Diffusion 是过去的一个基于多任务框架的多模态扩散模型。首先 UniDiffuser 和 Versatile Diffusion 进行了文到图上的效果比较。如下面的图 5 所示，在不同的 classifier-free guidance scale 下，UniDiffuser 在 CLIP Score 和 FID 指标上均要好于 Versatile Diffusion。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

然后 UniDiffuser 和 Versatile Diffusion 进行了图到文上的效果比较。如下面的图 6 所示，UniDiffuser 在图到文上有更好的 CLIP Score。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

UniDiffuser 也和专用的文到图模型在 MS-COCO 上进行了 zero-shot FID 的比较。如下面的表 1 所示，UniDiffuser 可以和专用的文到图模型取得可比的效果。

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

QClaw配置被覆盖怎么办_QClaw配置恢复技巧【技巧】

MiniMax如何和其他AI工具一起使用_MiniMax跨平台协作使用技巧【技巧】

OpenClaw怎么开启双人模式_OpenClaw多人同屏游戏设置操作【教程】

WorkBuddy批量处理合同审核自动提取关键条款方法【黑科技】

workbuddy最新版怎么安装_workbuddy版本安装技巧【技巧】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：谷歌新的「AI导演」神奇之处在于只需一句话即可改变视频主角，这令人惊叹，同时画质也非常优秀。下一篇：以下是2023年9本必读书单，任何一位软件工程师都不应错过！

作者最新文章

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

微信朋友圈怎么预约发送微信朋友圈定时发布最新解决方案

2026-02-09 10:52

mysql如何进行逻辑运算_mysql and/or/not组合

2026-03-06 10:26

mysql如何使用位运算符_mysql二进制数据处理

2026-03-07 02:17

mysql如何查看库中所有表_mysql show tables语法

2026-03-13 08:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04