一文看尽SOTA生成式模型：九大类别21个模型全回顾！

WBOY

发布时间：2023-05-02 15:43:07

2515人浏览过

来源于51CTO.COM

转载

过去的两年时间里，AI界的大型生成模型发布呈井喷之势，尤其是Stable Diffusion开源和ChatGPT开放接口后，更加激发了业界对生成式模型的热情。

但生成式模型种类繁多，发布速度也非常快，稍不留神就有可能错过了sota

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

最近，来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展，将生成式模型按照任务模态、领域分为了九大类，并总结了2022年发布的21个生成式模型，一次看明白生成式模型的发展脉络！

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

论文链接：https://arxiv.org/abs/2301.04655

生成式AI分类

模型可以按照输入和输出的数据类型进行分类，目前主要包括9类。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

有趣的是，在这些已发布大模型的背后，只有六个组织（OpenAI, Google, DeepMind, Meta, runway, Nvidia）参与部署了这些最先进的模型。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

其主要原因是，为了能够估计这些模型的参数，必须拥有极其庞大的计算能力，以及在数据科学和数据工程方面高度熟练且经验丰富的团队。

因此，也只有这些公司，在收购的初创公司和与学术界合作的帮助下，能够成功部署生成式人工智能模型。

在大公司参与初创企业方面，可以看到微软向OpenAI投资了10亿美元，并帮助他们开发模型；同样，谷歌在2014年收购了Deepmind。

在大学方面，VisualGPT是由阿卜杜拉国王科技大学（KAUST）、卡内基梅隆大学和南洋理工大学开发的，Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

同样，其他项目也是由一家公司与一所大学合作开发的，比如Stable Diffusion由Runway、Stability AI和慕尼黑大学合作开发；Soundify由Runway和卡内基梅隆大学合作开发；DreamFusion由谷歌和加州大学伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术，而且OpenAI已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来，其能力源于语言-图像预训练模型CLIP神经网络，从而可以用自然语言来指示最相关的文本片段。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

具体来说，CLIP embedding有几个理想的属性：能够对图像分布进行稳定的转换；具有强大的zero-shot能力；并且在微调后实现了最先进的结果。

为了获得一个完整的图像生成模型，CLIP图像embedding解码器模块与一个先验模型相结合，从一个给定的文本标题中生成相关CLIP图像embedding

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

其他的模型还包括Imagen，Stable Diffusion，Muse

Text-to-3D模型

对于某些行业，仅能生成2D图像还无法完成自动化，比如游戏领域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research开发，使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。

Dreamfusion使用一个从二维扩散模型的蒸馏中得到的损失取代了CLIP技术，即扩散模型可以作为一个通用的连续优化问题中的损失来生成样本。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

相比其他方法主要是对像素进行采样，在参数空间的采样比在像素空间的采样要难得多，DreamFusion使用了一个可微的生成器，专注于创建从随机角度渲染图像的三维模型。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

其他模型如Magic3D由英伟达公司开发。

Image-to-Text模型

获得一个描述图像的文本也是很有用的，相当于图像生成的逆版本。

Flamingo

该模型由Deepmind开发，在开放式的视觉语言任务上，只需通过一些输入/输出例子的提示，即可进行few-shot学习。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

具体来说，Flamingo的输入包含视觉条件下的自回归文本生成模型，能够接收与图像或视频交错的文本token序列，并生成文本作为输出。

用户可以向模型输入query，并附上一张照片或一段视频，模型就会用文本答案来回答。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

Flamingo模型利用了两个互补的模型：一个是分析视觉场景的视觉模型，一个是执行基本推理形式的大型语言模型。

VisualGPT

VisualGPT是一个由OpenAI开发的图像描述模型，能够利用预训练语言模型GPT-2中的知识。

为了弥合不同模态之间的语义差距，研究人员设计了一个全新的编码器-解码器注意力机制，具有整流门控功能。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

VisualGPT最大的优点是它不需要像其他图像到文本模型那样多的数据，能够提高图像描述模型的数据效率，能够在小众领域得到应用或对少见的物体的进行描述。

Text-to-Video模型

Phenaki

该模型由Google Research开发制作，可以在给定一连串文字提示的情况下，进行真实的视频合成。

Phenaki是第一个能够从开放域时间变量提示中生成视频的模型。

为了解决数据问题，研究人员在一个大型的图像-文本对数据集以及数量较少的视频-文本例子上进行联合训练，最终获得了超越视频数据集中的泛化能力。

主要是图像-文本数据集往往有数十亿的输入数据，而文本-视频数据集则小得多，并且对不同长度的视频进行计算也是一个难题。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

Phenaki模型包含三个部分：C-ViViT编码器、训练Transformer和视频生成器。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

将输入token转换为embedding后，接着经过时序Transformer和空间Transformer，再使用一个没有激活的单一线性投影，将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频，甚至能够处理一些数据集中不存在的新概念。

Text-to-Audio模型

对于视频生成来说，声音也是必不可缺的部分。

AudioLM

该模型是由谷歌开发，可用于生成高质量的音频，并具有长距离一致性。

AudioLM的特别之处在于将输入的音频映射成一个离散的token序列，并将音频生成作为该表示空间的语言建模任务。

无限画

千库网旗下AI绘画创作平台

下载

通过对原始音频波形的大型语料库进行训练，AudioLM成功学会了在简短的提示下生成自然和连贯的连续的语音。这种方法甚至可以扩展到人声之外的语音，比如连续的钢琴音乐等等，而不需要在训练时添加符号表示。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

由于音频信号涉及多个尺度（scale）的抽象，所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

在主观评价方面，评分者被要求听一个10秒的样本，并决定它是人类讲话还是合成的语音。基于收集到的1000个评分，比率为51.2%，与随机分配标签没有统计学差异，即人类无法区分合成和真实的样本。

其他相关模型包括Jukebox和Whisper

Text-to-Text模型

问答任务常用。

ChatGPT

广受欢迎的ChatGPT由OpenAI开发，以对话的方式与用户进行互动。

用户提出一个问题，或是提示文本的前半部分，模型会补全后续部分，并且能够识别出不正确的输入前提并拒绝不恰当的请求。

具体来说，ChatGPT背后的算法是Transformer，训练过程主要是人类反馈的强化学习。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

最初的模型是使用监督学习下的微调来训练的，然后由人类来提供对话，在对话中他们互相扮演用户和人工智能助理，然后由人修正模型返回的回复，并用正确的答案帮助模型改进。

将制作的数据集与InstructGPT的数据集混合在一起，转换为对话格式。

其他相关模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text类似，只不过生成的是特殊类型的文本，即代码。

Codex

该模型由OpenAI开发，可以将文本翻译成代码。

Codex是一种通用的编程模型，基本上可以应用于任何编程任务。

人类在编程时的活动可以分为两部分：1）将一个问题分解成更简单的问题；2）将这些问题映射到已经存在的现有代码（库、API或函数）中。

其中第二部分是对程序员来说最浪费时间的部分，也是Codex最擅长的地方。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

训练数据于2020年5月从GitHub上托管的公共软件库中进行收集，包含179GB的Python文件，并在GPT-3的基础上进行微调，其中已经包含了强大的自然语言表征。

Text-to-Science模型

科研文字也是AI文本生成的目标之一，但要取得成果仍然有很长的路要走。

Galactica

该模型是由Meta AI和Papers with Code联合开发的，可用于自动组织科学文本的大型模型。

Galactica的主要优势在于即便进行多个episode的训练后，模型仍然不会过拟合，并且上游和下游的性能会随着token的重复使用而提高。

并且数据集的设计对该方法至关重要，因为所有的数据都是以通用的markdown格式处理的，从而能够混合不同来源的知识。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

引文（citations）通过一个特定的token来处理，使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。

此外，该模型在仅有解码器的设置中使用了一个Transformer架构，对所有尺寸的模型进行了GeLU激活，从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务，

Minerva

Minerva的主要目的就是解决决数学和科学问题，为此收集了大量的训练数据，并解决了定量推理问题，大规模模型开发问题，还采用了一流的推理技术。

Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题，即输入是需要包含计算和符号操作，而不用引入外部工具。

其他模型

还有一些模型不属于前面提到的类别。

AlphaTensor

由Deepmind公司开发，因其发现新算法的能力，在业界是一个完全革命性的模型。

在已公布的例子中，AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要，从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

该方法基于深度强化学习方法，其中智能体AlphaTensor的训练过程就是玩一个单人游戏，目标是在有限的因子空间内寻找张量分解。

在TensorGame的每一步，玩家需要选择如何结合矩阵的不同entries来进行乘法，并根据达到正确的乘法结果所需的操作数量来获得奖励分数。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏（synthetic training game）的对称性。

GATO

该模型是由Deepmind开发的通用智能体，它可以作为一个多模态、多任务或多embodiment泛化策略来使用。

具有相同权重的同一个网络可以承载非常不同的能力，从玩雅达利游戏、描述图片、聊天、堆积木等等。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

在所有任务中使用单一的神经序列模型有很多好处，减少了手工制作具有自身归纳偏见策略模型的需要，并增加了训练数据的数量和多样性。

这种通用智能体在大量任务中都取得了成功，并且可以用很少的额外数据进行调整，以便在更多的任务中取得成功。

目前GATO大约有1.2B个参数，可以实时控制现实世界机器人的模型规模。

一文看尽SOTA生成式模型：九大类别21个模型全回顾！

其他已发表的生成性人工智能模型包括生成human motion等。

参考资料：https://arxiv.org/abs/2301.04655

WorkBuddy怎么写短视频带货脚本_WorkBuddy电商直播方案生成攻略【运营】

QClaw不同版本配置兼容吗_QClaw版本兼容性说明【说明】

Cursor生成代码不完整怎么办_Cursor优化提示方法【方法】

Perplexity生成的答案有误怎么修正_Perplexity反馈与重写教程【科普】

OpenClaw部署配置优化_OpenClaw部署优化技巧【技巧】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04