DALL-E和Flamingo能相互理解吗？三个预训练SOTA神经网络统一图像和文本

WBOY

发布时间：2023-04-12 16:49:10

1422人浏览过

来源于51CTO.COM

转载

多模态研究的一个重要目标就是提高机器对于图像和文本的理解能力。特别是针对如何在两种模型之间实现有意义的交流，研究者们付出了巨大努力。举例来说，图像描述（image captioning）生成应当能将图像的语义内容转换输出为可被人们理解的连贯文本。相反，文本 - 图像生成模型也可利用文本描述的语义来创建逼真的图像。

这就会带来一些同语义相关的有趣问题：对于给定的图像，哪种文本描述最准确地描述了图像？同样地，对于给定的文本，最有意义的图像实现方式又是哪种？针对第一个问题，一些研究宣称最佳的图像描述应该是既自然且还能还原视觉内容的信息。而对于第二个问题，有意义的图像应该是高质量的、多样性的且忠于文本内容的。

不论怎样，在人类交流的推动下，包含文本 - 图像生成模型及图像 - 文本生成模型的交互任务可以帮助我们选择最准确的图像文本对。

如图 1 所示，在第一个任务中，图像 - 文本模型是信息发送者，文本 - 图像模型是信息接收者。发送者的目标是使用自然语言将图像的内容传达给接收者，以便其理解该语言并重建真实的视觉表征。一旦接收者可以高保真地重建原始图像信息，则表明信息已传递成功。研究者认为这样生成的文本描述即为最优的，通过其产生的图像也最近似于原始图像。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这一规律受到人们使用语言进行交流的启发。试想如下情形：在一个紧急呼救的场景中，警察通过电话获知车祸的情况和受伤人员的状况。这本质上涉及现场目击者的图像描述过程。警方需要根据语言描述在脑海中重建环境场景，以组织恰当的救援行动。显然，最好的文本描述应该是该场景重建的最佳指南。

第二个任务涉及文本重建：文本 - 图像模型成为信息发送者，图像 - 文本模型则成为信息接收者。一旦两个模型就文本层面上信息内容达成一致，那么用于传达信息的图像媒介即为重现源文本的最优图像。

本文中，来自慕尼黑大学、西门子公司等机构的研究者提出的方法，同智能体间通信紧密相关。语言是智能体之间交换信息的主要方法。可我们如何确定第一个智能体与第二个智能体对什么是猫或什么是狗这样的问题有相同的理解呢？

论文地址：https://arxiv.org/pdf/2212.12249.pdf

Img.Upscaler

免费的AI图片放大工具

下载

本文所想要探求的想法是让第一个智能体分析图像并生成描述该图像的文本，而后第二个智能体获取该文本并据此来模拟图像。其中，后一个过程可以被认为是一个具象化体现的过程。该研究认为，如果第二个智能体模拟的图像与第一个智能体接收到的输入图像相似（见图 1），则通信成功。

在实验中，该研究使用现成的模型，特别是近期开发的大规模预训练模型。例如，Flamingo 和 BLIP 是图像描述模型，可以基于图像自动生成文本描述。同样地，基于图像 - 文本对所训练的图像生成模型可以理解文本的深层语义并合成高质量的图像，例如 DALL-E 模型和潜在扩散模型 (SD) 即为这种模型。

此外，该研究还利用 CLIP 模型来比较图像或文本。CLIP 是一种视觉语言模型，可将图像和文本对应起来表现在共享的嵌入空间（embedding space）中。该研究使用手动创建的图像文本数据集，例如 COCO 和 NoCaps 来评估生成的文本的质量。图像和文本生成模型具有允许从分布中采样的随机分量，因而可以从一系列候选的文本和图像中选择最佳的。不同的采样方法，包括核采样，均可以被用于图像描述模型，而本文采用核采样作为基础模型，以此来显示本文所使用方法的优越性。

方法概览

本文框架由三个预训练的 SOTA 神经网络组成。第一，图像 - 文本生成模型；第二，文本 - 图像生成模型；第三，由图像编码器和文本编码器组成的多模态表示模型，它可以将图像或文本分别映射到其语义嵌入中。

通过文本描述的图像重建

如图 2 左半部分所示，图像重建任务是使用语言作为指令重建源图像，此过程的效果实现将促使描述源场景的最佳文本生成。首先，源图像 x 被输送到 BLIP 模型以生成多个候选文本 y_k。例如，一只小熊猫在树林中吃树叶。生成的文本候选集合用 C 表示，然后文本 y_k 被发送到 SD 模型以生成图像 x’_k。这里 x’_k 是指基于小熊猫生成的图像。随后，使用 CLIP 图像编码器从源图像和生成的图像中提取语义特征:和。

然后计算这两个嵌入向量之间的余弦相似度，目的是找到候选的文本描述 y_s, 即

其中 s 为最接近源图像的图像索引。

该研究使用 CIDEr（图像描述度量指标）并参照人类注解来评估最佳文本。由于对生成的文本质量感兴趣，该研究将 BLIP 模型设定为输出长度大致相同的文本。这样就能保证进行相对公平的比较，因为文字的长度与可传递图像中信息量的多少呈正相关。在这项工作中，所有模型都会被冻结，不会进行任何微调。

通过图像实现文本重建

图 2 中右侧部分显示了与上一节描述过程的相反过程。BLIP 模型需要在 SD 的引导下猜测源文本，SD 可以访问文本但只能以图像的格式呈现其内容。该过程始于使用 SD 为文本 y 生成候选图像 x_k ，生成的候选图像集用 K 来表示。使用 SD 生成图像会涉及随机采样过程，其中每一次生成过程都可能会以在巨大的像素空间中得到不同的有效图像样本为终点。这种采样多样性会提供一个候选池来为筛选出最佳图像。随后，BLIP 模型为每个采样图像 x_k 生成一个文本描述 y’_k。这里 y’_k 指的是初始文本一只小熊猫在森林里爬行。然后该研究使用 CLIP 文本编码器提取源文本和生成文本的特征，分别用和表示。此任务的目的是寻找匹配文本 y 语义的最佳候选图像 x_s。为此，该研究需要比较生成文本和输入文本之间的距离，然后选择出配对文本距离最小的图像，即

该研究认为图像 x_s 可以最好地描绘出文本描述 y，因为它可以以最小的信息损失将内容传递给接收者。此外，该研究将与文本 y 相对应的图像视为 y 的参考表示（reference presentation），并将最佳图像量化为它与参考图像的接近程度。

实验结果

图 3 中的左侧图表显示了两个数据集上图像重建质量和描述文本质量之间的相关性。对于每个给定图像，重建图像质量（在 x 轴中显示）越好，文本描述质量（在 y 轴中显示的）也越好。

图 3 的右侧图表揭示了恢复的文本质量和生成的图像质量之间的关系：对于每个给定的文本，重建的文本描述（显示在 x 轴上）越好，图像质量（显示在 y 轴上）就越好。

图 4（a）和（b）显示了图像重建质量和基于源图像的平均文本质量之间的关系。图 4（c）和（d）显示了文本距离（text distance）与重建图像质量之间的相关性。

表 1 显示出该研究的采样方法在每个度量标准下都优于核采样，模型的相对增益可以高达 7.7%。

图 5 显示了两个重建任务的定性示例。

airpords怎么恢复出厂设置 airpords重置出厂设置步骤【指南】

ai怎么做浮雕效果_ai制作立体浮雕文字效果的方法【教程】

GRTock4.1怎么分析数据_GRTock可视化推文趋势教程

如何提升PPT图表的数据分析深度利用Excel AI插件自动生成趋势预测

如何制作令人惊艳的学术汇报PPT 利用Gamma将复杂文字转为视觉图表

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：ChatGPT是否构成对网络安全的威胁？人工智能机器人给出了自己的答案下一篇：DevOps 的生成式人工智能：一个现实的视角

作者最新文章

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

106

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板