Diffusion+目标检测=可控图像生成！华人团队提出GLIGEN，完美控制对象的空间位置

王林

发布时间：2023-04-12 21:25:05

997人浏览过

来源于51CTO.COM

转载

随着Stable Diffusion的开源，用自然语言进行图像生成也逐渐普及，许多AIGC的问题也暴露了出来，比如AI不会画手、无法理解动作关系、很难控制物体的位置等。

其主要原因还是在于「输入接口」只有自然语言，无法做到对画面的精细控制。

最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究热源提出了一个全新的方法GLIGEN，以grounding输入为条件，对现有「预训练文本到图像扩散模型」的功能进行扩展。

论文链接：https://arxiv.org/pdf/2301.07093.pdf

项目主页：https://gligen.github.io/

体验链接：https://huggingface.co/spaces/gligen/demo

为了保留预训练模型的大量概念知识，研究人员没有选择对模型进行微调，而是通过门控机制将输入的不同grounding条件注入到新的可训练层中，以实现对开放世界图像生成的控制。

目前GLIGEN支持四种输入。

（左上）文本实体+box （右上）图像实体+box

（左下）图像风格+文本+box （右下）文本实体+关键点

实验结果也显示，GLIGEN 在 COCO 和 LVIS 上的zero-shot性能大大优于目前有监督layout-to-image基线。

可控图像生成

在扩散模型之前，生成对抗网络（GANs）一直是图像生成领域的一哥，其潜空间和条件输入在「可控操作」和「生成」方面得到了充分的研究。

文本条件自回归和扩散模型表现出惊人的图像质量和概念覆盖率，得益于其更稳定的学习目标和对网络图像-文本配对数据的大规模训练，并迅速出圈，成为辅助艺术设计和创作的工具。

但现有的大规模文本-图像生成模型不能以「文本之外」的其他输入模式为条件，缺乏精确定位概念或使用参考图像来控制生成过程的能力，限制了信息的表达。

比如说，使用文本很难描述一个物体的精确位置，而边界框（bounding

boxes）或关键点（keypoints）则可以很容易实现。

现有的一些工具如inpainting, layout2img生成等可以利用除文本以外的模态输入，但却很少将这些输入结合起来用于可控的text2img生成。

此外，先前的生成模型通常是在特定任务的数据集上独立训练的，而在图像识别领域，长期以来的范式是通过从「大规模图像数据」或「图像-文本对」上预训练的基础模型开始建立特定任务的模型。

扩散模型已经在数十亿的图像-文本对上进行了训练，一个很自然的问题是：我们能否在现有的预训练的扩散模型的基础上，赋予它们新的条件输入模式？

由于预训练模型所具有的大量概念知识，可能能够在其他生成任务上取得更好的性能，同时获得比现有文本-图像生成模型更多的可控性。

GLIGEN

基于上述目的和想法，研究人员提出的GLIGEN模型仍然保留文本标题作为输入，但也启用了其他输入模态，如grounding概念的边界框、grounding参考图像和grounding部分的关键点。

这里面的关键难题是在学习注入新的grounding信息的同时，还保留预训练模型中原有的大量概念知识。

为了防止知识遗忘，研究人员提出冻结原来的模型权重，并增加新的可训练的门控Transformer层以吸收新的grouding输入，下面以边界框为例。

指令输入

每个grouding文本实体都被表示为一个边界框，包含左上角和右下角的坐标值。

需要注意的是，现有的layout2img相关工作通常需要一个概念词典，在评估阶段只能处理close-set的实体（如COCO类别），研究人员发现使用编码图像描述的文本编码器即可将训练集中的定位信息泛化到其他概念上。

训练数据

用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件，在实践中可以通过考虑更灵活的输入来放松对数据的要求。

主要有三种类型的数据

企奶奶

一款专注于企业信息查询的智能大模型，企奶奶查企业，像聊天一样简单。

下载

1. grounding数据

每张图片都与描述整张图片的标题相关联；名词实体从标题中提取，并标上边界框。

由于名词实体直接取自自然语言的标题，它们可以涵盖更丰富的词汇，有利于开放世界词汇的grounding生成。

2. 检测数据 Detection data

名词实体是预先定义的close-set类别（例如COCO中的80个物体类别），选择使用classifier-free引导中的空标题token作为标题。

检测数据的数量（百万级）大于基础数据（千级），因此可以大大增加总体训练数据。

3. 检测和标题数据 Detection and Caption data

名词实体与检测数据中的名词实体相同，而图像是单独用文字标题描述的，可能存在名词实体与标题中的实体不完全一致的情况。

比如标题只给出了对客厅的高层次描述，没有提到场景中的物体，而检测标注则提供了更精细的物体层次的细节。

门控注意力机制

研究人员的目标是为现有的大型语言-图像生成模型赋予新的空间基础能力，

大型扩散模型已经在网络规模的图像文本上进行了预训练，以获得基于多样化和复杂的语言指令合成现实图像所需的知识，由于预训练的成本很高，性能也很好，在扩展新能力的同时，在模型权重中保留这些知识是很重要的，可以通过调整新的模块来逐步适应新能力。

在训练过程中，使用门控机制逐渐将新的grounding信息融合到预训练的模型中，这种设计使生成过程中的采样过程具有灵活性，以提高质量和可控性。

实验中也证明了，在采样步骤的前半部分使用完整的模型（所有层），在后半部分只使用原始层（没有门控Transformer层），生成的结果能够更准确反映grounding条件，同时具有较高的图像质量。

实验部分

在开放集合grounded文本到图像生成任务中，首先只用COCO（COCO2014CD）的基础标注进行训练，并评估GLIGEN是否能生成COCO类别以外的基础实体。

可以看到，GLIGEN可以学会新的概念如「蓝鸦」、「羊角面包」，或新的物体属性如「棕色木桌」，而这些信息没有出现在训练类别中。

研究人员认为这是因为GLIGEN的门控自注意力学会了为接下来的交叉注意力层重新定位与标题中的接地实体相对应的视觉特征，并且由于这两层中的共享文本空间而获得了泛化能力。

实验中还定量评估了该模型在LVIS上的zero-shot生成性能，该模型包含1203个长尾物体类别。使用GLIP从生成的图像中预测边界框并计算AP，并将其命名为GLIP得分；将其与为layout2img任务设计的最先进的模型进行比较，

可以发现，尽管GLIGEN模型只在COCO标注上进行了训练，但它比有监督的基线要好得多，可能因为从头开始训练的基线很难从有限的标注中学习，而GLIGEN模型可以利用预训练模型的大量概念知识。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

总的来说，这篇论文：

1. 提出了一种新的text2img生成方法，赋予了现有text2img扩散模型新的grounding可控性；

2. 通过保留预训练的权重和学习逐渐整合新的定位层，该模型实现了开放世界的grounded text2img生成与边界框输入，即综合了训练中未观察到的新的定位概念；

3. 该模型在layout2img任务上的zero-shot性能明显优于之前的最先进水平，证明了大型预训练生成模型可以提高下游任务的性能

团队形象升级！如何用AI批量生成统一样式的团队头像（提升专业度/附操作流程）

拒绝“AI味”！让AI生成头像更自然的3个秘诀（光影调整/真实感纹理/眼神优化）

微信头像换新｜3步用AI生成头像：上传照片→选风格→一键导出（附操作步骤）

二次元/真人风/萌宠专属！AI生成头像的7种爆款风格（附效果对比图）

手机党福音！无需下载APP的5个AI头像小程序（微信直达/一键保存/社交分享）

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：GPT-3解数学题准确率升至92.5%！微软提出MathPrompter，无需微调即可打造「理科」语言模型下一篇：OpenAI CEO承认对ChatGPT有点害怕，这是好事

作者最新文章

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

136

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

122

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26