0

0

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

WBOY

WBOY

发布时间:2023-06-05 13:33:25

|

896人浏览过

|

来源于51CTO.COM

转载

Kacha
Kacha

KaCha是一款革命性的AI写真工具,用AI技术将照片变成杰作!

下载

谷歌styledrop一出,瞬间在网上刷屏了。

给定梵高的星空,AI化身梵高大师,对这种抽象风格顶级理解后,做出无数幅类似的画作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一张卡通风,想要绘制的物体呆萌了许多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

甚至,它还能精准把控细节,设计出原风格的logo。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop的魅力在于,只需要一张图作为参考,无论多么复杂的艺术风格,都能解构再复刻。

网友纷纷表示,又是淘汰设计师的那种AI工具。

StyleDrop爆火研究便是来自谷歌研究团队最新出品。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

论文地址:https://arxiv.org/pdf/2306.00983.pdf

现在,有了StyleDrop这样的工具,不但可以更可控地绘画,还可以完成之前难以想象的精细工作,比如绘制logo。

就连英伟达科学家将其称为「现象级」成果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

「定制」大师

论文作者介绍道,StyleDrop的灵感来源Eyedropper(吸色/取色工具)。

同样,StyleDrop同样希望大家可以快速、毫不费力地从单个/少数参考图像中「挑选」样式,以生成该样式的图像。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只树懒能够有18种风格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只熊猫有24种风格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

小朋友画的水彩画,StyleDrop完美把控,甚至连纸张的褶皱都还原出来了。

不得不说,太强了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有StyleDrop参考不同风格对英文字母的设计:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

同样是梵高风的字母。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有线条画。线条画是对图像的高度抽象,对画面生成构成合理性要求非常高,过去的方法一直很难成功。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

原图中奶酪阴影的笔触还原到每种图片的物体上。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

参考安卓LOGO创作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

此外,研究人员还拓展了StyleDrop的能力,不仅能定制风格,结合DreamBooth,还能定制内容。

比如,还是梵高风,给小柯基生成类似风格的画作:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一个,下面这只柯基有种埃及金字塔上的「狮身人面像」的感觉。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如何工作?

StyleDrop基于Muse构建,由两个关键部分组成:

一个是生成视觉Transformer的参数有效微调,另一个是带反馈的迭代训练。

之后,研究人员再从两个微调模型中合成图像。

Muse是一种基于掩码生成图像Transformer最新的文本到图像的合成模型。它包含两个用于基础图像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模块。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

每个模块都由一个文本编码器T,一个transformer G,一个采样器S,一个图像编码器E和解码器D组成。

T将文本提示t∈T映射到连续嵌入空间E。G处理文本嵌入e∈E以生成视觉token序列的对数l∈L。S通过迭代解码从对数中提取视觉token序列v∈V,该迭代解码运行几步的transformer推理,条件是文本嵌入e和从前面步骤解码的视觉token。

最后,D将离散token序列映射到像素空间I。总的来说,给定一个文本提示t,图像I的合成如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

图2是一个简化了的Muse transformer层的架构,它进行了部分修改,为的是支持参数高效微调(PEFT)与适配器。

使用L层的transformer处理在文本嵌入e的条件下以绿色显示的视觉token序列。学习参数θ被用于构建适配器调优的权重。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了训练θ,在许多情况下,研究人员可能只给出图片作为风格参考。

研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示,包括对内容的描述,后面跟着描述风格的短语。

例如,研究人员在表1中用「猫」描述一个对象,并附加「水彩画」作为风格描述。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

在文本提示中包含内容和风格的描述至关重要,因为它有助于从风格中分离出内容,这是研究人员的主要目标。

图3则是带反馈的迭代训练。

当在单一风格参考图像(橙色框)上进行训练时,StyleDrop生成的一些图像可能会展示出从风格参考图像中提取出的内容(红色框,图像背景中含有与风格图像类似的房子)。

其他图像(蓝色框)则能更好地从内容中拆分出风格。对StyleDrop进行好样本(蓝色框)的迭代训练,结果在风格和文本保真度之间取得了更好的平衡(绿色框)。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里研究人员还用到了两个方法:

-CLIP得分

该方法用于测量图像和文本的对齐程度。因此,它可以通过测量CLIP得分(即视觉和文本CLIP嵌入的余弦相似度)来评估生成图像的质量。

研究人员可以选择得分最高的CLIP图像。他们称这种方法为CLIP反馈的迭代训练(CF)。

在实验中,研究人员发现,使用CLIP得分来评估合成图像的质量是提高召回率(即文本保真度)的有效方式,而不会过多损失风格保真度。

然而从另一方面看,CLIP得分可能不能完全与人类的意图对齐,也无法捕捉到微妙的风格属性。

-HF

人工反馈(HF)是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。

在强化学习的LLM微调中,HF已经证明了它的强大和有效。

HF可以用来补偿CLIP得分无法捕捉到微妙风格属性的问题。

目前,已有大量研究关注了文本到图像的扩散模型的个性化问题,以合成包含多种个人风格的图像。

研究人员展示了如何以简单的方式将DreamBooth和StyleDrop结合起来,从而使风格和内容都能实现个性化。

这是通过从两个修改后的生成分布中采样来完成的,分别由风格的θs和内容的θc指导,分别是在风格和内容参考图像上独立训练的适配器参数。

与现有的成品不同,该团队的方法不需要在多个概念上对可学习的参数进行联合训练,这就带来了更大的组合能力,因为预训练的适配器是分别在单个主题和风格上进行训练的。

研究人员的整体采样过程遵循等式(1)的迭代解码,每个解码步骤中采样对数的方式有所不同。

设t为文本提示,c为无风格描述符的文本提示,在步骤k计算对数如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

其中:γ用于平衡StyleDrop和DreamBooth——如果γ为0,我们得到StyleDrop,如果为1,我们得到DreamBooth。

通过合理设置γ,我们就可以得到合适的图像。

实验设置

目前为止,还没有对文本-图像生成模型的风格调整进行广泛的研究。

因此,研究人员提出了一个全新实验方案:

-数据收集

研究者收集了几十张不同风格的图片,从水彩和油画,平面插图,3D渲到不同材质的雕塑。

-模型配置

研究人员使用适配器调优基于Muse的StyleDrop 。对于所有实验,使用Adam优化器更新1000步的适配器权重,学习速率为0.00003。除非另有说明,研究人员使用StyleDrop来表示第二轮模型,该模型在10多个带有人工反馈的合成图像上进行训练。

-评估

研究报告的定量评估基于CLIP,衡量风格一致性和文本对齐。此外,研究人员进行了用户偏好研究,以评估风格一致性和文本对齐。

如图,研究人员收集的18个不同风格的图片,StyleDrop处理的结果。

可以看到,StyleDrop能够捕捉各种样式的纹理、阴影和结构的细微差别,能够比以前更好地控制风格。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了进行比较,研究人员还介绍了DreamBooth在Imagen上的结果,DreamBooth在Stable Diffusion上的LoRA实现和文本反演的结果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

具体结果如表所示,图像-文本对齐(Text)和视觉风格对齐(Style)的人类评分(上)和CLIP评分(下)的评价指标。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

(a) DreamBooth,(b) StyleDrop,和 (c) DreamBooth + StyleDrop的定性比较:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里,研究人员应用了上面提到的CLIP分数的两个指标——文本和风格得分。

对于文本得分,研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分,研究人员测量风格参考和合成图像嵌入之间的余弦相似度。

研究人员为190个文本提示生成总共1520个图像。虽然研究人员希望最终得分能高一些,但其实这些指标并不完美。

而迭代训练(IT)提高了文本得分,这符合研究人员的目标。

然而,作为权衡,它们在第一轮模型上的风格得分有所降低,因为它们是在合成图像上训练的,风格可能因选择偏见而偏移。

Imagen上的DreamBooth在风格得分上不及StyleDrop(HF的0.644对比0.694)。

研究人员注意到,Imagen上的DreamBooth的风格得分增加并不明显(0.569 → 0.644),而Muse上的StyleDrop的增加更加明显(0.556 →0.694)。

研究人员分析,Muse上的风格微调比Imagen上的更有效。

另外,在细粒度控制上, StyleDrop捕捉微妙的风格差异,如颜色偏移,层次,或锐角的把控。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

网友热评

要是设计师有了StyleDrop,10倍速工作效率,已经起飞。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI一天,人间10年,AIGC正在以光速发展,那种晃瞎人眼的光速!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

工具只是顺应了潮流,该被淘汰的已经早被淘汰了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

对于制作Logo来说这个工具比Midjourney好用得多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6607

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

842

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2134

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2904

2024.08.16

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 4.9万人学习

Go 教程
Go 教程

共32课时 | 6.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号