0

0

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

PHPz

PHPz

发布时间:2023-08-29 20:25:03

|

836人浏览过

|

来源于机器之心

转载

近年来,文本生成图像领域取得了许多令人惊讶的突破,许多模型都能够根据文本指令创建高质量和多样化的图像。尽管生成的图像已经非常逼真,但目前的模型通常擅长生成风景、物体等实物图像,而难以生成具有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像

为了解决这个问题,来自OPPO等机构的研究者们提出了一个名为GlyphDraw的通用学习框架。该框架的目标是让模型能够生成嵌入连贯文本的图像。这项工作是图像合成领域中首个解决汉字生成问题的工作

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

  • 请点击以下链接查看论文:https://arxiv.org/abs/2303.17870

  • 项目主页链接:https://1073521013.github.io/glyph-draw.github.io/

让我们先来看一下生成效果,比如为展览馆生成警示标语:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

制作广告牌:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

为图片添加简要的文字说明,同时还可以多样化文字样式

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

还有一个有趣且实用的例子是生成表情包:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

尽管结果有一些缺陷,但总体而言,该研究的生成效果已经非常出色。该研究的主要贡献包括:

  • 该研究提出了一个名为GlyphDraw的汉字图像生成框架。在整个生成过程中,利用汉字字形和位置等辅助信息,该框架能够提供细粒度的指导,从而使得生成的汉字图像能够高质量地无缝嵌入到图像中

  • 这项研究提出了一种有效的训练策略,通过限制预训练模型中可训练参数的数量,以防止过拟合和灾难性遗忘(catastrophic forgetting),成功地保持了模型在开放域生成方面的强大性能,并且能够准确地生成汉字图像

  • 这项研究详细描述了构建训练数据集的过程,并提出了一种新的基准方法来评估汉字图像生成的质量。其中,GlyphDraw 的生成准确率达到了75%,明显优于之前的图像合成方法

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

模型介绍:

首先,该研究设计了一种复杂的图像-文本数据集构建策略。接着,利用开源图像合成算法Stable Diffusion,提出了一种通用学习框架GlyphDraw,如图2所示

Manus
Manus

全球首款通用型AI Agent,可以将你的想法转化为行动。

下载

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

稳定扩散的整体训练目标可以表示为以下公式:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

GlyphDraw是基于Stable Diffusion中的交叉注意力机制的。它将原始输入的潜在向量z_t与图像的潜在向量z_t、文本掩码l_m和字形图像l_g进行级联替代

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

此外,通过使用特定领域的融合模块,条件 C 配备了混合字形和文本特征。引入文本掩码和字形信息,使整个训练过程实现了细粒度的扩散控制,这是提高模型性能的关键组成部分,最终能够生成带有汉字文本的图像

具体来说,文本信息的像素表征,在特别是复杂的文本形式中,如象形汉字,与自然物体存在明显的差异。举例来说,中文词语「天空(sky)」是由二维结构的多个笔画组成,而对应的自然图像是「点缀着白云的蓝天」。相比之下,汉字具有非常细粒度的特性,即使是微小的移动或变形也会导致文本渲染不正确,从而无法实现图像生成

嵌入字符到自然图像背景中还需要考虑一个关键问题,即在不影响相邻自然图像像素的情况下,精确控制文本像素的生成。为了在自然图像上展示出完美的汉字,作者设计了两个关键组件,即位置控制和字形控制,它们被集成到了扩散合成模型中

与其他模型的全局条件输入不同,字符生成需要更多地关注图像的特定局部区域,因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃,该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布

重写后的内容:除了位置控制之外,另一个重要问题是对汉字笔画合成进行精细控制。考虑到汉字的复杂性和多样性,在没有任何明确的先验知识的情况下,仅仅从大量的图像-文本数据集中学习是非常困难的。为了准确生成汉字,该研究将显式的字形图像作为额外的条件信息引入模型的扩散过程中

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

为了保持原意不变,需要将内容改写为中文,以下是改写后的内容: 研究设计和实验结果

由于此前没有专门用于汉字图像生成的数据集,该研究首先创建了一个用于定性和定量评估的基准数据集ChineseDrawText。随后,研究人员在ChineseDrawText上进行了几种方法的生成准确率测试,并通过OCR识别模型进行评估

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

该研究提出的GlyphDraw模型通过充分利用辅助字形和位置信息,达到了平均准确率为75%的出色效果,证明了该模型在字符图像生成方面的卓越能力。下图展示了几种方法的可视化比较结果

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

此外,GlyphDraw还可以通过限制训练参数来保持开放域图像合成性能,在MS-COCO FID-10k上一般图像合成的FID仅下降了2.3

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

感兴趣的读者可以阅读论文原文,了解更多研究细节。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

2

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

25

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

622

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

MySQL 教程
MySQL 教程

共48课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号