0

0

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

王林

王林

发布时间:2023-05-17 08:02:08

|

1990人浏览过

|

来源于51CTO.COM

转载

随着大型语言模型(llm)、扩散(diffusion)等技术的发展,chatgptmidjourney等产品的诞生掀起了新一波的ai热潮,生成式ai也成为备受关注的话题。

与文本和图像不同,3D生成仍处于技术探索阶段。

2022年年底,Google、NVIDIA和微软相继推出了自己的3D生成工作,但大多基于先进的神经辐射场(NeRF)隐式表达,与工业界3D软件如Unity、Unreal Engine和Maya等的渲染管线不兼容。

即使通过传统方案将其转换为Mesh表达的几何和颜色贴图,也会造成精度不足和视觉质量下降,不能直接应用于影视制作和游戏生产。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

项目网站:https://sites.google.com/view/dreamface

论文地址:https://arxiv.org/abs/2304.03117

Web Demo:https://hyperhuman.top

HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

为了解决这些问题,来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架。

该框架引入符合CG制作标准的外部数据集(包含几何和PBR材质),可以根据文本直接生成符合该标准的3D资产,是首个支持Production-Ready 3D资产生成的框架。

为了实现文本生成可驱动的3D超写实数字人,该团队将这个框架与产品级3D数字人数据集相结合。这项工作已经被计算机图形领域国际顶级期刊Transactions on Graphics接收,并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。

DreamFace主要包括三个模块,几何体生成,基于物理的材质扩散和动画能力生成。

相比先前的3D生成工作,这项工作的主要贡献包括:

· 提出了DreamFace这一新颖的生成方案,将最近的视觉-语言模型与可动画和物理材质的面部资产相结合,通过渐进式学习来分离几何、外观和动画能力。

· 引入了双通道外观生成的设计,将一种新颖的材质扩散模型与预训练模型相结合,同时在潜在空间和图像空间进行两阶段优化。

· 使用BlendShapes或生成的Personalized BlendShapes的面部资产具备动画能力,并进一步展示了DreamFace在自然人物设计方面的应用。

OneAI
OneAI

将生成式AI技术打包为API,整合到企业产品和服务中

下载

几何生成

几何体生成模块可以根据文本提示生成与之一致的几何模型。然而,在人脸生成方面,这可能难以监督和收敛。

因此,DreamFace提出了一个基于CLIP(Contrastive Language-Image Pre-Training)的选择框架,首先从对人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型,然后雕刻几何细节,使头部模型更符合文本提示。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

根据输入提示,DreamFace利用CLIP模型选择匹配得分最高的粗略几何候选项。接下来,DreamFace使用隐式扩散模型(LDM)在随机视角和光照条件下对渲染图像进行得分蒸馏采样(SDS)处理。

这使得DreamFace可以通过顶点位移和详细的法线贴图向粗略几何模型添加面部细节,从而得到高度精细的几何体。

与头部模型类似,DreamFace还基于该框架进行发型和颜色的选择。

基于物理的材质扩散生成

基于物理的材质扩散模块旨在预测与预测几何体和文本提示一致的面部纹理。

首先,DreamFace将预先训练的LDM在收集的大规模UV材质数据集上微调,得到两个LDM扩散模型。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

DreamFace采用了一种联合训练方案,协调两个扩散过程,一个用于直接去噪UV纹理贴图,另一个用于监督渲染图像,以确保面部UV贴图和渲染图像的正确形成与文本提示一致。

为了减少生成时间,DreamFace采用了一个粗糙纹理潜在扩散阶段,为细节纹理生成提供先验潜在。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。

团队利用两种方法生成高质量的漫反射贴图:

(1)Prompt Tuning。与手工制作的特定领域文本提示不同,DreamFace将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来,这将在U-Net去噪器训练期间进行优化,以避免不稳定和耗时的手工撰写提示。

(2)非面部区域遮罩。LDM去噪过程将额外地受到非面部区域遮罩的限制,以确保生成的漫反射贴图不含有任何不需要的元素。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

作为最后一步,DreamFace应用超分辨率模块生成4K基于物理的纹理,以进行高质量渲染。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

DreamFace框架在名人生成,根据描述生成角色上都取得了相当不错的效果,在User Study中获得了远超先前工作的成绩。相比先前的工作,在运行时间上也具备明显的优势。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

除此之外,DreamFace还支持使用提示和草图进行纹理编辑。通过直接使用微调的纹理LDM和提示,可以实现全局的编辑效果,如老化和化妆。通过进一步结合掩模或草图,可以创建各种效果,如纹身、胡须和胎记。

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

动画能力生成

上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」

DreamFace生成的模型具备动画能力。与基于BlendShapes的方法不同,DreamFace的神经面部动画方法通过预测独特的变形来为生成的静息(Neutral)模型赋予动画效果,从而产生个性化的动画。

首先,训练一个几何生成器,学习表情的潜在空间,其中解码器被扩展为以中性几何形状为条件。接着,进一步训练表情编码器,从RGB图像中提取表情特征。因此,DreamFace能够通过使用单目RGB图像以中性几何形状为条件来生成个性化的动画。

与使用通用BlendShapes进行表情控制的DECA相比,DreamFace的框架提供了细致的表情细节,并且能够精细地捕捉表演。

结论

本文介绍了DreamFace,一种文本指导的渐进式3D生成框架,它结合了最新的视觉-语言模型、隐式扩散模型,以及基于物理的材质扩散技术。

DreamFace的主要创新包括几何体生成、基于物理的材质扩散生成和动画能力生成。与传统的3D生成方法相比,DreamFace具有更高的准确性、更快的运行速度和较好的CG管线兼容性。

DreamFace的渐进式生成框架为解决复杂的3D生成任务提供了一种有效的解决方案,有望推动更多类似的研究和技术发展。

此外,基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

555

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

610

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2992

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1082

2024.03.05

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2747

2024.08.16

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

22

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

15

2026.02.28

Golang 性能分析与运行时机制:构建高性能程序
Golang 性能分析与运行时机制:构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面,深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略,并结合实际案例剖析 Go 程序的运行时行为,帮助开发者掌握构建高性能应用的关键技能。

23

2026.02.28

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

16

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 1.1万人学习

XML教程
XML教程

共142课时 | 7.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号