0

0

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

WBOY

WBOY

发布时间:2024-04-15 10:13:19

|

832人浏览过

|

来源于机器之心

转载

美图影像研究院(mt lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3d场景编辑方法——customnerf。该研究成果已被cvpr 2024接收。customnerf不仅支持文本描述和参考图片作为3d场景的编辑提示,还能根据用户提供的信息生成高质量的3d场景。

Neural Radiance Field (NeRF) 自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来,将隐式表达推上了一个新的高度。作为当前最前沿的技术之一,NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域,并持续受到广泛关注。 NeRF 通过对场景中每个点的辐射和密度进行建模,从而实现高质量的图像合成,这使得它在计算机视觉、计算机图形学、增强现实和虚拟现实等领域的应用广泛关注。 NeRF 的独特之处在于其能够从输入的场景中生成高质量的图像,而不需要复杂的 3D 扫描或密集的视角图像。这一特性使得 NeRF 在许多领域具有广泛的应用前景,包括计算机视觉、计算机图形学、增强现实和虚拟现实等领域,并持续受到广泛关注。 NeRF 通过对场景中的每个点的辐射和密度进行建模,从而实现高质量的图像合成。 NeRF 还可以用于生成高质量的 3D 渲染,这使得它在虚拟现实和增强现实等领域的应用非常有前景。 NeRF 的快速发展和广泛应用将继续受到广泛关注,预计在未来将会有更多基于 NeRF 的创新和应用涌现。

NeRF(神经辐射场)是一种用于优化和连续表示的特点,在3D场景重建中具有很多应用。它甚至带动了3D场景编辑领域的研究,例如3D对物或场景的纹理重绘、风格化等。为了进一步提高3D场景编辑的灵活性,近期基于预训练模型的NeRF编辑方法也正在被大量探索,而且由于NeRF的隐式表征以及3D场景的几何特性可以获得符合文本提示的编辑结果,这些都是非常容易实现的事情。

为了使文本驱动的3D场景编辑也能够实现精准控制,美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种将文本描述和参考图像统一为编辑提供的CustomNeRF框架。该框架内置了特定视角主体V∗,嵌入到混合表示中,从而满足一般化和定制化的3D场景编辑要求。该研究成果已被CVPR 2024记录,代码也已开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

  • 论文链接:https://arxiv.org/abs/2312.01663

  • 代码链接:https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                 图 1:CustomNeRF 在文本驱动(左)和图像驱动(右)的编辑效果

CustomNeRF 解决的两大挑战

目前,基于预训练扩散模型进行 3D 场景编辑的主流方法主要分为两类。

其一,是使用图像编辑模型迭代地更新数据集中的图像,但是受限于图像编辑模型的能力,会在部分编辑情形下失效。其二,则是利用分数蒸馏采样(SDS)损失对场景进行编辑,但由于文本和场景之间的对齐问题,这类方法在真实场景中无法直接适配,会对非编辑区域造成不必要的修改,往往需要 mesh 或 voxel 等显式中间表达。

此外,当前的这两类方法主要集中在由文本驱动的 3D 场景编辑任务中,文本描述往往难以准确表达用户的编辑需求,无法将图像中的具体概念定制化到 3D 场景中,只能对原始 3D 场景进行一般化编辑,因此难以获得用户预期中的编辑结果。

事实上,获得预期编辑结果的关键在于精确识别图像前景区域,这样能够在保持图像背景的同时促进几何一致的图像前景编辑。

因此,为了实现仅对图像前景区域进行准确编辑,该论文提出了一种局部 - 全局迭代编辑(LGIE)的训练方案,在图像前景区域编辑和全图像编辑之间交替进行。该方案能够准确定位图像前景区域,并在保留图像背景的同时仅对图像前景进行操作。

此外,在由图像驱动的 3D 场景编辑中,存在因微调的扩散模型过拟合到参考图像视角,所造成的编辑结果几何不一致问题。对此,该论文设计了一种类引导的正则化,在局部编辑阶段仅使用类词来表示参考图像的主体,并利用预训练扩散模型中的一般类先验来促进几何一致的编辑。

CustomNeRF 的整体流程

如图 2 所示,CustomNeRF 通过 3 个步骤,来实现在文本提示或参考图像的指导下精确编辑重建 3D 场景这一目标。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   图 2 CustomNeRF 的整体流程图

抖云猫AI论文助手
抖云猫AI论文助手

一款AI论文写作工具,最快 2 分钟,生成 3.5 万字论文。论文可插入表格、代码、公式、图表,依托自研学术抖云猫大模型,生成论文具备严谨的学术专业性。

下载

首先,在重建原始的 3D 场景时,CustomNeRF 引入了额外的 mask field 来估计除常规颜色和密度之外的编辑概率。如图 2(a) 所示,对于一组需要重建 3D 场景的图像,该论文先使用 Grouded SAM 从自然语言描述中提取图像编辑区域的掩码,结合原始图像集训练 foreground-aware NeRF。在 NeRF 重建后,编辑概率用于区分要编辑的图像区域(即图像前景区域)和不相关的图像区域(即图像背景区域),以便于在图像编辑训练过程中进行解耦合的渲染。

其次,为了统一图像驱动和文本驱动的 3D 场景编辑任务,如图 2(b)所示,该论文采用了 Custom Diffusion 的方法在图像驱动条件下针对参考图进行微调,以学习特定主体的关键特征。经过训练后,特殊词 V∗可以作为常规的单词标记用于表达参考图像中的主体概念,从而形成一个混合提示,例如 “a photo of a V∗ dog”。通过这种方式,CustomNeRF 能够对自适应类型的数据(包括图像或文本)进行一致且有效的编辑。

在最终的编辑阶段,由于 NeRF 的隐式表达,如果使用 SDS 损失对整个 3D 区域进行优化会导致背景区域发生显著变化,而这些区域在编辑后理应与原始场景保持一致。如图 2(c)所示,该论文提出了局部 - 全局迭代编辑(LGIE)方案进行解耦合的 SDS 训练,使其能够在编辑布局区域的同时保留背景内容。

具体而言,该论文将 NeRF 的编辑训练过程进行了更精细的划分。借助 foreground-aware NeRF,CustomNeRF 可以在训练中灵活地控制 NeRF 的渲染过程,即在固定相机视角下,可以选择渲染前景、背景、以及包含前景和背景的常规图像。在训练过程中,通过迭代渲染前景和背景,并结合相应的前景或背景提示,可以利用 SDS 损失在不同层面编辑当前的 NeRF 场景。其中,局部的前景训练使得在编辑过程中能够只关注需编辑的区域,简化复杂场景中编辑任务的难度;而全局的训练将整个场景考虑在内,能够保持前景和背景的协调性。为了进一步保持非编辑区域不发生改变,该论文还利用编辑训练前的背景监督训练过程中所新渲染的背景,来保持背景像素的一致性。

此外,图像驱动 3D 场景编辑中存在着加剧的几何不一致问题。因为经过参考图像微调过的扩散模型,在推理过程中倾向于产生和参考图像视角相近的图像,造成编辑后 3D 场景的多个视角均是前视图的几何问题。为此,该论文设计了一种类引导的正则化策略,在全局提示中使用特殊描述符 V*,在局部提示中仅使用类词,以利用预训练扩散模型中包含的类先验,使用更几何一致的方式将新概念注入场景中。

实验结果

如图 3 和图 4 展示了 CustomNeRF 与基线方法的 3D 场景重建结果对比,在参考图像和文本驱动的 3D 场景编辑任务中,CustomNeRF 均取得了不错的编辑结果,不仅与编辑提示达成了良好的对齐,且背景区域和原场景保持一致。此外,表 1、表 2 展示了 CustomNeRF 在图像、文本驱动下与基线方法的量化比较,结果显示在文本对齐指标、图像对齐指标和人类评估中,CustomNeRF 均超越了基线方法。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                  图 3 图像驱动编辑下与基线方法的可视化比较

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                               图 4 文本驱动编辑下与基线的可视化比较

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   表 1 图像驱动编辑下与基线的定量比较

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   表 2 文本驱动编辑下与基线的定量比较

总结

本论文创新性地提出了 CustomNeRF 模型,同时支持文本描述或参考图像的编辑提示,并解决了两个关键性挑战 —— 精确的仅前景编辑以及在使用单视图参考图像时多个视图的一致性。该方案包括局部 - 全局迭代编辑(LGIE)训练方案,使得编辑操作能够在专注于前景的同时保持背景不变;以及类引导正则化,减轻图像驱动编辑中的视图不一致,通过大量实验,也验证了 CustomNeRF 在各种真实场景中,能够准确编辑由文本描述和参考图像提示的 3D 场景。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

185

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2028

2024.08.16

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

8

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

18

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

18

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

10

2026.01.22

PHP特殊符号教程合集
PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法,阅读专题下面的文章了解更多详细内容。

10

2026.01.22

PHP探针相关教程合集
PHP探针相关教程合集

本专题整合了PHP探针相关教程,阅读专题下面的文章了解更多详细内容。

7

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 15.2万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.2万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号