DeepFake从未如此真实！英伟达最新提出的「隐式扭曲」到底有多强？

PHPz

发布时间：2023-04-11 19:31:17

1758人浏览过

来源于51CTO.COM

转载

近年来，计算机视觉领域的生成技术越来越强，相应「伪造」技术也越来越成熟，从DeepFake换脸到动作模拟，让人难辨真假。

最近英伟达又整了个大的，在NeurIPS 2022会议上发表了一个新的隐式扭曲（Implicit Warping）框架，使用一组源图像和驱动视频的运动来制作目标动画。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2210.01794.pdf

从效果上来看，就是生成的图像更逼真了，人物在视频里动，背景也不会发生变化。

输入的多张源图片通常都会提供不同的外观信息，减少了生成器「幻想」的空间，比如下面这两张作为模型输入。

可以发现，和其他模型相比，隐式扭曲不会产生类似美颜效果的「空间扭曲」之术。

因为人物遮挡的关系，多张源图像还可以提供更完善的背景。

从下面的视频中可以看到，如果只有左面的一张图片，背景后面的是「BD」还是「ED」很难猜测出来，就会导致背景的失真，而两张图片就会生成更稳定的图像。

在对比其他模型时，只有一张源图像的效果也要更好。

神奇的隐式扭曲

学术界对于视频模仿最早可以追溯到2005年，很多项目面部再现的实时表情传输、Face2Face、合成奥巴马、Recycle-GAN、ReenactGAN、动态神经辐射场等等多样化地利用当时有限的几种技术，如生成对抗网络(GAN) 、神经辐射场(NeRF)和自编码器。

并不是所有方法都在尝试从单一帧图像中生成视频，也有一些研究对视频中的每一帧进行复杂的计算，这实际上也正是Deepfake所走的模仿路线。

但由于DeepFake模型获取的信息较少，这种方法需要对每个视频片段进行训练，相比DeepFaceLab或FaceSwap的开源方法相比性能有所下降，这两个模型能够将一个身份强加到任意数量的视频片段中。

2019年发布的FOMM模型让人物随着视频动起来，给视频模仿任务再次注入了一针强心剂。

随后其他研究人员试图从单一的面孔图像或者全身表现中获得多个姿势和表情；但是这种方法通常只适用于那些相对没有表情和不能动的主体，例如相对静止的「说话的头」，因为在面部表情或者姿势中没有网络必须解释的「行为突然变化」。

虽然其中一些技术和方法在深度伪造技术和潜在的扩散图像合成方法大火之前获得了公众的关注，但适用范围有限，多功能性受到质疑。

而英伟达此次着重处理的隐式扭曲，则是在多帧之间甚至只有两帧之间获取信息，而非从一帧中获得所有必要的姿势信息，这种设置在其他的竞争模型中都不存在，或者处理得非常糟糕。

比如迪士尼的工作流程就是由高级动画师绘制主框架和关键帧，其他初级动画师负责绘制中间帧。

通过对以前版本的测试，英伟达的研究人员发现，以前方法的结果质量会随着额外的「关键帧」而恶化，而新方法与动画制作的逻辑一致，随着关键帧数量的增加，性能也会以线性的方式提高。

如果clip的中间发生了一些突然的转变，比如一个事件或者表情在起始帧或者结束帧中都没有表现出来，隐式扭曲可以在这中间点添加一帧，额外的信息会反馈到整个clip的注意机制中。

模型结构

先前的方法，如 FOMM，Monkey-Net 和face-vid2vid等使用显式扭曲绘制一个时间序列，从源人脸和控制运动中提取的信息必须适应且符合这个时间序列。

在这种模型设计下，关键点的最终映射是相当严格的。

相比之下，隐式扭曲使用一个跨模态注意层，其工作流中包含更少的预定义bootstrapping，可以适应来自多个框架的输入。

Vondy

下一代AI应用平台，汇集了一流的工具/应用程序

下载

工作流也不需要在每个关键点的基础上进行扭曲，系统可以从一系列图像中选择最合适的特性。

隐式扭曲也复用了一些FOMM框架中的关键点预测组件，最终用一个简单的U-net对派生的空间驱动关键点表示进行编码。另外一个单独的U-net则用来与衍生的空间表示一起对源图像进行编码，两个网络都可以在64px (256px 平方输出)到384x384px 的分辨率范围内运行。

因为这种机制不能自动解释任何给定视频中姿势和运动的所有可能变化，所以额外的关键帧是很必要的，可以临时添加。如果没有这种干预能力，与目标运动点相似度不足的key将自动uprate，从而导致输出质量的下降。

研究人员对此的解释是，虽然它是一组给定的关键帧中与query最相似的key，但可能不足以产生一个好的输出。

例如，假设源图像有一张嘴唇闭合的脸，而驱动图像有一张嘴唇张开、牙齿暴露的脸。在这种情况下，源图像中没有适合驱动图像嘴部区域的key(和value)。

该方法通过学习额外的与图像无关的key-value pairs来克服这个问题，可以应对源图像中缺少信息的情况。

尽管目前的实现速度相当快，在512x512px 的图像上大约10 FPS，研究人员认为，在未来的版本中，pipeline可以通过一个因子化的 I-D 注意力层或空间降低注意力(SRA)层(即金字塔视觉Transformer)来优化。

由于隐式扭曲使用的是全局注意力而不是局部注意力，因此它可以预测之前模型无法预测的因素。

实验结果

研究人员在 VoxCeleb2数据集，更具挑战性的 TED Talk 数据集和 TalkingHead-1KH 数据集上测试了该系统，比较了256x256px 和完整的512x512px 分辨率之间的基线，使用的指标包括FID、基于 AlexNet的LPIPS和峰值信噪比(pSNR)。

用于测试的对比框架包括FOMM和face-vid2vid，以及AA-PCA，由于以前的方法很少或根本没有能力使用多个关键帧，这也是隐式扭曲的主要创新，研究人员还设计了相似测试方法。

隐式扭曲在大多数指标上表现优于大多数对比方法。

在多关键帧重建测试中，研究人员使用最多180帧序列，并选择间隙帧，隐式扭曲这次获得了全面胜利。

随着源图像数量的增加，该方法可以获得更好的重建结果，所有指标的得分都有所提高。

而随着源图像数量的增加，先前工作的重建效果变差，与预期相反。

通过AMT的工作人员进行定性研究后，也认为隐式变形的生成结果强于其他方法。

如果能够使用这种框架，用户将能够制作出更连贯、更长的视频模拟和全身深度假视频，所有这些都能够展现出比该系统已经试验过的任何框架都要大得多的运动范围。

不过更逼真的图像合成研究也带来了担忧，因为这些技术可以轻易地用于伪造，论文中也有标准的免责声明。

如果我们的方法被用来制造DeepFake产品，就有可能产生负面影响。恶意语音合成透过跨身份转移及传送虚假资料，制作人物的虚假影像，导致身份被盗用或传播虚假新闻。但在受控设置中，同样的技术也可以用于娱乐目的。

论文还指出了该系统在神经视频重建方面的潜力，比如谷歌的Project Starline，在这个框架中，重建工作主要集中在客户端，利用来自另一端的人的稀疏运动信息。

这个方案越来越引起研究界的兴趣，并且也有公司打算通过发送纯运动数据或者稀疏间隔的关键帧来实现低带宽的电话会议，这些关键帧将在到达目标客户端时被解释和插入到完整的高清视频中。

京东亮相AWE2026呈现全景AI生态让前沿科技从展台走进千家万户

ChatGPT生成Python代码怎么提问_提示写法是什么【教程】

Midjourney如何生成封面设计_Midjourney封面制作流程【教程】

Gemini Embedding 2— 谷歌推出的首个原生多模态嵌入模型

Replit Ghostwriter自动生成项目结构怎么做_开发方法是什么【指南】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：深度学习中的拓扑美学：GNN基础与应用下一篇：仅用 SQL 就可以搞机器学习

作者最新文章

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

微信朋友圈怎么预约发送微信朋友圈定时发布最新解决方案

2026-02-09 10:52

mysql如何进行逻辑运算_mysql and/or/not组合

2026-03-06 10:26

mysql如何使用位运算符_mysql二进制数据处理

2026-03-07 02:17

mysql如何查看库中所有表_mysql show tables语法

2026-03-13 08:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04