谷歌抢先手发布视频生成类AIGC，网友：可以定制电影了

PHPz

发布时间：2023-04-12 20:10:12

1951人浏览过

来源于51CTO.COM

转载

我们知道，生成模型和多模态视觉语言模型的进展已经为具备前所未有生成真实性和多样性的大型文本到图像模型铺平了道路。这些模型提供了新的创作过程，但仅限于合成新图像而非编辑现有图像。为了弥合这一差距，基于文本的直观编辑方法可以对生成和真实图像进行基于文本的编辑，并保留这些图像的一些原始属性。与图像类似，近来文本到视频模型也提出了很多，但使用这些模型进行视频编辑的方法却很少。

在文本指导的视频编辑中，用户提供输入视频以及描述生成视频预期属性的文本 prompt，如下图 1 所示。目标有以下三个方面，1）对齐，编辑后的视频应符合输入文本 prompt；2）保真度，编辑后的视频应保留原始视频的内容，3）质量，编辑后的视频应具备高质量。

可以看到，视频编辑比图像编辑更加具有挑战性，它需要合成新的动作，而不仅仅是修改视觉外观。此外还需要保持时间上的一致性。因此，将 SDEdit、Prompt-to-Prompt 等图像级别的编辑方法应用于视频帧上不足以实现很好的效果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在近日谷歌研究院等发表在 arXiv 的一篇论文中，研究者提出了一种新方法 Dreamix，它受到了 UniTune 的启发，将文本条件视频扩散模型（video diffusion model, VDM）应用于视频编辑。

论文地址：https://arxiv.org/pdf/2302.01329.pdf
项目主页：https://dreamix-video-editing.github.io/

文中方法的核心是通过以下两种主要思路使文本条件 VDM 保持对输入视频的高保真度。其一不使用纯噪声作为模型初始化，而是使用原始视频的降级版本，通过缩小尺寸和添加噪声仅保留低时空信息；其二通过微调原始视频上的生成模型来进一步提升对原始视频的保真度。

微调确保模型了解原始视频的高分辨率属性。对输入视频的简单微调会促成相对较低的运动可编辑性，这是因为模型学会了更倾向于原始运动而不是遵循文本 prompt。研究者提出了一种新颖的混合微调方法，其中 VDM 也在输入视频各个帧的集合上进行微调，并丢弃了它们的时序。混合微调显著提升了运动编辑的质量。

研究者进一步利用其视频编辑模型提出了一个新的图像动画框架，如下图 2 所示。该框架包含了几个步骤，比如为图像中的对象和背景设置动画、创建动态相机运动等。他们通过帧复制或几何图像变换等简单的图像处理操作来实现，从而创建粗糙的视频。接着使用 Dreamix 视频编辑器对视频进行编辑。此外研究者还使用其微调方法进行目标驱动的视频生成，也即 Dreambooth 的视频版本。

在实验展示部分，研究者进行了广泛的定性研究和人工评估，展示了他们方法的强大能力，具体可参考如下动图。

对于谷歌这项研究，有人表示，3D + 运动和编辑工具可能是下一波论文的热门主题。

还有人表示：大家可以很快在预算内制作自己的的电影了，你所需要的只是一个绿幕以及这项技术：

方法概览

本文提出了一种新的方法用于视频编辑，具体而言：

通过逆向被破坏视频进行文本引导视频编辑

他们采用级联 VDM（ Video Diffusion Models ），首先通过下采样对输入视频就行一定的破坏，后加入噪声。接下来是级联扩散模型用于采样过程，并以时间 t 为条件，将视频升级到最终的时间 - 空间分辨率。

在对输入视频进行破坏处理的这一过程中，首先需要进行下采样操作，以得到基础模型（16 帧 24 × 40），然后加入方差为高斯噪声，从而进一步破坏输入视频。

对于上述处理好的视频，接下来的操作是使用级联 VDM 将损坏掉的低分辨率视频映射到与文本对齐的高分辨率视频。这里的核心思想是，给定一个嘈杂的、时间空间分辨率非常低的视频，有许多完全可行的、高分辨率的视频与之对应。本文中基础模型从损坏的视频开始，它与时间 s 的扩散过程具有相同的噪声。然后该研究用 VDM 来逆向扩散过程直到时间 0。最后通过超分辨率模型对视频进行升级。

混合视频图像微调

仅利用输入视频进行视频扩散模型的微调会限制物体运动变化，相反，该研究使用了一种混合目标，即除了原始目标（左下角）之外，本文还对无序的帧集进行了微调，这是通过「masked temporal attention」来完成的，以防止时间注意力和卷积被微调（右下）。这种操作允许向静态视频中添加运动。

推理

在应用程序预处理的基础上（Aapplication Dependent Pre-processing，下图左），该研究支持多种应用，能将输入内容转换为统一的视频格式。对于图像到视频，输入图像被复制并被变换，合成带有一些相机运动的粗略视频；对于目标驱动视频生成，其输入被省略，单独进行微调以维持保真度。然后使用 Dreamix Video Editor（右）编辑这个粗糙的视频：即前面讲到的，首先通过下采样破坏视频，添加噪声。然后应用微调的文本引导视频扩散模型，将视频升级到最终的时间空间分辨率。

实验结果

视频编辑：下图中 Dreamix 将动作改为舞蹈，并且外观由猴子变为熊，但视频中主体的基本属性没有变：

Video Summarization

一款可以自动将长视频制作成短片的桌面软件

下载

Dreamix 还可以生成与输入视频时间信息一致的平滑视觉修改，如下图会滑滑板的小鹿：

图像到视频：当输入是一张图像时，Dreamix 可以使用其视频先验添加新的移动对象，如下图中添加了在有雾的森林中出现一头独角兽，并放大。

小屋旁边出现企鹅：

目标驱动视频生成：Dreamix 还可以获取显示相同主题的图像集合，并以该主题为运动对象生成新的视频。如下图是一条在叶子上蠕动的毛毛虫：

除了定性分析外，该研究还进行了基线比较，主要是将 Dreamix 与 Imagen-Video、 Plug-and-Play (PnP) 两种基线方法进行对比。下表为评分结果：

图 8 展示了由 Dreamix 编辑的视频和两个基线示例：文本到视频模型实现了低保真度的编辑，因为它不以原始视频为条件。PnP 保留了场景，但不同帧之间缺乏一致性；Dreamix 在这三个目标上都表现良好。

更多技术细节请参阅原论文。

团队形象升级！如何用AI批量生成统一样式的团队头像（提升专业度/附操作流程）

拒绝“AI味”！让AI生成头像更自然的3个秘诀（光影调整/真实感纹理/眼神优化）

微信头像换新｜3步用AI生成头像：上传照片→选风格→一键导出（附操作步骤）

二次元/真人风/萌宠专属！AI生成头像的7种爆款风格（附效果对比图）

手机党福音！无需下载APP的5个AI头像小程序（微信直达/一键保存/社交分享）

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：谷歌聊天机器人LaMDA被爆突然现身！只会聊狗子，被ChatGPT秒成渣下一篇：人工智能在建筑行业的应用

作者最新文章

如何在Spryker项目中实现前端与后端高效通信？Spryker/Zed-Request与Composer助你轻松连接！

2025-09-12 12:40

如何高效生成唯一ID？Ramsey/Uuid助你解决分布式系统中的ID难题

2025-09-13 09:51

Yii2数据库迁移总是手动写？insolita/yii2-migration-generator助你告别繁琐，实现自动化！

2025-09-15 09:38

如何解决复杂系统可视化难题，Spryker/Graphviz助你轻松绘制依赖与状态图

2025-09-15 09:52

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

136

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

122

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26