视频生成模型变身智能体：斯坦福Percy Liang等提出VideoAgent，竟能自我优化

DDD

发布时间：2024-10-21 19:54:37

567人浏览过

来源于机器之心

转载

现在正是「文本生视频」赛道百花齐放的时代，而且其应用场景非常多，比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器，比如 openai 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告，参阅本站报道《我在模拟世界！openai 刚刚公布 sora 技术细节：是数据驱动物理引擎》。

吐槽大师

吐槽大师（Roast Master） - 终极 AI 吐槽生成器，适用于 Instagram，Facebook，Twitter，Threads 和 Linkedin

下载

文本生视频模型的这些近期应用既有望实现互联网规模级别的知识迁移（比如从生成人类视频到生成机器人视频），也有望打通实现通用智能体的道路（比如用单个策略控制不同环境中不同形态的机器人来执行多种多样的任务）。

然而，现实情况是，文本生视频模型的下游应用还很有限，原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。

虽然理论上可以通过扩大数据集和模型大小来有效减轻这些问题，但对视频生成模型来说，这会很困难。

部分原因是标注和整理视频的人力成本很高。另外，视频生成方面还没有一个非常适合大规模扩展的架构。

除了扩大规模，LLM 领域的另一个重要突破是能整合外部反馈来提升生成质量。那文本生视频模型也能受益于这一思路吗？

为了解答这一问题，一个多所机构的研究团队探索了视频生成模型能自然获得的两种反馈类型，即来自视觉 - 语言模型（VLM）的 AI 反馈和将生成的视频转换成运动控制时得到的真实世界执行反馈。

为了利用这些反馈来实现视频生成模型的自我提升，该团队提出了 VideoAgent，即视频智能体。该研究有三位共一作者：Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他参与者包括滑铁卢大学 Sebastian Fischmeister 教授、斯坦福大学基础模型研究中心（CRFM）主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang（杨梦娇）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

视频生成模型变身智能体：斯坦福Percy Liang等提出VideoAgent，竟能自我优化

论文标题：VideoAgent: Self-Improving Video Generation
论文地址：https://arxiv.org/pdf/2410.10076
代码地址：https://github.com/Video-as-Agent/VideoAgent

不同于将生成的视频直接转换成运动控制的策略，VideoAgent 的训练目标是使用来自预训练 VLM 的反馈来迭代式地优化生成的视频规划。

在推理阶段，VideoAgent 会查询 VLM 以选择最佳的改进版视频规划，然后在环境中执行该规划。

在在线执行过程中，VideoAgent 会观察任务是否已成功完成，并根据来自环境的执行反馈和从环境收集的其它数据进一步改进视频生成模型。

生成的视频规划获得了两方面的改进：

该团队受一致性模型的启发，提出了用于视频扩散模型的自我调节一致性（self-conditioning consistency），其可将来自视频扩散模型的低质量样本进一步优化成高质量样本。
当可在线访问环境时，VideoAgent 会执行当前视频策略并收集其它成功轨迹，以进一步在成功轨迹上微调视频生成模型。

图 1 是 VideoAgent 的直观图示。

通过自我调节一致性实现视频优化

他们首先考虑的是基于第一帧和语言的视频生成，即根据语言描述找到从初始图像开始的一个图像帧序列。通常来说，当某个样本来自一个视频生成模型时，其中一部分更真实（开始部分），另一部分则充满幻觉（结尾部分）。

也就是说，虽然生成的视频规划可能无法完全完成指定的任务，但它能提供有意义的信息，以帮助进一步改进以实现正确的规划。

为了利用这样的部分进展，该团队使用了一个视频一致性模型，即基于之前的自我生成的样本为 ground truth 视频执行扩散，这样模型就可以学会保留视频的真实部分，同时优化其中的幻觉部分。

此外，除了基于之前生成的样本来优化视频，该团队还纳入了反馈，包括来自人类的反馈和来自 VLM 的反馈。这被称为反馈引导的自我调节一致性。

这里我们仅描述了其大概方法，详细过程和形式化描述请参阅原论文。

通过 VLM 引导的视频生成实现推理

在训练了视频生成模型和视频优化模型之后，可采样视频生成模型然后迭代式地使用优化模型来实现视频优化。

具体来说，VideoAgent 首先会基于第一帧和语言的视频生成来「猜测」视频规划。

接下来，迭代地使用优化模型来执行优化，这里会使用 VLM 来提供反馈。

算法 1 展示了使用 VLM 反馈的视频生成和优化模型。

算法 2 则给出了在推理时间生成、优化和选择视频规划（重新规划）的方式。

通过在线微调实现自我改进

除了上面描述的基于自我调节一致性的视频优化，该团队还进一步将视频生成和视频细化的组合描述为一种策略，该策略可以通过在线交互期间从环境中收集的额外真实数据进行训练，从而实现改进。

有多种强化学习技术可以满足这一需求，算法 3 描述了其细节。

实验

为了评估 VideoAgent，该团队进行了多个实验，包括该模型的端到端成功率、不同组件的效果以及能否提升真实机器人视频的质量。

数据集

实验中，该团队考虑了三个数据集：

Meta-World：11 个机器人操作任务，由模拟的 Sawyer 机器臂执行，视频演示是从三个不同的摄像机角度拍摄的。
iTHOR：一个模拟的 2D 目标导航基准，其中智能体在四种房间类型中搜索指定的目标物体。
BridgeData V2：一个真实的机器人操作数据集。

端到端任务成功率

实验过程就不过多赘述了，直接来看结果。

首先，表 1 给出了在 Meta-World 上的端到端任务成功率。

可以看到，自我调节一致性已经能让 VideoAgent 的总体成功率超越基线（19.6% 到 22.3%），其中一些任务更是大幅提升，比如在关闭水龙头（faucet-close）任务上的成功率从 12% 猛增至 46.7%。

而如果再进一步引入在线微调，成功率还能进一步提升，并且多迭代一次都会多一点提升。

引入重新规划后，VideoAgent 的优势仍然存在，并且总体任务成功率达到了 50%，达成了该设置下的当前最佳水平。

表 2 展示了在 iTHOR 上的成功率，可以看到 VideoAgent 同样全面优于基线 AVDC。

理解 VideoAgent 不同组件的效果

该团队也通过对比研究分析了 VideoAgent 不同组件的效果，具体包括 (1) 向优化模型提供不同类型的反馈，(2) 改变优化和在线迭代的次数，(3) 调整 VLM 反馈的质量。

表 3 展示了不同 VLM 反馈的效果（基于 Meta-World）。可以看到，不管是二元反馈还是描述性反馈，都比没有反馈好，更比基线 AVDC 好得多。

图 3 和 4 分别展示了优化和在线迭代的次数的影响。整体来看，增多迭代次数有助于提升模型，并且效果很显著。

由于这项研究是首批利用 VLM 为视频生成提供反馈的研究之一，因此一个重要的研究课题是：了解 VLM 是否真的可以为视频生成提供足够准确的反馈。

表 4 给出了 VLM 反馈的各项性能指标，这里使用了人工标注作为 ground truth 来进行评估。

可以看到，原始提示词（Unweighted）的准确度是 69%，这说明 VLM 足以评价生成的视频。而通过重新加权来惩罚假正例（Weighted）还能大幅提升其准确度。另外值得注意的是，从提示词中移除第三个摄像头甚至还能获得更高的准确度，这说明 VLM 的准确性会受到部分可观测性的影响。

在真实世界视频上评估自我优化

最后，该团队也评估了 VideoAgent 改进真实视频的能力。结果见表 5。

可以看到，在视频分数的 5 个子指标上，VideoAgent 在其中 4 个上表现更优，在唯一的例外「动态分数」上也与基线差距细微。此外，VideoAgent 在 CLIP 分数、流一致性和人类评估上也都更好。这表明 VideoAgent 可以生成更流畅、更符合现实世界的物理逻辑的视频。

最后，图 5 给出了一个定性评估结果。

其中，中间行是基线，可以看到其出现了幻觉（碗消失了），而 VideoAgent 很好地完成了视频生成任务。

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4291

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

500

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板