0

0

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

WBOY

WBOY

发布时间:2024-02-20 15:50:03

|

681人浏览过

|

来源于51CTO.COM

转载

近期,AI 视频技术领域备受关注,尤其是OpenAI推出的Sora视频生成大模型引起了广泛讨论。与此同时,在视频剪辑领域,Agent等大型AI模型也展现出强大的实力。

尽管自然语言被用于处理视频剪辑任务,用户可以直接表达意图而无需手动操作。然而,当前大多数视频剪辑工具仍然需要大量手动操作,并且缺乏个性化的上下文支持。这导致用户需要自行解决复杂的视频剪辑问题。

关键在于如何设计一个可以充当协作者、并在剪辑过程中不断协助用户的视频剪辑工具?在本文中,来自多伦多大学、 Meta(Reality Labs Research)、加州大学圣迭戈分校的研究者提出利用大语言模型(LLM)的多功能语言能力来进行视频剪辑,并探讨了未来的视频剪辑范式,从而减少与手动视频剪辑过程的阻碍。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

  • 论文标题:LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
  • 论文地址:https://arxiv.org/pdf/2402.10294.pdf

研究者开发了一款名为LAVE的视频剪辑工具,它集成了LLM提供的多项语言增强功能。LAVE引入了一个基于LLM的智能规划和执行系统,能够解释用户的自由格式语言指令,规划并执行相关操作,以达成用户的视频剪辑目标。这一智能系统能够提供概念化帮助,如创意头脑风暴和视频素材概览,并提供操作帮助,包括基于语义的视频检索、故事板和剪辑修剪等功能。

为了顺利进行这些智能体的操作,LAVE 使用了视觉语言模型(VLM)来自动生成视频视觉效果的语言描述。这些视觉叙述使得LLM能够理解视频内容,并利用他们的语言能力来协助用户完成剪辑。此外,LAVE 提供了两种交互视频剪辑模式,即智能体协助和直接操作。这种双重模式为用户提供了更大的灵活性,让他们可以根据需要改进智能体的操作。

至于 LAVE 的剪辑效果怎么样?研究者对包括剪辑新手和老手在内的 8 名参与者进行了用户研究,结果表明,参与者可以使用 LAVE 制作出令人满意的 AI 协作视频。

值得关注的是,这项研究的六位作者中有 5 位华人,包括一作、多伦多大学计算机科学博士生 Bryan Wang、Meta 研究科学家 Yuliang Li、Zhaoyang Lv 和 Yan Xu、加州大学圣迭戈分校助理教授 Haijun Xia。

LAVE 用户界面(UI)

我们首先来看 LAVE 的系统设计,具体如下图 1 所示。

LAVE 的用户界面包含三个主要组件,分别如下:

  • 语言增强视频库,显示带有自动生成的语言描述的视频片段;
  • 视频剪辑时间轴,包括用于剪辑的主时间轴;
  • 视频剪辑智能体,使用户与一个会话智能体进行交互并获得帮助。

设计逻辑是这样的:当用户与智能体交互时,消息交换会在聊天 UI 中显示。当进行相关操作时,智能体对视频库和剪辑时间轴进行更改。此外,用户可以使用光标直接对视频库和时间轴进行操作,类似于传统的剪辑界面。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

语言增强视频库

语言增强视频库的功能如下图 3 所示。

与传统工具一样,该功能允许剪辑播放,但会提供视觉叙述,即为每个视频自动生成文本描述,包括语义标题和摘要。这些标题可以帮助理解和索引剪辑,摘要则提供了每个剪辑的视觉内容的概述,帮助用户形成自身编辑项目的故事情节。每个视频下方都会显示标题和时长。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

此外,LAVE 使用户可以利用语义语言查询来搜索视频,检索到的视频会在视频库中显示并按相关性排序。这一功能必须通过剪辑智能体来执行。

视频剪辑时间轴

从视频库中选定视频并将它添加到剪辑时间轴后,它们会显示在界面底部的视频剪辑时间轴上,如下图 2 所示。其中,时间轴上的每个剪辑都由一个框表示,并显示三个缩略图帧,分别是开始帧、中间帧和结束帧。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

在 LAVE 系统中,每个缩略图帧代表剪辑中一秒钟的素材。与视频库一样,每个剪辑的标题和描述都会提供。LAVE 中的剪辑时间轴具有两个关键功能,即剪辑排序和修剪。

其中在时间轴上进行剪辑排序是视频剪辑中的一项常见任务,对于创建连贯的叙述非常重要。LAVE 支持两种排序方法,一是基于 LLM 的排序利用视频剪辑智能体的故事板功能进行操作,二是手动排序通过用户直接操作来排序,拖放每个视频框来设置剪辑出现的顺序。

修剪在视频剪辑中也很重要,可以突出显示关键片段并删除多余内容。在修剪时,用户双击时间轴中的剪辑,打开一个显示一秒帧的弹出窗口,如下图 4 所示。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

视频剪辑智能体

LAVE 的视频剪辑智能体是一个基于聊天的组件,可促进用户和基于 LLM 的智能体之间的交互。与命令行工具不同,用户可以使用自由格式的语言与智能体进行交互。该智能体利用 LLM 的语言智能提供视频剪辑辅助,并提供具体的响应,以在整个编辑过程中指导和帮助用户。LAVE 的智能体协助功能是通过智能体操作提供的,每个智能体操作都涉及执行系统支持的编辑功能。

总的来说,LAVE 提供的功能涵盖了从构思和预先规划到实际编辑操作的整个工作流程,但该系统并没有强制规定严格的工作流程。用户可以灵活地利用与其编辑目标相符的功能子集。例如,具有清晰编辑愿景和明确故事情节的用户可能会绕过构思阶段并直接投入编辑。

后端系统

该研究采用 OpenAI 的 GPT-4 来阐述 LAVE 后端系统的设计,主要包括智能体设计、实现由 LLM 驱动的编辑功能两个方面。

智能体设计

该研究利用 LLM(即 GPT-4)的多种语言能力(包括推理、规划和讲故事)构建了 LAVE 智能体。

LAVE 智能体有两种状态:规划和执行。这种设置有两个主要好处:

  • 允许用户设置包含多个操作的高级目标,从而无需像传统命令行工具那样详细说明每个单独的操作。 
  • 在执行之前,智能体会将规划呈现给用户,提供修改的机会并确保用户可以完全控制智能体的操作。研究团队设计了一个后端 pipeline 来完成规划和执行流程。

如下图 6 所示,该 pipeline 首先根据用户输入创建行动规划。然后,该规划从文本描述转换为函数调用,随后执行相应的函数。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

实现 LLM 驱动的编辑功能

为了帮助用户完成视频编辑任务,LAVE 主要支持五种由 LLM 驱动的功能,包括:

  • 素材概述
  • 创意头脑风暴
  • 视频检索
  • 故事板
  • 剪辑修剪

其中前四个可通过智能体来访问(图 5),而剪辑修剪功能可通过双击时间轴中的剪辑,打开一个显示一秒帧的弹出窗口(图 4)。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

其中,基于语言的视频检索是通过向量存储数据库实现的,其余的则通过 LLM 提示工程(prompt engineering)来实现。所有功能都建立在自动生成的原始素材语言描述之上,包括视频库中每个剪辑的标题和摘要(图 3)。研究团队将这些视频的文字描述称为视觉叙述(visual narration)。

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

感兴趣的读者可以阅读论文原文,了解更多研究内容。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

419

2023.08.03

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

358

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2082

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

256

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

326

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

412

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

411

2023.10.16

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

2

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号