字节跳动近日推出了其全新多模态大语言模型 vidi2,这是一个专为视频理解设计、拥有120亿参数的ai模型。该模型具备处理长达数小时原始视频内容的能力,能够解析其中的情节发展,并根据简单的文本提示自动生成完整的tiktok短视频或电影片段,被认为可能对传统视频编辑行业带来深远影响。
Vidi2的核心突破在于其强大的视频理解能力。新版本引入了精细的时空定位(STG)功能,可同时识别视频中特定事件发生的时间点以及对应物体的空间位置。通过输入一段文字查询,模型不仅能精准定位相关时间段,还能在画面中标注出目标对象的边界框。
关键技术亮点包括:
在权威评测基准 VUE-TR-V2(用于开放式时间检索)上,Vidi2取得了总体IoU 48.75的优异成绩,尤其在超过一小时的超长视频任务中,性能领先主流商业模型达17.5个百分点。在VUE-STG定位任务中,模型同样表现突出,vIoU达到32.57,tIoU高达53.19,均位居当前最优水平。

基于Vidi2,字节跳动已开发出一系列自动化视频编辑工具,涵盖高光片段提取、故事感知型剪辑、内容驱动的重构图生成以及多视角智能切换等功能,且这些操作均可在普通消费级设备上流畅运行。
目前,Vidi2仍处于研究阶段,官方透露即将发布公开Demo版本。
源码地址:点击下载
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号