CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

PHPz

发布时间：2024-03-25 09:16:53

600人浏览过

来源于51CTO.COM

转载

Pixelfox AI

多功能AI图像编辑工具

下载

视频理解的核心目标是准确理解时空表示，但面临两个主要挑战：短视频片段中存在大量时空冗余，并且复杂的时空依赖关系。三维卷积神经网络（cnn）和视频transformer曾在解决其中一个挑战方面表现出色，但它们在同时应对这两个挑战时存在一定不足。uniformer尝试结合这两种方法的优势，但在建模长视频方面遇到了困难。

S4、RWKV 和 RetNet 等低成本方案在自然语言处理领域的出现，为视觉模型开辟了新的途径。Mamba 凭借其选择性状态空间模型 (SSM) 脱颖而出，实现了在保持线性复杂性的同时促进长期动态建模的平衡。这种创新推动了它在视觉任务中的应用，正如 Vision Mamba 和 VMamba 所证实的那样，它们利用多方向 SSM 来增强二维图像处理。这些模型在性能上与基于注意力的架构相媲美，同时显著减少了内存使用量。

鉴于视频产生的序列本身更长，一个自然的问题是：Mamba 能否很好地用于视频理解？

启发于 Mamba，本文介绍了 VideoMamba，这是专门为视频理解定制的 SSM（选择性状态空间模型）。VideoMamba 借鉴了 Vanilla ViT 的设计理念，将卷积和注意力机制相结合。它提供了一种线性复杂度的方式，用于动态时空背景建模，尤其适用于处理高分辨率长视频。评估主要集中在 VideoMamba 的四个关键能力上：

在视觉领域的可扩展性：本文对 VideoMamba 的可扩展性进行了检验，发现纯 Mamba 模型在不断扩展时往往容易过拟合，本文引入一种简单而有效的自蒸馏策略，使得随着模型和输入尺寸的增加，VideoMamba 能够在不需要大规模数据集预训练的情况下实现显著的性能增强。

对短期动作识别的敏感性：本文的分析扩展到评估 VideoMamba 准确区分短期动作的能力，特别是那些具有细微动作差异的动作，如打开和关闭。研究结果显示，VideoMamba 在现有基于注意力的模型上表现出了优异的性能。更重要的是，它还适用于掩码建模，进一步增强了其时间敏感性。

在长视频理解方面的优越性：本文评估了 VideoMamba 在解释长视频方面的能力。通过端到端训练，它展示了与传统基于特征的方法相比的显著优势。值得注意的是，VideoMamba 在 64 帧视频中的运行速度比 TimeSformer 快 6 倍，并且对 GPU 内存需求减少了 40 倍 (如图 1 所示)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

与其他模态的兼容性：最后，本文评估了 VideoMamba 与其他模态的适应性。在视频文本检索中的结果显示，与 ViT 相比，其性能得到了改善，特别是在具有复杂情景的长视频中。这凸显了其鲁棒性和多模态整合能力。

本研究的深入实验揭示了VideoMamba在短期（K400和SthSthV2）和长期（Breakfast，COIN和LVU）视频内容理解方面的巨大潜力。VideoMamba表现出高效性和准确性，预示着它将成为长视频理解领域的关键组成部分。为了促进未来研究的进展，所有的代码和模型都已经开源。