视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

WBOY

发布时间：2024-01-22 15:21:11

1284人浏览过

来源于51CTO.COM

转载

transformer在大模型领域的地位无可撼动。然而，随着模型规模的扩展和序列长度的增加，传统的transformer架构的局限性开始凸显。幸运的是，mamba的问世正在迅速改变这一现状。它出色的性能立即引起了ai界的轰动。mamba的出现为大规模模型的训练和序列处理带来了巨大的突破。它的优势在ai界迅速蔓延，为未来的研究和应用带来了巨大的希望。

上周四， Vision Mamba（Vim）的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天，中国科学院、华为、鹏城实验室的研究人员提出了 VMamba：一种具有全局感受野、线性复杂度的视觉 Mamba 模型。这项工作标志着视觉 Mamba 模型 Swin 时刻的来临。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文标题：VMamba: Visual State Space Model
论文地址: https://arxiv.org/abs/2401.10166
代码地址: https://github.com/MzeroMiko/VMamba

CNN 和视觉 Transformer（ViT）是当前最主流的两类基础视觉模型。尽管 CNN 具有线性复杂度，ViT 具有更为强大的数据拟合能力，然而代价是计算复杂较高。研究者认为 ViT 之所以拟合能力强，是因为其具有全局感受野和动态权重。受 Mamba 模型的启发，研究者设计出一种在线性复杂度下同时具有这两种优秀性质的模型，即 Visual State Space Model（VMamba）。大量的实验证明，VMamba 在各种视觉任务中表现卓越。如下图所示，VMamba-S 在 ImageNet-1K 上达到 83.5% 的正确率，比 Vim-S 高 3.2%，比 Swin-S 高 0.5%。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

方法介绍

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

VMamba 的成功关键在于采用了 S6 模型，这个模型最初是为了解决自然语言处理（NLP）任务而设计的。与 ViT 的注意力机制不同，S6 模型通过将 1D 向量中的每个元素与之前的扫描信息进行交互，有效地将二次复杂度降低为线性。这种交互方式使得 VMamba 在处理大规模数据时更加高效。因此，S6 模型的引入为 VMamba 的成功打下了坚实的基础。

然而，由于视觉信号（如图像）不像文本序列那样具有天然的有序性，因此无法在视觉信号上简单地对 S6 中的数据扫描方法进行直接应用。为此研究者设计了 Cross-Scan 扫描机制。Cross-Scan 模块（CSM）采用四向扫描策略，即从特征图的四个角同时扫描（见上图）。该策略确保特征中的每个元素都以不同方向从所有其他位置整合信息，从而形成全局感受野，又不增加线性计算复杂度。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

在 CSM 的基础上，作者设计了 2D-selective-scan（SS2D）模块。如上图所示，SS2D 包含了三个步骤：

scan expand 将一个 2D 特征沿 4 个不同方向（左上、右下、左下、右上）展平为 1D 向量。
S6 block 独立地将上步得到的 4 个 1D 向量送入 S6 操作。
scan merge 将得到的 4 个 1D 向量融合为一个 2D 特征输出。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

上图为本文提出的 VMamba 结构图。VMamba 的整体框架与主流的视觉模型类似，其主要区别在于基本模块（VSS block）中采用的算子不同。VSS block 采用了上述介绍的 2D-selective-scan 操作，即 SS2D。SS2D 保证了 VMamba 在线性复杂度的代价下实现全局感受野。

实验结果

ImageNet 分类

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

通过对比实验结果不难看出，在相似的参数量和 FLOPs 下:

VMamba-T 取得了 82.2% 的性能，超过 RegNetY-4G 达 2.2%、DeiT-S 达 2.4%、Swin-T 达 0.9%。
VMamba-S 取得了 83.5% 的性能，超过 RegNetY-8G 达 1.8%，Swin-S 达 0.5%。
VMamba-B 取得了 83.2% 的性能（有 bug，正确结果将尽快在 Github 页面更新），比 RegNetY 高 0.3%。

这些结果远高于 Vision Mamba (Vim) 模型，充分验证了 VMamba 的潜力。

COCO 目标检测

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

在 COOCO 数据集上，VMamba 也保持卓越性能：在 fine-tune 12 epochs 的情况下，VMamba-T/S/B 分别达到 46.5%/48.2%/48.5% mAP，超过了 Swin-T/S/B 达 3.8%/3.6%/1.6% mAP，超过 ConvNeXt-T/S/B 达 2.3%/2.8%/1.5% mAP。这些结果验证了 VMamba 在视觉下游实验中完全 work，展示出了能平替主流基础视觉模型的潜力。

ADE20K 语义分割

68爱写

专业高质量AI4.0论文写作平台，免费生成大纲，支持无线改稿

下载

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

在 ADE20K 上，VMamba 也表现出卓越性能。VMamba-T 模型在 512 × 512 分辨率下实现 47.3% 的 mIoU，这个分数超越了所有竞争对手，包括 ResNet，DeiT，Swin 和 ConvNeXt。这种优势在 VMamba-S/B 模型下依然能够保持。

分析实验

有效感受野

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

VMamba 具有全局的有效感受野，其他模型中只有 DeiT 具有这个特性。但是值得注意的是，DeiT 的代价是平方级的复杂度，而 VMamaba 是线性复杂度。

输入尺度缩放

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

上图（a）显示，VMamba 在不同输入图像尺寸下展现出最稳定的性能（不微调）。有意思的是，随着输入尺寸从 224 × 224 增加到 384 × 384，只有 VMamba 表现出性能明显上升的趋势（VMamba-S 从 83.5% 上升到 84.0%），突显了其对输入图像大小变化的稳健性。
上图（b）显示，VMamba 系列模型随着输入变大，复杂性呈线性增长，这与 CNN 模型是一致的。

最后，让我们期待更多基于 Mamba 的视觉模型被提出，并列于 CNNs 和 ViTs，为基础视觉模型提供第三种选择。

ai菜单栏怎么调出来_ai软件菜单栏不见了怎么恢复显示【技巧】

MagicAgent— 荣耀联合复旦推出的智能体基础模型

如何快速生成不同规格的视频脚本利用ChatGPT适配抖音小红书不同节奏

ai数字人直播间怎么搭建_ai数字人直播搭建全流程【攻略】

ai形状生成器工具怎么用_ai形状生成器使用教程【技巧】

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

2025.09.05

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.16

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

2025.11.17

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.27

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

3647

2026.01.21

vim保存退出命令

vim是一个非常强大的文本编辑器，常用于Unix和Linux系统。它是从vi发展而来的，相比vi有许多改进和扩展。在vim中，保存并退出的命令是：wq"wq"这个命令是由两个部分组成的。其中，"w"表示写入文件，将所做的更改保存到磁盘;而"q"表示退出vim编辑器。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

269

2023.08.01

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

374

2026.01.27

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2835

2024.08.16

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板