用CNN做基础模型，可变形卷积InternImage实现检测分割新纪录！

WBOY

发布时间：2023-04-12 08:19:08

2175人浏览过

来源于51CTO.COM

转载

近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看，传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力；从结构层面看，传统 CNNs 结构缺乏先进组件。

针对上述技术问题，来自浦江实验室、清华等机构的研究人员创新地提出了一个基于卷积神经网络的大规模模型，称为 InternImage，它将稀疏动态卷积作为核心算子，通过输入相关的信息为条件实现自适应空间聚合。InternImage 通过减少传统 CNN 的严格归纳偏置实现了从海量数据中学习到更强大、更稳健的大规模参数模式。其有效性在包括图像分类、目标检测和语义分割等视觉任务上得到了验证。并在 ImageNet、COCO 和 ADE20K 在内的挑战性基准数据集中取得了具有竞争力的效果，在同参数量水平的情况下，超过了视觉 Transformer 结构，为图像大模型提供了新的方向。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/abs/2211.05778
开源代码：https://github.com/OpenGVLab/InternImage

传统卷积神经网络的局限

扩大模型的规模是提高特征表示质量的重要策略，在计算机视觉领域，模型参数量的扩大不仅能够有效加强深度模型的表征学习能力，而且能够实现从海量数据中进行学习和知识获取。ViT 和 Swin Transformer 首次将深度模型扩大到 20 亿和 30 亿参数级别，其单模型在 ImageNet 数据集的分类准确率也都突破了 90%，远超传统 CNN 网络和小规模模型，突破了技术瓶颈。但是，传统的 CNN 模型由于缺乏长距离依赖和空间关系建模能力，无法实现同 Transformer 结构相似的模型规模扩展能力。研究者总结了传统卷积神经网络与视觉 Transformer 的不同之处：

（1）从算子层面来看，视觉 Transformer 的多头注意力机制具有长距离依赖和自适应空间聚合能力，受益于此，视觉 Transformer 可以从海量数据中学到比 CNN 网络更加强大和鲁棒的表征。

（2）从模型架构层面来看，除了多头注意力机制，视觉 Transformer 拥有 CNN 网络不具有的更加先进的模块，例如 Layer Normalization (LN), 前馈神经网络 FFN, GELU 等。

尽管最近的一些工作尝试使用大核卷积来获取长距离依赖，但是在模型尺度和精度方面都与最先进的视觉 Transformer 有着一定距离。

可变形卷积网络的进一步拓展

InternImage 通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置，包括（1）DCNv3 算子，基于 DCNv2 算子引入共享投射权重、多组机制和采样点调制。（2）基础模块，融合先进模块作为模型构建的基本模块单元（3）模块堆叠规则，扩展模型时规范化模型的宽度、深度、组数等超参数。

该工作致力于构建一个能够有效地扩展到大规模参数的 CNN 模型。首先，重新设计的可变形卷积算子 DCNv2 以适应长距离依赖和弱化归纳偏置；然后，将调整后的卷积算子与先进组件相结合，建立了基础单元模块；最后，探索并实现模块的堆叠和缩放规则，以建立一个具有大规模参数的基础模型，并且可以从海量数据中学习到强大的表征。

算子层面，该研究首先总结了卷积算子与其他主流算子的主要区别。当前主流的 Transformer 系列模型主要依靠多头自注意力机制实现大模型构建，其算子具有长距离依赖性，足以构建远距离特征间的连接关系，还具有空间的自适应聚合能力以实现构建像素级别的关系。但这种全局的注意力机制其计算和存储需求量巨大，很难实现高效训练和快速收敛。同样的，局部注意力机制缺乏远距离特征依赖。大核密集卷积由于没有空间聚合能力，而难以克服卷积天然的归纳偏置，不利于扩大模型。因此，InternImage 通过设计动态稀疏卷积算子，达到实现全局注意力效果的同时不过多浪费计算和存储资源，实现高效训练。

研究者基于 DCNv2 算子，重新设计调整并提出 DCNv3 算子，具体改进包括以下几个部分。

（1）共享投射权重。与常规卷积类似，DCNv2 中的不同采样点具有独立的投射权重，因此其参数大小与采样点总数呈线性关系。为了降低参数和内存复杂度，借鉴可分离卷积的思路，采用与位置无关的权重代替分组权重，在不同采样点之间共享投影权重，所有采样位置依赖性都得以保留。

（2）引入多组机制。多组设计最早是在分组卷积中引入的，并在 Transformer 的多头自注意力中广泛使用，它可以与自适应空间聚合配合，有效地提高特征的多样性。受此启发，研究者将空间聚合过程分成若干组，每个组都有独立的采样偏移量。自此，单个 DCNv3 层的不同组拥有不同的空间聚合模式，从而产生丰富的特征多样性。

（3）采样点调制标量归一化。为了缓解模型容量扩大时的不稳定问题，研究者将归一化模式设定为逐采样点的 Softmax 归一化，这不仅使大规模模型的训练过程更加稳定，而且还构建了所有采样点的连接关系。

构建 DCNv3 算子之后，接下来首先需要规范化模型的基础模块和其他层的整体细节，然后通过探索这些基础模块的堆叠策略，构建 InternImage。最后，根据所提出模型的扩展规则，构建不同参数量的模型。

基础模块。与传统 CNN 中广泛使用的瓶颈结构不同，该研究采用了更接近 ViTs 的基础模块，配备了更先进的组件，包括 GELU、层归一化（LN）和前馈网络（FFN），这些都被证明在各种视觉任务中更有效率。基础模块的细节如上图所示，其中核心算子是 DCNv3，通过将输入特征通过一个轻量级的可分离卷积来预测采样偏置和调制尺度。对于其他组件，遵循与普通 Transformer 相同的设计。

叠加规则。为了明确区块堆叠过程，该研究提出两条模块堆叠规则，其中第一条规则是后三个阶段的通道数，由第一阶段的通道数决定，即；第二条规则是各模块组号与各阶段的通道数对应，即；第三，堆叠模式固定为 “AABA”，即第 1、2 和 4 阶段的模块堆叠数是相同的，并且不大于第 3 阶段。由此选择将参数量为 30M 级别的模型作为基础，其具体参数为：Steam 输出通道数为 64；分组数为每个阶段输入通道数的 1/16，第 1、2、4 阶段的模块堆叠数为 4，第 3 阶段的模块堆叠数为 18，模型参数为 30M。

模型缩放规则。基于上述约束条件下的最优模型，该研究规范化了网络模型的两个缩放维度：即深度 D（模块堆叠数）和宽度 C（通道数），利用限制因子和沿着复合系数对深度和宽度进行缩放，即，，其中，根据实验其最佳设置为。

按照此规则，该研究构建了不同尺度的模型，即 InternImage-T、S、B、L、XL。具体参数为：

实验结果

图像分类实验：通过使用 427M 的公共数据集合：Laion-400M，YFCC15M，CC12M，InternImage-H 在 ImageNet-1K 的精度达到了 89.2%。

目标检测：以最大规模的 InternImage-H 为骨干网络，并使用 DINO 作为基础检测框架，在 Objects365 数据集上预训练 DINO 检测器，然后在 COCO 上进行微调。该模型在目标检测任务中达到了 65.4% 的最优结果，突破了 COCO 目标检测的性能边界。

语义分割：在语义分割上，InternImage-H 同样取得了很好的性能，结合 Mask2Former 在 ADE20K 上取得了当前最高的 62.9%。

结论

该研究提出了 InternImage，这是一种新的基于 CNN 的大规模基础模型，可以为图像分类、对象检测和语义分割等多功能视觉任务提供强大的表示。研究者调整灵活的 DCNv2 算子以满足基础模型的需求，并以核心算子为核心开发了一系列的 block、stacking 和 scaling 规则。目标检测和语义分割基准的大量实验验证了 InternImage 可以获得与经过大量数据训练、且精心设计的大规模视觉 Transformer 相当或更好的性能，这表明 CNN 也是大规模视觉基础模型研究的一个相当大的选择。尽管如此，大规模的 CNN 仍处于早期发展阶段，研究人员希望 InternImage 可以作为一个很好的起点。

QClaw新版本和旧版本有什么区别_QClaw版本差异介绍【介绍】

QClaw运行特别卡怎么办_QClaw性能优化与硬件配置建议【技巧】

Cursor自动修改代码问题怎么用_修复方法是什么【操作】

workbuddy部署后验证方法_workbuddy部署验证教程【教程】

Ollama如何下载热门大模型_Ollama模型安装方法【教程】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：摔倒检测，基于骨骼点人体动作识别，部分代码用 Chatgpt 完成下一篇：Wandb不可缺少的机器学习分析工具

作者最新文章

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04