0

0

屠榜CV!Swin TransFromer 你又该换Backbone了!

P粉084495128

P粉084495128

发布时间:2025-08-01 10:11:30

|

584人浏览过

|

来源于php中文网

原创

本文介绍Swin Transformer相关知识,对比其与ViT的区别:Swin采用窗口理念和不同下采样倍数,减少计算量且提升性能。还讲解了其Patch层、PatchMerging层、Mlp层及Swin Transformer Block层的实现,包括各层作用、代码和参数等。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

屠榜cv!swin transfromer 你又该换backbone了! - php中文网

前情提要

大家好呀,VIsion Transformer已经到第六天了随着时间的推移,难度也是在也来越大的,相信大家已经从ResNet学习到了ViT Transformer再到Diet,今天更是学习到了2021的ICCV最佳论文Swin Transformer,Swin Transformer今年在各大磅单上更是直接屠榜,COCO验证集前8全是使用Swin刷榜,而Swin原本的论文才是第八,前七全是Swin的再创新,https://paperswithcode.com/sota/object-detection-on-coco-minival?p=end-to-end-semi-supervised-object-detection 。如果今天的笔记能够帮助到你那么绝对是我莫大的荣幸。

Swin 与 VIT 的区别

Swin 与 Vit 的区别可以用一张图来说明

屠榜CV!Swin TransFromer 你又该换Backbone了! - php中文网        

相比较Vit直接下采样16倍,Swin使用了窗口的理念,并使用不同的下采样倍数,并且不同的窗口的计算是互不干扰的,这样相比较Vit,大大减少了计算量并有效的获得了性能上的提升

Patch层讲解

如果你已经学过ViT的话,你应该知道VIT拥有一个PatchEmbedding层它负责将一批RGB图像由四维映射成为三维

[B,C,H,W]->[B,H*W/N/N,C*N*N]
       

而Swin中PatchEmbedding 的职责由Patch Partition承担,由于朱老师的PPT暂未放出所以这里引用的B站up霹雳吧啦Wz的PPT。

屠榜CV!Swin TransFromer 你又该换Backbone了! - php中文网        

由于Swin Transformer不像VIt一样,Swin Fransformer是多次下采样,第一次下采样使用的是4x4的卷积核

之后会通过一个全链接层也叫Linear Embedding层将通道数由48转换为C,而其全貌则为。屠榜CV!Swin TransFromer 你又该换Backbone了! - php中文网        

但是在Swin Transformer的代码实现中是直接将Patch Partition与Linear Embedding合而为一,直接使用一个卷积核4x4大小 stride为4的卷积核直接将通道数由3转换为C。

In [1]
import paddleimport paddle.nn as nn
   
In [2]
class PatchEmbed(nn.Layer):
    """
    2D Image to Patch Embedding
    """
    def __init__(self, patch_size=4, in_c=3, embed_dim=96, norm_layer=nn.LayerNorm):
        super().__init__()
        patch_size = (patch_size, patch_size)
        self.patch_size = patch_size
        self.in_chans = in_c
        self.embed_dim = embed_dim
        self.proj = nn.Conv2D(in_c, embed_dim, kernel_size=patch_size, stride=patch_size)
        self.norm = norm_layer(embed_dim) if norm_layer else nn.Identity()    def forward(self, x):
        _, _, H, W = x.shape        # # padding
        # # 如果输入图片的H,W不是patch_size的整数倍,需要进行padding
        # pad_input = (H % self.patch_size[0] != 0) or (W % self.patch_size[1] != 0)
        # if pad_input:
        #     # to pad the last 3 dimensions,
        #     # (W_left, W_right, H_top,H_bottom, C_front, C_back)
        #     x = F.pad(x, (0, self.patch_size[1] - W % self.patch_size[1],
        #                   0, self.patch_size[0] - H % self.patch_size[0],
        #                   0, 0))
         # 下采样patch_size倍
        x = self.proj(x)
        _, _, H, W = x.shape        # flatten: [B, C, H, W] -> [B, C, HW]
        # transpose: [B, C, HW] -> [B, HW, C]
        x = paddle.transpose(x.flatten(2),(0,2,1))
        x = self.norm(x)        print(x.shape)        return x, H, W
   
In [3]
model = PatchEmbed()
paddle.summary(model,(8,3,224,224))
       
[8, 3136, 96]
---------------------------------------------------------------------------
 Layer (type)       Input Shape          Output Shape         Param #    
===========================================================================
   Conv2D-1      [[8, 3, 224, 224]]    [8, 96, 56, 56]         4,704     
  LayerNorm-1     [[8, 3136, 96]]       [8, 3136, 96]           192      
===========================================================================
Total params: 4,896
Trainable params: 4,896
Non-trainable params: 0
---------------------------------------------------------------------------
Input size (MB): 4.59
Forward/backward pass size (MB): 36.75
Params size (MB): 0.02
Estimated Total Size (MB): 41.36
---------------------------------------------------------------------------
       
{'total_params': 4896, 'trainable_params': 4896}
               

PatchMerging讲解

由于Swin需要经理四次下采样,而第一次下采样是由patchemmedding 层进行处理,而之后还有三次就是由PatchMerging进行。PatchMerging会将特征图的宽和高再次下采样两倍,并且使得通道数Cx2。这里引用的图解也是引用的B站up霹雳吧啦Wz的PPT。

阿里云AI平台
阿里云AI平台

阿里云AI平台

下载

屠榜CV!Swin TransFromer 你又该换Backbone了! - php中文网        

首先我们使用一个2x2大小的卷积核作为窗口,每个窗口都有四个像素,那么我就就把每个窗口相同位置的像素取出,并得到如第二个一样的四个特征矩阵,之后会对这四个特征矩阵在C纬度进行拼接也就得到了4xC,之后再进行一个LinearNorm层,最后通过一个Linear层进行一个线性映射变为2xC。这样 X的shape就变成了

[H/4,W/4,C]->[H/8,W/8,2*C]
   
In [4]
class PatchMerging(nn.Layer):
    r""" Patch Merging Layer.
    Args:
        dim (int): Number of input channels.
        norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
    """

    def __init__(self, dim, norm_layer=nn.LayerNorm):
        super().__init__()
        self.dim = dim
        self.reduction = nn.Linear(4 * dim, 2 * dim, bias_attr=False)
        self.norm = norm_layer(4 * dim)    def forward(self, x, H=224//4, W=224//4):
        """
        x: B, H*W, C
        """
        B, L, C = x.shape        print(x.shape)        assert L == H * W, "input feature has wrong size"

        x = paddle.reshape(x,(B, H, W, C))        # # padding
        # # 如果输入feature map的H,W不是2的整数倍,需要进行padding
        # pad_input = (H % 2 == 1) or (W % 2 == 1)
        # if pad_input:
        #     # to pad the last 3 dimensions, starting from the last dimension and moving forward.
        #     # (C_front, C_back, W_left, W_right, H_top, H_bottom)
        #     # 注意这里的Tensor通道是[B, H, W, C],所以会和官方文档有些不同
        #     x = F.pad(x, (0, 0, 0, W % 2, 0, H % 2))

        x0 = x[:, 0::2, 0::2, :]  # [B, H/2, W/2, C]
        x1 = x[:, 1::2, 0::2, :]  # [B, H/2, W/2, C]
        x2 = x[:, 0::2, 1::2, :]  # [B, H/2, W/2, C]
        x3 = x[:, 1::2, 1::2, :]  # [B, H/2, W/2, C]
        x = paddle.concat([x0, x1, x2, x3], -1)  # [B, H/2, W/2, 4*C]
        x = paddle.reshape(x,(B, -1, 4 * C))  # [B, H/2*W/2, 4*C]

        x = self.norm(x)
        x = self.reduction(x)  # [B, H/2*W/2, 2*C]
        print(x.shape)        return x
   
In [5]
model = PatchMerging(96)
paddle.summary(model,(8,3136,96))
       
[8, 3136, 96]
[8, 784, 192]
---------------------------------------------------------------------------
 Layer (type)       Input Shape          Output Shape         Param #    
===========================================================================
  LayerNorm-2     [[8, 784, 384]]       [8, 784, 384]           768      
   Linear-1       [[8, 784, 384]]       [8, 784, 192]         73,728     
===========================================================================
Total params: 74,496
Trainable params: 74,496
Non-trainable params: 0
---------------------------------------------------------------------------
Input size (MB): 9.19
Forward/backward pass size (MB): 27.56
Params size (MB): 0.28
Estimated Total Size (MB): 37.03
---------------------------------------------------------------------------
       
{'total_params': 74496, 'trainable_params': 74496}
               

Swin TansFormer Block 讲解

与VIT TransFormer的Block层相似,Swin TransFormer与之不同的就是使用了S-MSA与SW-MSA来代替MSA,其他都没有改变屠榜CV!Swin TransFromer 你又该换Backbone了! - php中文网        

S-SMA与SW-MSA暂时有点难,咱们分到明天再去进行讲解,今天咱们先把整个Block模块进行实现

可以看到Block层是先经过一个LayerNorm然后经过S-MSA或者SW-MSA然后在进过一个Dropout或者是DropPath层,然后进行一个短接,然后再进行一个LayerNrom之后再进行一个Mlp再接一个Dropout或者是DropPath层,然后再来一个短接,这样一个Block层就实现了。

下面我先先来实现之前已经讲过Mlp层。

Mlp讲解

屠榜CV!Swin TransFromer 你又该换Backbone了! - php中文网        

Mlp之前朱老师已经讲的很清楚了就是一个Linear层将通道数×4,然后经过GELU激活函数,然后再经过一个Dropout层再经过一个Linear层将通道数变回到原来的通道数,之后再接一个Dropout层

In [6]
class Mlp(nn.Layer):
    """ MLP as used in Vision Transformer, MLP-Mixer and related networks
    """
    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):
        super().__init__()
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features

        self.fc1 = nn.Linear(in_features, hidden_features)
        self.act = act_layer()
        self.drop1 = nn.Dropout(drop)
        self.fc2 = nn.Linear(hidden_features, out_features)
        self.drop2 = nn.Dropout(drop)    def forward(self, x):
        print(x.shape)
        x = self.fc1(x)
        x = self.act(x)
        x = self.drop1(x)
        x = self.fc2(x)
        x = self.drop2(x)        print(x.shape)        return x
   
In [7]
model = Mlp(768)
paddle.summary(model,(8,197,768))
       
[8, 197, 768]
[8, 197, 768]
---------------------------------------------------------------------------
 Layer (type)       Input Shape          Output Shape         Param #    
===========================================================================
   Linear-2       [[8, 197, 768]]       [8, 197, 768]         590,592    
    GELU-1        [[8, 197, 768]]       [8, 197, 768]            0       
   Dropout-1      [[8, 197, 768]]       [8, 197, 768]            0       
   Linear-3       [[8, 197, 768]]       [8, 197, 768]         590,592    
   Dropout-2      [[8, 197, 768]]       [8, 197, 768]            0       
===========================================================================
Total params: 1,181,184
Trainable params: 1,181,184
Non-trainable params: 0
---------------------------------------------------------------------------
Input size (MB): 4.62
Forward/backward pass size (MB): 46.17
Params size (MB): 4.51
Estimated Total Size (MB): 55.29
---------------------------------------------------------------------------
       
{'total_params': 1181184, 'trainable_params': 1181184}
               

SwinTransformerBlock层实现

下面就是Block层的实现,这里有一个WindowAttention就是S-MSA与SW-MSA的实现,这里就先简单定义一下,没有任何内容。

In [8]
class WindowAttention(nn.Layer):
    def __init__(self,dim, window_size, num_heads, qkv_bias,attn_drop, proj_drop):
        super().__init__()        pass
    def forward(self,x):
        return x,x
   
In [9]
class SwinTransformerBlock(nn.Layer):
    """ Swin Transformer Block.
        dim (int): Number of input channels.
        num_heads (int): Number of attention heads.
        window_size (int): Window size.
        shift_size (int): Shift size for SW-MSA.
        mlp_ratio (float): Ratio of mlp hidden dim to embedding dim.
        qkv_bias (bool, optional): If True, add a learnable bias to query, key, value. Default: True
        drop (float, optional): Dropout rate. Default: 0.0
        attn_drop (float, optional): Attention dropout rate. Default: 0.0
        drop_path (float, optional): Stochastic depth rate. Default: 0.0
        act_layer (nn.Module, optional): Activation layer. Default: nn.GELU
        norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
    """
    def __init__(self, dim, num_heads, window_size=7, shift_size=0,
            mlp_ratio=4., qkv_bias=True, drop=0., attn_drop=0., drop_path=0.,
            act_layer=nn.GELU, norm_layer=nn.LayerNorm):
        super().__init__()
        self.dim = dim
        self.num_heads = num_heads
        self.window_size = window_size
        self.shift_size = shift_size
        self.mlp_ratio = mlp_ratio        assert 0 <= self.shift_size < self.window_size, "shift_size must in 0-window_size"

        self.norm1 = norm_layer(dim)
        self.attn = WindowAttention(
            dim, window_size=(self.window_size, self.window_size), num_heads=num_heads, qkv_bias=qkv_bias,
            attn_drop=attn_drop, proj_drop=drop)

        self.drop_path = nn.Dropout(0) #if drop_path > 0. else nn.Identity()
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)    def forward(self, x):
        H, W = 56, 56
        B, L, C = x.shape        assert L == H * W, "input feature has wrong size"

        shortcut = x
        x = self.norm1(x)
        x = paddle.reshape(x,(B, H, W, C))        # # pad feature maps to multiples of window size
        # # 把feature map给pad到window size的整数倍
        # pad_l = pad_t = 0
        # pad_r = (self.window_size - W % self.window_size) % self.window_size
        # pad_b = (self.window_size - H % self.window_size) % self.window_size
        # x = F.pad(x, (0, 0, pad_l, pad_r, pad_t, pad_b))
        _, Hp, Wp, _ = x.shape#--------------------------------------------------------------------------------------------------##                           S-MSA暂不处理,下次再说#--------------------------------------------------------------------------------------------------#
        # # cyclic shift
        # if self.shift_size > 0:
        #     shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
        # else:
        #     shifted_x = x
        #     attn_mask = None

        # # partition windows
        # x_windows = window_partition(shifted_x, self.window_size)  # [nW*B, Mh, Mw, C]
        # x_windows = x_windows.view(-1, self.window_size * self.window_size, C)  # [nW*B, Mh*Mw, C]

        # # W-MSA/SW-MSA
        # attn_windows = self.attn(x_windows, mask=attn_mask)  # [nW*B, Mh*Mw, C]

        # # merge windows
        # attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C)  # [nW*B, Mh, Mw, C]
        # shifted_x = window_reverse(attn_windows, self.window_size, Hp, Wp)  # [B, H', W', C]

        # # reverse cyclic shift
        # if self.shift_size > 0:
        #     x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
        # else:
        #     x = shifted_x

        # if pad_r > 0 or pad_b > 0:
        #     # 把前面pad的数据移除掉
        #     x = x[:, :H, :W, :].contiguous()#--------------------------------------------------------------------------------------------------#
        x = paddle.reshape(x,(B,H*W,C))

        x = shortcut + self.drop_path(x)
        x = x + self.drop_path(self.mlp(self.norm2(x)))        return x
   
In [10]
model = SwinTransformerBlock(96,3)
paddle.summary(model,(8,3136,96))
       
[8, 3136, 96]
[8, 3136, 96]
---------------------------------------------------------------------------
 Layer (type)       Input Shape          Output Shape         Param #    
===========================================================================
  LayerNorm-3     [[8, 3136, 96]]       [8, 3136, 96]           192      
   Dropout-3      [[8, 3136, 96]]       [8, 3136, 96]            0       
  LayerNorm-4     [[8, 3136, 96]]       [8, 3136, 96]           192      
   Linear-4       [[8, 3136, 96]]       [8, 3136, 384]        37,248     
    GELU-2        [[8, 3136, 384]]      [8, 3136, 384]           0       
   Dropout-4      [[8, 3136, 384]]      [8, 3136, 384]           0       
   Linear-5       [[8, 3136, 384]]      [8, 3136, 96]         36,960     
   Dropout-5      [[8, 3136, 96]]       [8, 3136, 96]            0       
     Mlp-2        [[8, 3136, 96]]       [8, 3136, 96]            0       
===========================================================================
Total params: 74,592
Trainable params: 74,592
Non-trainable params: 0
---------------------------------------------------------------------------
Input size (MB): 9.19
Forward/backward pass size (MB): 330.75
Params size (MB): 0.28
Estimated Total Size (MB): 340.22
---------------------------------------------------------------------------
       
{'total_params': 74592, 'trainable_params': 74592}
               

相关文章

Windows激活工具
Windows激活工具

Windows激活工具是正版认证的激活工具,永久激活,一键解决windows许可证即将过期。可激活win7系统、win8.1系统、win10系统、win11系统。下载后先看完视频激活教程,再进行操作,100%激活成功。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

46

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

51

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

171

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.6万人学习

Excel 教程
Excel 教程

共162课时 | 21.3万人学习

PHP基础入门课程
PHP基础入门课程

共33课时 | 2.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号