【论文复现赛】ResNet18_3D

P粉084495128

发布时间：2025-07-24 11:47:26

488人浏览过

来源于php中文网

原创

本文复现了3D ResNet-18在UCF-101数据集的表现，旨在验证视频数据集训练深3D卷积网络的可行性。基于PaddleVideo，修改2D ResNet-18得到3D网络，不使用预训练权重，经数据处理、训练等步骤，最终在UCF-101验证集准确率达43.98%，超目标值42.4%，印证相关结论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【论文复现赛】resnet18_3d - php中文网

【论文复现赛】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

本文的目标是检验当前的视频数据集是否有充足的数据来训练非常深的3D卷积神经网络(原文：The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks with spatio-temporal three-dimensional kernels)，作者在当前的数据集上使用不同深度的网络进行了实验，得到以下几个结论：
1、ResNet-18在UCF-101，HMDB-51,ActivityNet数据集上过拟合，Kinetics数据集未过拟合；
2、Kinetics数据集有充分的数据训练深的3D卷积网络；
3、网络加载在Kinetics数据集预训练的权重，在其他数据集（UCF-101/HMDB-51）上也可以得到不错的效果。
本次复现的目标是不使用预训练权重，在UCF-101数据集准确率达到42.4%，本次复现的准确率为43.98%，本次复现基于PaddleVideo。
代码参考：
1、https://github.com/kenshohara/3D-ResNets-PyTorch/tree/CVPR2018
2、【从零开始学视觉Transformer】
本项目地址：https://github.com/justld/3D-ResNets_paddle

一、网络结构

【论文复现赛】ResNet18_3D - php中文网
上图未本文实验使用的不同网络结构，红框部分为本次复现的网络结构(ResNet18_3D)，ResNet18结构非常简单，而且巧合的是在本次论文复现赛期间官方推出了【从零开始学视觉Transformer】课程，第一节课朱老师就带着大家写了一个ResNet18（2D CNN），只需要对该模型稍加修改即可得到ResNet18_3D,非常感谢朱老师的激情讲解。

二、实验结果

【论文复现赛】ResNet18_3D - php中文网
上表为各个模型在UCF-101和HMDB-51数据集上的准确率，Scratch表示未加载Kinetics权重从头训练，未标明Scratch表示使用Kinetics数据集预训练权重。可以看出，使用Kinetics数据集预训练权重可以显著提高准确率，缓解UCF-101和HMDB-51数据集数据不充分的问题。

三、核心代码

class ConvBNRelu(nn.Layer):
    def __init__(self, in_channels, out_channels, kernel_size, **kwargs):        super().__init__()        self.conv = nn.Conv3D(in_channels, out_channels, kernel_size=kernel_size, **kwargs)        self.bn = nn.BatchNorm3D(out_channels)        self.relu = nn.ReLU()    def forward(self, x):
        x = self.conv(x)
        x = self.bn(x)
        x = self.relu(x)        return xclass Block(nn.Layer):
    def __init__(self, in_channels, out_channels, stride=1):        super().__init__()        self.block = nn.Sequential(
            ConvBNRelu(in_channels, out_channels, 3, stride=stride, padding='same'),
            nn.Conv3D(out_channels, out_channels, 3, stride=1, padding='same'),
            nn.BatchNorm3D(out_channels),
        )        if in_channels != out_channels or stride != 2:            self.downsample = nn.Sequential(
                nn.Conv3D(in_channels, out_channels, kernel_size=1, stride=stride),
                nn.BatchNorm3D(out_channels),
            )        else:
            self.downsample = Identity()        self.relu = nn.ReLU()    
    def forward(self, x):
        res = self.downsample(x)
        x = self.block(x)
        x = self.relu(x + res)        return xclass Identity(nn.Layer):
    def __init__(self):        super().__init__()    
    def forward(self, x):        return x@BACKBONES.register()class ResNet18(nn.Layer):
    def __init__(self, in_channels=3, num_seg=8):        super(ResNet18, self).__init__()        self.num_seg = num_seg        self.stem = nn.Sequential(
            ConvBNRelu(in_channels, 64, kernel_size=7, stride=(1, 2, 2), padding=(3, 3, 3), bias_attr=False),
            nn.MaxPool3D(kernel_size=(3, 3, 3), stride=2, padding=1),
        )        self.layer1 = self._make_layer(64, 64, 2, 1)        self.layer2 = self._make_layer(64, 128, 2, 2)        self.layer3 = self._make_layer(128, 256, 2, 2)        self.layer4 = self._make_layer(256, 512, 2, 2)        self.pool = nn.AdaptiveAvgPool3D(1)    def _make_layer(self, in_channels, out_channels, n_blocks, stride=1):
        layer_list = []
        layer_list.append(Block(in_channels, out_channels, stride))        for i in range(1, n_blocks):
            layer_list.append(Block(out_channels, out_channels))        return nn.Sequential(*layer_list)    def forward(self, x):
        nt, c, h, w = x.shape
        x = x.reshape([-1, self.num_seg, c, h, w]).transpose([0, 2, 1, 3, 4]) # N, C, T, H, W
        x = self.stem(x)
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x) # N, C, T, H, W
        x = self.pool(x).reshape([paddle.shape(x)[0], -1]) # N, C
        return x

Jquery实现超酷的树形排列评论列表时间轴

Jquery实现超酷的树形排列评论列表时间轴, 个人网站中使用就不错了。比如留言的功能，然后还有回复，这样的效果也是不错的，php中文网推荐下载！

下载

上述代码根据【从零开始学视觉Transformer】实战作业ResNet18修改而成，没上课的同学快去看看吧。

四、在线体验

实现ResNet18_3D在UCF-101训练、验证、预测，只需要以下几步：
1、解压数据集
2、处理数据，从视频数据集提取帧，可参考PaddleVideo处理UCF-101数据集的方法
3、安装依赖包
4、训练
5、验证精度
6、模型导出
7、模型预测

In [ ]

# step 1: 解压数据集%cd ~/data/data105621/
!unzip -oq UCF101.zip%cd ~/

In [ ]

# step 2: 下载标注文件，生成list, 这里需要的时间比较长(约半小时)，请耐心等待%cd ~/PaddleVideo/data/ucf101/
%cp -r /home/aistudio/data/data105621/UCF-101 ~/PaddleVideo/data/ucf101/videos# !bash download_annotations.sh # 此版本已经提供了标注信息，下载有时候网络不给力!python extract_rawframes.py ./videos/ ./rawframes/ --level 2 --ext avi
!python build_ucf101_file_list.py rawframes/ --level 2 --format rawframes --out_list_path ./

In [ ]

# step 3: pip install requirements%cd ~/PaddleVideo/
!pip install -r requirements.txt

In [ ]

# step 4: training%cd /home/aistudio/PaddleVideo/
!python3 main.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --validate --seed=10001

In [ ]

# step 5: test%cd /home/aistudio/PaddleVideo/
!python3 main.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --test -w output/Res18/Res18_best.pdparams

In [ ]

# step 6: export model!python3.7 tools/export_model.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml -p output/Res18/Res18_best.pdparams -o inference/Res18_3D

In [ ]

# step 7: predict，用数据集中的一个数据预测一下，该视频类别为：0%cd /home/aistudio/PaddleVideo/
!python3.7 tools/predict.py --config configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --input_file /home/aistudio/data/data105621/UCF-101/ApplyEyeMakeup/v_ApplyEyeMakeup_g08_c01.avi --model_file inference/Res18_3D/Res18.pdmodel --params_file inference/Res18_3D/Res18.pdiparams --use_gpu=True --use_tensorrt=False

五、复现结果

本次复现的目标是UCF-101验证集acc 42.4%，复现的为acc 43.98%。
环境：
Tesla V100 * 1
PaddlePaddle==2.2.0

model	dataset	acc
ResNet18_3D	UCF-101	43.98%

ChatGPT生成的Python绘图出现乱码_在代码中指定支持中文的字体库路径

Craiyon如何合并图层_Craiyon合并图层直给方式【参考】

DeepSeek如何辅助进行复杂的博弈论问题分析_描述博弈环境和规则并要求计算纳什均衡

ChatGPT生成的数据分析结果不准_要求AI展示Python代码执行过程并分步核对逻辑

如何搭建一个全自动AI内容创作流水线？从选题到发布

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

766

2026.01.21

pytorch是干嘛的

pytorch是一个基于python的深度学习框架，提供以下主要功能：动态图计算，提供灵活性。强大的张量操作，实现高效处理。自动微分，简化梯度计算。预构建的神经网络模块，简化模型构建。各种优化器，用于性能优化。想了解更多pytorch的相关内容，可以阅读本专题下面的文章。

432

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2073

2024.08.16

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27