使用PyTorch进行知识蒸馏的代码示例

王林

发布时间：2023-04-11 22:31:13

1099人浏览过

来源于51CTO.COM

转载

随着机器学习模型的复杂性和能力不断增加。提高大型复杂模型在小数据集性能的一种有效技术是知识蒸馏，它包括训练一个更小、更有效的模型来模仿一个更大的“教师”模型的行为。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在本文中，我们将探索知识蒸馏的概念，以及如何在PyTorch中实现它。我们将看到如何使用它将一个庞大、笨重的模型压缩成一个更小、更高效的模型，并且仍然保留原始模型的准确性和性能。

我们首先定义知识蒸馏要解决的问题。

我们训练了一个大型深度神经网络来执行复杂的任务，比如图像分类或机器翻译。这个模型可能有数千层和数百万个参数，这使得它很难部署在现实应用程序、边缘设备等中。并且这个超大的模型还需要大量的计算资源来运行，这使得它在一些资源受限的平台上无法工作。

解决这个问题的一种方法是使用知识蒸馏将大模型压缩成较小的模型。这个过程包括训练一个较小的模型来模仿给定任务中大型模型的行为。

我们将使用来自Kaggle的胸部x光数据集进行肺炎分类来进行知识蒸馏的示例。我们使用的数据集被组织成3个文件夹(train, test, val)，并包含每个图像类别的子文件夹(Pneumonia/Normal)。共有5,863张x射线图像(JPEG)和2个类别(肺炎/正常)。

比较一下这两个类的图片:

数据的加载和预处理与我们是否使用知识蒸馏或特定模型无关，代码片段可能如下所示:

transforms_train = transforms.Compose([
transforms.Resize((224, 224)),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406],
[0.229, 0.224, 0.225])])
 
 transforms_test = transforms.Compose([
transforms.Resize((224, 224)),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406],
[0.229, 0.224, 0.225])])
 
 train_data = ImageFolder(root=train_dir, transform=transforms_train)
 test_data = ImageFolder(root=test_dir, transform=transforms_test)
 
 train_loader = DataLoader(train_data, batch_size=32, shuffle=True)
 test_loader = DataLoader(test_data, batch_size=32, shuffle=True)

教师模型

在这个背景中教师模型我们使用Resnet-18并且在这个数据集上进行了微调。

import torch
 import torch.nn as nn
 import torchvision
 
 class TeacherNet(nn.Module):
def __init__(self):
super().__init__()
self.model = torchvision.models.resnet18(pretrained=True)
for params in self.model.parameters():
params.requires_grad_ = False
 
n_filters = self.model.fc.in_features
self.model.fc = nn.Linear(n_filters, 2)
 
def forward(self, x):
x = self.model(x)
return x

微调训练的代码如下

 def train(model, train_loader, test_loader, optimizer, criterion, device):
dataloaders = {'train': train_loader, 'val': test_loader}
 
for epoch in range(30):
print('Epoch {}/{}'.format(epoch, num_epochs - 1))
print('-' * 10)
 
for phase in ['train', 'val']:
if phase == 'train':
model.train()
else:
model.eval()
 
running_loss = 0.0
running_corrects = 0
 
for inputs, labels in tqdm.tqdm(dataloaders[phase]):
inputs = inputs.to(device)
labels = labels.to(device)
 
optimizer.zero_grad()
 
with torch.set_grad_enabled(phase == 'train'):
outputs = model(inputs)
loss = criterion(outputs, labels)
 
_, preds = torch.max(outputs, 1)
 
if phase == 'train':
loss.backward()
optimizer.step()
 
running_loss += loss.item() * inputs.size(0)
running_corrects += torch.sum(preds == labels.data)
 
epoch_loss = running_loss / len(dataloaders[phase].dataset)
epoch_acc = running_corrects.double() / len(dataloaders[phase].dataset)
 
print('{} Loss: {:.4f} Acc: {:.4f}'.format(phase, epoch_loss, epoch_acc))

这是一个标准的微调训练步骤，训练后我们可以看到该模型在测试集上达到了91%的准确性，这也就是我们没有选择更大模型的原因，因为作为测试91的准确率已经足够作为基类模型来使用了。

我们知道模型有1170万个参数，因此不一定能够适应边缘设备或其他特定场景。

学生模型

我们的学生是一个更浅的CNN，只有几层和大约100k个参数。

企站帮企业网站管理系统1.0

一、源码描述这是一款比较简单的企业管理系统源码，界面美观大方，功能简单，特别适合初学者学习研究，系统运行十分流畅，可以作为二次开发，同时也是可以帮助初学者增长知识的优秀代码。二、功能介绍主要功能：企业动态，产品介绍 ,免费下载，定制服务，该源码比较适合新手学习和二次开发使用。三、源码特点1、网站布局：采用目前最先进的布局方式DIV+CSS，符合W3C的标准和Web2.0的风格。2、程序设计模块化，

下载

class StudentNet(nn.Module):
def __init__(self):
super().__init__()
self.layer1 = nn.Sequential(
nn.Conv2d(3, 4, kernel_size=3, padding=1),
nn.BatchNorm2d(4),
nn.ReLU(),
nn.MaxPool2d(kernel_size=2, stride=2)
)
self.fc = nn.Linear(4 * 112 * 112, 2)
 
def forward(self, x):
out = self.layer1(x)
out = out.view(out.size(0), -1)
out = self.fc(out)
return out

看代码就非常的简单，对吧。

如果我可以简单地训练这个更小的神经网络，我为什么还要费心进行知识蒸馏呢?我们最后会附上我们通过超参数调整等手段从头训练这个网络的结果最为对比。

但是现在我们继续我们的知识蒸馏的步骤

知识蒸馏训练

训练的基本步骤是不变的，但是区别是如何计算最终的训练损失，我们将使用教师模型损失，学生模型的损失和蒸馏损失一起来计算最终的损失。

class DistillationLoss:
def __init__(self):
self.student_loss = nn.CrossEntropyLoss()
self.distillation_loss = nn.KLDivLoss()
self.temperature = 1
self.alpha = 0.25
 
def __call__(self, student_logits, student_target_loss, teacher_logits):
distillation_loss = self.distillation_loss(F.log_softmax(student_logits / self.temperature, dim=1),
F.softmax(teacher_logits / self.temperature, dim=1))
 
loss = (1 - self.alpha) * student_target_loss + self.alpha * distillation_loss
return loss

损失函数是下面两个东西的加权和:

分类损失，称为student_target_loss
蒸馏损失，学生对数和教师对数之间的交叉熵损失

简单的讲，我们的教师模型需要教导学生如何“思考”的，这就是指的是它的不确定性;例如，如果教师模型的最终输出概率是[0.53,0.47]，我们希望学生也得到同样类似结果，这些预测之间的差异就是蒸馏损失。

为了控制损失，还有有两个主要参数:

蒸馏损失的权重：0意味着我们只考虑蒸馏损失，反之亦然。
温度：衡量教师预测的不确定性。

在上面的要点中，alpha和temperature的值都是根据我们尝试过一些组合得到的最佳结果的值。

结果对比

这是这个实验的表格摘要。

我们可以清楚地看到使用更小(99.14%)，更浅的CNN所获得的巨大好处:与无蒸馏训练相比，准确率提升了10点，并且比Resnet-18快11倍!也就是说，我们的小模型真的从大模型中学到了有用的东西。

豆包AI帮你写绩效评估（Performance Review）的自评和他评

Kimi怎么寻找行业调研报告_Kimi深度检索与关键数据整合技巧【汇总】

豆包AI帮你做个人年度财务审计和预算规划

即梦AI怎么生成具有景深虚化效果的图_即梦AI高级模式设置【核心】

千问AI怎么写代码Demo_通义千问快速构建项目原型方法【进阶】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Meta千亿参数大模型OPT-IML「升级版」来了，完整模型和代码公布！下一篇：斯坦福2023 AI指数报告出炉！中国霸榜AI顶会，中科院论文发表量世界第一

作者最新文章

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

微信小程序怎么定时发朋友圈免费微信朋友圈定时发送工具

2026-02-01 08:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式，涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明，帮助用户高效找到pixiv官方网站，实现便捷、安全的网页端浏览与账号登录体验。

286

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式，涵盖首页直达地址、账号登录流程与常见访问问题说明，帮助用户快速找到微博官网主页，实现便捷、安全的网页端登录与内容浏览体验。

126

2026.02.13

Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开，系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示，帮助开发者构建流畅、可维护的跨平台移动应用。

2026.02.13

TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者，深入讲解 TypeScript 类型系统与大型项目结构设计方法，并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例，帮助开发者提升代码可维护性与开发效率。

2026.02.13

Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开，系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示，帮助开发者构建高可用、可扩展的分布式缓存系统。

2026.02.13

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式，涵盖账号登录流程、官方直连入口及平台访问方法说明，帮助师生用户快速进入雨课堂在线教学平台，实现便捷、高效的课程学习与教学管理体验。

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式，涵盖智能写作工具、图片生成体验入口和官网登录方法，帮助用户快速直达豆包AI平台，高效完成文本创作与AI生图任务，实现便捷智能创作体验。

421

2026.02.12

PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师，深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析，帮助开发者提升数据库响应速度与系统稳定性。

2026.02.12

热门下载

网站特效

网站源码

网站素材

前端模板