PyTorch中冻结中间层参数的深度解析与实践

霞舞

发布时间：2025-08-22 15:04:01

563人浏览过

来源于php中文网

原创

PyTorch中冻结中间层参数的深度解析与实践

本教程深入探讨了在PyTorch中冻结神经网络特定中间层参数的两种常见方法：torch.no_grad()上下文管理器和设置参数的requires_grad = False属性。文章通过代码示例详细阐述了两种方法的原理、效果及适用场景，并明确指出requires_grad = False是实现精确中间层冻结的推荐方案，同时提供了验证层是否被冻结的技巧，旨在帮助开发者准确控制模型训练过程中的参数更新。

在深度学习模型训练过程中，我们经常会遇到需要冻结模型中某些层（即不更新这些层的参数）而只训练其他层的场景，例如在迁移学习中冻结预训练模型的特征提取层，或者在多任务学习中只更新特定任务相关的层。本文将详细探讨pytorch中实现这一目标的方法。

理解参数冻结的原理

在PyTorch中，参数更新是通过反向传播计算梯度并由优化器应用到参数上的。冻结一个层意味着阻止其参数参与梯度计算和随后的更新。这通常通过控制参数的requires_grad属性来实现。当requires_grad为False时，PyTorch的自动求导引擎将不会为该参数计算梯度，从而阻止其被优化器更新。

方法一：使用 torch.no_grad() 上下文管理器

torch.no_grad()是一个上下文管理器，它会禁用在其作用域内所有操作的梯度计算。这意味着，任何在with torch.no_grad():块中执行的操作，都不会构建计算图，也不会跟踪梯度。

让我们通过一个简单的三层线性网络为例来演示：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.lin0 = nn.Linear(1, 2)
        self.lin1 = nn.Linear(2, 2)
        self.lin2 = nn.Linear(2, 10)

    def forward_with_no_grad(self, x):
        x = self.lin0(x)
        with torch.no_grad():
            x = self.lin1(x) # 尝试冻结lin1
        x = self.lin2(x)
        return x

# 实例化模型
model_no_grad = SimpleModel()
# 记录初始参数
initial_lin0_weight = model_no_grad.lin0.weight.clone()
initial_lin1_weight = model_no_grad.lin1.weight.clone()
initial_lin2_weight = model_no_grad.lin2.weight.clone()

# 模拟训练步骤
input_data = torch.randn(1, 1)
target = torch.randint(0, 10, (1,))
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model_no_grad.parameters(), lr=0.01)

print("--- 使用 torch.no_grad() 冻结中间层 ---")
print("初始 lin0 权重:\n", initial_lin0_weight)
print("初始 lin1 权重:\n", initial_lin1_weight)
print("初始 lin2 权重:\n", initial_lin2_weight)

# 前向传播与反向传播
output = model_no_grad.forward_with_no_grad(input_data)
loss = criterion(output, target)
optimizer.zero_grad()
loss.backward()
optimizer.step()

# 检查参数变化
print("\n训练后 lin0 权重:\n", model_no_grad.lin0.weight)
print("训练后 lin1 权重:\n", model_no_grad.lin1.weight)
print("训练后 lin2 权重:\n", model_no_grad.lin2.weight)

# 验证是否冻结
print("\nlin0 权重是否变化:", not torch.equal(initial_lin0_weight, model_no_grad.lin0.weight))
print("lin1 权重是否变化:", not torch.equal(initial_lin1_weight, model_no_grad.lin1.weight))
print("lin2 权重是否变化:", not torch.equal(initial_lin2_weight, model_no_grad.lin2.weight))

分析 torch.no_grad() 的效果： 上述代码运行后会发现，lin0和lin1的参数都没有更新，而只有lin2的参数发生了变化。这是因为当lin1的操作在torch.no_grad()块中执行时，其输出张量x（来自lin1）的grad_fn属性将为None，这意味着从lin1往前的计算图被截断了。因此，尽管lin2的梯度可以正常计算并回传到lin1的输出，但由于lin1的操作没有梯度跟踪，导致无法计算lin1自身的梯度，也无法将梯度继续回传到lin0。最终结果是，lin0和lin1的参数都不会得到更新。

结论： torch.no_grad() 适用于冻结整个模型或模型的一部分，使其在推理阶段不消耗内存来存储梯度信息，或者在训练时完全禁用某些部分的梯度更新。但它不适合精确地冻结中间层而允许其上游层更新的场景。

方法二：设置 requires_grad = False

这是在PyTorch中实现精确层冻结的推荐方法。通过将特定层的参数的requires_grad属性设置为False，我们可以明确告诉PyTorch的自动求导引擎不需要为这些参数计算梯度。

AI Web Designer

AI网页设计师，快速生成个性化的网站设计

下载

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.lin0 = nn.Linear(1, 2)
        self.lin1 = nn.Linear(2, 2)
        self.lin2 = nn.Linear(2, 10)

    def forward(self, x):
        x = self.lin0(x)
        x = self.lin1(x)
        x = self.lin2(x)
        return x

# 实例化模型
model_requires_grad = SimpleModel()

# 冻结lin1层的参数
model_requires_grad.lin1.weight.requires_grad = False
model_requires_grad.lin1.bias.requires_grad = False

# 记录初始参数
initial_lin0_weight_rg = model_requires_grad.lin0.weight.clone()
initial_lin1_weight_rg = model_requires_grad.lin1.weight.clone()
initial_lin2_weight_rg = model_requires_grad.lin2.weight.clone()

# 注意：优化器只应传入 requires_grad 为 True 的参数
optimizer_rg = optim.SGD(filter(lambda p: p.requires_grad, model_requires_grad.parameters()), lr=0.01)

# 模拟训练步骤
input_data = torch.randn(1, 1)
target = torch.randint(0, 10, (1,))
criterion = nn.CrossEntropyLoss()

print("\n--- 使用 requires_grad = False 冻结中间层 ---")
print("初始 lin0 权重:\n", initial_lin0_weight_rg)
print("初始 lin1 权重:\n", initial_lin1_weight_rg)
print("初始 lin2 权重:\n", initial_lin2_weight_rg)

# 前向传播与反向传播
output = model_requires_grad(input_data)
loss = criterion(output, target)
optimizer_rg.zero_grad()
loss.backward()
optimizer_rg.step()

# 检查参数变化
print("\n训练后 lin0 权重:\n", model_requires_grad.lin0.weight)
print("训练后 lin1 权重:\n", model_requires_grad.lin1.weight)
print("训练后 lin2 权重:\n", model_requires_grad.lin2.weight)

# 验证是否冻结
print("\nlin0 权重是否变化:", not torch.equal(initial_lin0_weight_rg, model_requires_grad.lin0.weight))
print("lin1 权重是否变化:", not torch.equal(initial_lin1_weight_rg, model_requires_grad.lin1.weight))
print("lin2 权重是否变化:", not torch.equal(initial_lin2_weight_rg, model_requires_grad.lin2.weight))

分析 requires_grad = False 的效果： 运行上述代码后，你会发现lin0和lin2的参数都得到了更新，而只有lin1的参数保持不变。这是因为：

lin1.weight.requires_grad = False和lin1.bias.requires_grad = False明确地告诉PyTorch不要为这些参数计算梯度。
在反向传播时，尽管梯度会流经lin1，但由于lin1的参数被标记为不需要梯度，PyTorch会跳过其梯度计算，并继续将梯度回传到lin0。
优化器在初始化时，通过filter(lambda p: p.requires_grad, model_requires_grad.parameters())确保它只接收那些requires_grad=True的参数进行更新。

结论： requires_grad = False 是实现精确冻结模型中特定层（包括中间层）的正确且推荐的方法。它允许梯度流经被冻结的层，但不会更新该层自身的参数，同时能将梯度正确地传递给更上游的层。

验证层是否被冻结

在实际操作中，可以通过以下几种方式来验证层是否成功被冻结：

检查 param.requires_grad 属性： 在设置后，可以打印出model.lin1.weight.requires_grad来确认其是否为False。
检查 param.grad 属性： 在执行loss.backward()之后，检查被冻结层的参数（例如model.lin1.weight.grad）是否为None。如果为None，则表示没有为该参数计算梯度。
检查参数值是否变化： 在训练循环开始前记录参数的初始值，经过一个或多个训练步骤后，再次检查这些参数的值。如果参数值未发生变化，则说明该层已被冻结。这正是本文示例代码中采用的方法。

总结与最佳实践

精确冻结中间层： 始终使用设置参数的requires_grad = False属性来冻结模型中的特定层。
优化器初始化： 当冻结部分层时，务必在初始化优化器时，只将那些requires_grad = True的参数传递给优化器。例如：optimizer = torch.optim.SGD(filter(lambda p: p.requires_grad, model.parameters()), lr=0.01)。
torch.no_grad() 的适用场景： torch.no_grad() 主要用于推理阶段，或者在训练过程中完全禁用某一部分的梯度计算，它会截断计算图，不适合需要梯度回传到上游层的场景。
模型状态： 冻结层与model.train()和model.eval()没有直接冲突。model.eval()主要影响nn.BatchNorm和nn.Dropout等层在训练和评估模式下的行为，而requires_grad控制的是参数是否更新。

通过理解和正确应用requires_grad = False，开发者可以灵活地控制PyTorch模型中各层的训练状态，从而实现更复杂的训练策略，例如微调预训练模型或进行部分模型的更新。

PythonAI成长瓶颈突破教程_为什么学不会AI

PythonAI数学基础教程_线性代数概率论快速掌握

Python转AI数据方向教程_数据驱动智能决策

PythonAI模型训练实战教程_从零构建预测模型

python 的优势在哪里

相关专题

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

193

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

pytorch是干嘛的

pytorch是一个基于python的深度学习框架，提供以下主要功能：动态图计算，提供灵活性。强大的张量操作，实现高效处理。自动微分，简化梯度计算。预构建的神经网络模块，简化模型构建。各种优化器，用于性能优化。想了解更多pytorch的相关内容，可以阅读本专题下面的文章。

469

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板