PyTorch的核心是张量和自动求导,支持GPU加速与梯度自动计算;需设requires_grad=True开启求导,标量输出调用backward()触发反向传播,梯度存于.grad属性,常用torch.no_grad()、detach()和zero_grad()管理计算图与梯度。

PyTorch 的核心是 张量(Tensor) 和 自动求导(Autograd),它让深度学习中的数值计算既高效又灵活。你不需要手动推导梯度,只要张量启用了梯度追踪,PyTorch 就能在反向传播时自动计算所有梯度。
创建和操作张量
张量类似于 NumPy 数组,但支持 GPU 加速和自动求导:
- 用
torch.tensor()创建:x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)——requires_grad=True是开启自动求导的关键 - 常用创建方式还有
torch.zeros(3, 4)、torch.randn(2, 3)、torch.ones_like(x) - 支持标准数学运算:
y = x ** 2 + 2 * x + 1,结果y也会继承requires_grad=True(只要输入有梯度) - 注意:原地操作(如
x.add_(1))可能破坏计算图,一般避免在需求导的张量上使用带下划线的就地方法
执行自动求导
自动求导只对**标量输出**调用 .backward() 有效(即最终损失是一个数):
- 若
y是标量(如 loss),直接调用y.backward(),PyTorch 会从y开始反向遍历计算图,把梯度存入各叶子张量的.grad属性中 - 例如:
x = torch.tensor(2.0, requires_grad=True); y = x**3; y.backward(); print(x.grad)输出tensor(12.)(因为 dy/dx = 3x² = 12) - 若输出不是标量(比如向量),需传入与输出同形状的
gradient参数,例如y.backward(torch.ones_like(y)),等价于对每个元素求和后再反向
管理计算图和梯度
PyTorch 默认每次前向传播都会构建新计算图,反向传播后图自动释放。常见操作包括:
立即学习“Python免费学习笔记(深入)”;
-
with torch.no_grad():块内所有张量操作不记录梯度,用于推理、模型评估或参数更新时防止干扰 -
x.detach()返回一个与x数据相同但无梯度历史的新张量(常用于从计算图中“切出”一部分) - 清空梯度:训练循环中通常要写
optimizer.zero_grad()或手动model.zero_grad(),等价于对所有可训练参数的.grad置零 - 想重复对同一张量调用
backward()?默认会累加梯度,首次后需手动置零,或传参retain_graph=True保留图(慎用,占内存)
实战小例子:手动实现线性回归梯度更新
理解原理最直接的方式是写一小段可运行代码:
- 定义数据:
x = torch.randn(100, 1); y_true = 2 * x + 1 + 0.1 * torch.randn(100, 1) - 初始化参数:
w = torch.randn(1, 1, requires_grad=True); b = torch.randn(1, requires_grad=True) - 前向:
y_pred = x @ w + b;损失:loss = ((y_pred - y_true) ** 2).mean() - 反向:
loss.backward();更新:w.data -= 0.01 * w.grad; b.data -= 0.01 * b.grad(注意用.data或torch.no_grad()避免更新进入图)
掌握张量创建、运算规则、requires_grad 开关、backward() 触发条件和梯度管理,就掌握了 PyTorch 自动求导的主干。它不复杂,但细节决定是否能稳定训练模型。









