PyTorch自动微分机制详解

发表于2026-01-25|更新于2026-01-25|编程语言PyTorch

|总字数:306|阅读时长:1分钟|浏览量:

简介

PyTorch 的自动微分（Autograd）是其核心功能之一，它使得神经网络的梯度计算变得简单高效。

张量与梯度

创建需要梯度的张量：

import torch

# 💡 requires_grad=True 启用梯度追踪
x = torch.tensor([2.0, 3.0], requires_grad=True)
y = x ** 2 + 2 * x + 1

# 计算梯度
y.backward(torch.ones_like(y))

print(x.grad)  # tensor([6., 8.])
# dy/dx = 2x + 2, 当 x=[2,3] 时，结果为 [6, 8]

计算图

PyTorch 动态构建计算图：

import torch

a = torch.tensor([2.0], requires_grad=True)
b = torch.tensor([3.0], requires_grad=True)

c = a * b
d = c + a
e = d ** 2

# 反向传播
e.backward()

print(f"a.grad = {a.grad}")  # 2 * (a*b + a) * (b + 1) = 2 * 8 * 4 = 64
print(f"b.grad = {b.grad}")  # 2 * (a*b + a) * a = 2 * 8 * 2 = 32

禁用梯度计算

推理时禁用梯度以节省内存：

# 方法1：使用上下文管理器
with torch.no_grad():
    y = model(x)

# 方法2：使用装饰器
@torch.no_grad()
def inference(model, x):
    return model(x)

自定义函数的梯度

class MyReLU(torch.autograd.Function):
    @staticmethod
    def forward(ctx, input):
        ctx.save_for_backward(input)
        return input.clamp(min=0)
    
    @staticmethod
    def backward(ctx, grad_output):
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input

总结

理解 PyTorch 的自动微分机制是深度学习开发的基础。

参考资料

PyTorch Autograd Tutorial

文章作者: CJX

文章链接: https://smlyfm.github.io/2026/pytorch-autograd/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hexo-CJX Blog！

深度学习 PyTorch 自动微分

相关推荐

物理信息神经网络 (PINNs) 深入解析：理论、实现与应用

简介物理信息神经网络（Physics-Informed Neural Networks, PINNs）是由 Raissi 等人于 2019 年提出的一种将物理先验知识嵌入深度学习框架的方法。它通过在损失函数中引入偏微分方程（PDE）的残差项，实现了数据驱动与物理约束的有机融合。 PINNs 的核心优势：无需网格：不依赖传统数值方法的网格划分少量数据：通过物理约束大幅减少对训练数据的需求灵活性：易于处理复杂几何和高维问题反问题：能够同时求解正问题和反问题 1. 数学基础 1.1 问题设定考虑一般形式的偏微分方程： {N[u(x,t)]=f(x,t),x∈Ω, t∈[0,T]B[u(x,t)]=g(x,t),x∈∂Ωu(x,0)=h(x),x∈Ω\begin{cases} \mathcal{N}[u(\mathbf{x}, t)] = f(\mathbf{x}, t), & \mathbf{x} \in \Omega, \, t \in [0, T] \\ \mathcal{B}[u(\mathbf{x}, t)] = g(\mathbf{x}, t),...

深度学习优化算法详解：从SGD到Adam

深度学习优化算法详解优化算法是深度学习训练的核心，选择合适的优化器对模型性能至关重要。随机梯度下降 (SGD) 最基础的优化方法： 1optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9) 特点简单高效需要仔细调整学习率可能陷入鞍点 Adam 优化器结合动量和自适应学习率： 12optimizer = torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999)) 优势自适应学习率收敛快速对超参数不敏感实践建议对于CV任务，SGD+Momentum通常效果更好对于NLP任务，Adam是首选学习率调度策略很重要相关阅读：学习率调度梯度裁剪正则化技术

物理信息神经网络 (PINNs) 简介

物理信息神经网络 (PINNs) 简介物理信息神经网络（Physics-Informed Neural Networks, PINNs）是将物理约束嵌入深度学习的创新方法。核心思想 PINNs 通过在损失函数中加入物理方程的残差项，实现数据驱动与物理约束的融合。对于偏微分方程（PDE）问题，我们考虑如下一般形式： N[u(x,t)]=f(x,t),x∈Ω, t∈[0,T]\mathcal{N}[u(x,t)] = f(x,t), \quad x \in \Omega, \, t \in [0, T] N[u(x,t)]=f(x,t),x∈Ω,t∈[0,T] 其中 N\mathcal{N}N 是微分算子，uuu 是待求解函数，Ω\OmegaΩ 是计算域。损失函数设计 PINNs 的总损失函数由三部分组成： L=Ldata⏟数据拟合+LPDE⏟物理约束+LBC/IC⏟边界/初始条件\mathcal{L} = \underbrace{\mathcal{L}_{\text{data}}}_{\text{数据拟合}} +...

卷积神经网络 (CNN) 原理详解

引言卷积神经网络（Convolutional Neural Network, CNN）是深度学习在计算机视觉领域最成功的模型之一。从图像分类到目标检测，从语义分割到图像生成，CNN 无处不在。 1. 为什么需要 CNN 1.1 全连接网络的问题对于 224×224224 \times 224224×224 的 RGB 图像，展平后有 224×224×3=150,528224 \times 224 \times 3 = 150,528224×224×3=150,528 个输入。如果第一个隐藏层有 1000 个神经元，则需要约 1.5 亿个参数！问题：参数爆炸：参数过多导致过拟合和计算困难忽略空间结构：展平操作丢失了像素的空间关系缺乏平移不变性：同一物体在不同位置需要重新学习 1.2 CNN 的设计直觉 CNN 的核心思想来自视觉神经科学：局部感受野：神经元只对视野中的局部区域响应权值共享：相同的特征检测器用于整个图像层次化表示：从边缘到形状到物体的逐层抽象 2. 卷积运算 2.1 数学定义对于输入 xxx 和卷积核...

评论

数据加载中