深度学习优化算法详解：从SGD到Adam

发表于2026-01-19|更新于2026-01-23|计算机深度学习

|总字数:191|阅读时长:1分钟|浏览量:

深度学习优化算法详解

优化算法是深度学习训练的核心，选择合适的优化器对模型性能至关重要。

随机梯度下降 (SGD)

最基础的优化方法：

1	optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

特点

简单高效
需要仔细调整学习率
可能陷入鞍点

Adam 优化器

结合动量和自适应学习率：

1 2	optimizer = torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))

优势

自适应学习率
收敛快速
对超参数不敏感

实践建议

对于CV任务，SGD+Momentum通常效果更好
对于NLP任务，Adam是首选
学习率调度策略很重要

相关阅读：

学习率调度
梯度裁剪
正则化技术

文章作者: CJX

文章链接: https://smlyfm.github.io/2026/deep-learning-optimizers/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hexo-CJX Blog！

深度学习优化算法 SGD Adam PyTorch

相关推荐

物理信息神经网络 (PINNs) 简介

物理信息神经网络 (PINNs) 简介物理信息神经网络（Physics-Informed Neural Networks, PINNs）是将物理约束嵌入深度学习的创新方法。核心思想 PINNs 通过在损失函数中加入物理方程的残差项，实现数据驱动与物理约束的融合。对于偏微分方程（PDE）问题，我们考虑如下一般形式： N[u(x,t)]=f(x,t),x∈Ω, t∈[0,T]\mathcal{N}[u(x,t)] = f(x,t), \quad x \in \Omega, \, t \in [0, T] N[u(x,t)]=f(x,t),x∈Ω,t∈[0,T] 其中 N\mathcal{N}N 是微分算子，uuu 是待求解函数，Ω\OmegaΩ 是计算域。损失函数设计 PINNs 的总损失函数由三部分组成： L=Ldata⏟数据拟合+LPDE⏟物理约束+LBC/IC⏟边界/初始条件\mathcal{L} = \underbrace{\mathcal{L}_{\text{data}}}_{\text{数据拟合}} +...

物理信息神经网络 (PINNs) 深入解析：理论、实现与应用

简介物理信息神经网络（Physics-Informed Neural Networks, PINNs）是由 Raissi 等人于 2019 年提出的一种将物理先验知识嵌入深度学习框架的方法。它通过在损失函数中引入偏微分方程（PDE）的残差项，实现了数据驱动与物理约束的有机融合。 PINNs 的核心优势：无需网格：不依赖传统数值方法的网格划分少量数据：通过物理约束大幅减少对训练数据的需求灵活性：易于处理复杂几何和高维问题反问题：能够同时求解正问题和反问题 1. 数学基础 1.1 问题设定考虑一般形式的偏微分方程： {N[u(x,t)]=f(x,t),x∈Ω, t∈[0,T]B[u(x,t)]=g(x,t),x∈∂Ωu(x,0)=h(x),x∈Ω\begin{cases} \mathcal{N}[u(\mathbf{x}, t)] = f(\mathbf{x}, t), & \mathbf{x} \in \Omega, \, t \in [0, T] \\ \mathcal{B}[u(\mathbf{x}, t)] = g(\mathbf{x}, t),...

PyTorch自动微分机制详解

简介 PyTorch 的自动微分（Autograd）是其核心功能之一，它使得神经网络的梯度计算变得简单高效。张量与梯度创建需要梯度的张量： 1234567891011import torch# 💡 requires_grad=True 启用梯度追踪x = torch.tensor([2.0, 3.0], requires_grad=True)y = x ** 2 + 2 * x + 1# 计算梯度y.backward(torch.ones_like(y))print(x.grad) # tensor([6., 8.])# dy/dx = 2x + 2, 当 x=[2,3] 时，结果为 [6, 8] 计算图 PyTorch 动态构建计算图： 1234567891011121314import torcha = torch.tensor([2.0], requires_grad=True)b = torch.tensor([3.0], requires_grad=True)c = a * bd = c + ae = d ** 2#...

卷积神经网络 (CNN) 原理详解

引言卷积神经网络（Convolutional Neural Network, CNN）是深度学习在计算机视觉领域最成功的模型之一。从图像分类到目标检测，从语义分割到图像生成，CNN 无处不在。 1. 为什么需要 CNN 1.1 全连接网络的问题对于 224×224224 \times 224224×224 的 RGB 图像，展平后有 224×224×3=150,528224 \times 224 \times 3 = 150,528224×224×3=150,528 个输入。如果第一个隐藏层有 1000 个神经元，则需要约 1.5 亿个参数！问题：参数爆炸：参数过多导致过拟合和计算困难忽略空间结构：展平操作丢失了像素的空间关系缺乏平移不变性：同一物体在不同位置需要重新学习 1.2 CNN 的设计直觉 CNN 的核心思想来自视觉神经科学：局部感受野：神经元只对视野中的局部区域响应权值共享：相同的特征检测器用于整个图像层次化表示：从边缘到形状到物体的逐层抽象 2. 卷积运算 2.1 数学定义对于输入 xxx 和卷积核...

评论

数据加载中