DNN学习笔记(1)
基于李宏毅的教学资料整理,个人理解可能有错误,谨慎参考。
李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
1、Optimizer
- Gradient descent (GD)
最常用基础的优化算法,梯度下降,求参数的梯度,涉及到学习率和梯度,由此产生两个问题:
(1)在训练的不同时刻,要求的学习率--步长是不一样的。
(2)梯度没有包含过去的信息,容易陷入Local mini or Saddle point。
- Stochastic SGD
相较于GD的整体样本算loss, SGD对样本中每一个vector单独算loss,然后更新,这样更新速度更快。
- SGD with Momentum(SGDM)
将过去的梯度信息集合到momentum中,减少陷入local mini or Saddle point的可能。
- RMSProp
解决学习率自调节问题,逐步遗忘过去的梯度信息,学习率由大变小
- Adam
集合了SGDM和RMSProp的优点,即包含过去的梯度信息,又能做到学习率的自适应调节,是目前应用最广泛的optimizer.
- 关于Adam VS SGDM
2、Loss function
Loss function是评估模型好坏的方法,核心是预测值 \hat{y} 与实际值y的误差,误差大证明,预测效果不好,目标是让LS归于收敛最小值,常用的LS包含以下几类:
- Mean Squared Error (MSE)
相较于RootMSE,它的性能被证明更好,广泛应用于回归问题。
- Cross entropy
当使用sigmoid作为激活函数的时候,常用交叉熵损失函数而不用均方误差损失函数,因为它可以完美解决平方损失函数权重更新过慢的问题,具有“误差大的时候,权重更新快;误差小的时候,权重更新慢”的良好性质。
Ref:
发布于 2021-04-01 16:11