DNN学习笔记(1)

基于李宏毅的教学资料整理,个人理解可能有错误,谨慎参考。

李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

1、Optimizer

  • Gradient descent (GD)

最常用基础的优化算法,梯度下降,求参数的梯度,涉及到学习率和梯度,由此产生两个问题:

(1)在训练的不同时刻,要求的学习率--步长是不一样的。

(2)梯度没有包含过去的信息,容易陷入Local mini or Saddle point。

  • Stochastic SGD

相较于GD的整体样本算loss, SGD对样本中每一个vector单独算loss,然后更新,这样更新速度更快。

  • SGD with Momentum(SGDM)

将过去的梯度信息集合到momentum中,减少陷入local mini or Saddle point的可能。

  • RMSProp

解决学习率自调节问题,逐步遗忘过去的梯度信息,学习率由大变小

  • Adam

集合了SGDM和RMSProp的优点,即包含过去的梯度信息,又能做到学习率的自适应调节,是目前应用最广泛的optimizer.


  • 关于Adam VS SGDM

2、Loss function

Loss function是评估模型好坏的方法,核心是预测值 \hat{y} 与实际值y的误差,误差大证明,预测效果不好,目标是让LS归于收敛最小值,常用的LS包含以下几类:

  • Mean Squared Error (MSE)

相较于RootMSE,它的性能被证明更好,广泛应用于回归问题。

  • Cross entropy

当使用sigmoid作为激活函数的时候,常用交叉熵损失函数而不用均方误差损失函数,因为它可以完美解决平方损失函数权重更新过慢的问题,具有“误差大的时候,权重更新快;误差小的时候,权重更新慢”的良好性质。


Ref:

Loss function - 搜索结果 - 知乎

发布于 2021-04-01 16:11