1. SGD:梯度下降法,需要更新的权重参数记为W,用学习率乘以损失函数关于W的梯度去不断更新权重。
  2. Momentum:与上面SGD类似,但是多了两个参数,v表示物理上的速度,a是一个参数,比如0.9等,对应地面摩擦或空气阻力等。
  3. AdaGrad:为参数的每个元素适当的调整学习率,与此同时进行学习。
  4. Adam:融合Momentum和AdaGrad方法,会设置三个参数,一个是学习率,另外两个是一次momentum系数β1和二次momentum系数β2。

1. SGD

更新權重E公式

$$ W \gets W - \eta \frac {\partial L}{\partial W} $$

$\gets$ 符號表示利用右邊的值來更新左邊的值

假設 $f(x, y) = \frac {1}{20}x^2 + y^2$

  # x軸的斜度平緩、y軸斜度陡峭

# 若起始點在x軸線方向,則該點的切線斜率會缺乏方向性

# 則梯度下降法移動會失去效率(梯度方向無法指向最小值)

如圖6.3起始點為 (x, y) = (-7, 2)

SGD的缺点:

SGD低效的根本原因是,梯度的方向没有指向最小值的方向,如下图: