Ch6.1 更新參數-SGD、Momentum、AdaGrad與他的夥伴們

1. SGD

更新權重E公式

$$ W \gets W - \eta \frac {\partial L}{\partial W} $$

$\gets$ 符號表示利用右邊的值來更新左邊的值

假設 $f(x, y) = \frac {1}{20}x^2 + y^2$

  # x軸的斜度平緩、y軸斜度陡峭

# 若起始點在x軸線方向，則該點的切線斜率會缺乏方向性

# 則梯度下降法移動會失去效率(梯度方向無法指向最小值)

如圖6.3起始點為 (x, y) = (-7, 2)

SGD的缺点：

SGD低效的根本原因是，梯度的方向没有指向最小值的方向，如下图：