Ch6.2 權重值預設

當起始權重時全部設為0時，後面所有層數的參數都會得到相等的值，等於最後得到的權重為均一值，失去深層網路的意義

<aside> 💡 Weight Decay(權重衰減) 以縮小權重參數值為目的進行的學習方法

！　起始權重若設為均一值，則所有權重會變成具對稱性的重複值而失去意義

例如用0.01 * np.random.randn(10, 100) 設定常態分佈的權重值(標準差為0.01的常態分佈)

</aside>

<aside> 💡 Activation 活性化/激活

</aside>

使用標準差為1的常態分佈作為權重初始值時的各層激活值的分佈

從上圖可知，各層的激活值不斷偏向0和1，隨著不斷靠近0和1，sigmoid函數導數的值逐漸接近0，這樣會造成反向傳播中梯度的值不斷變小，最後消失，這就是梯度消失問題(Gradient Vanishing),層次越深，梯度消失越嚴重。

如果將標準差修改為0.01，呈集中在0.5附近的分佈，激活值的分佈有所偏向，說明在表現力上會有很大問題。

分布集中在0.5。雖沒有引發梯度消失，但活性化分布仍出現特定偏差⇒ 無法正確估算權重