6.2.1 當權重值得預設為0時

當起始權重時全部設為0時,後面所有層數的參數都會得到相等的值,等於最後得到的權重為均一值,失去深層網路的意義

<aside> 💡 Weight Decay(權重衰減) 以縮小權重參數值為目的進行的學習方法

! 起始權重若設為均一值,則所有權重會變成具對稱性的重複值而失去意義

例如用0.01 * np.random.randn(10, 100) 設定常態分佈的權重值(標準差為0.01的常態分佈)

</aside>

<aside> 💡 Activation 活性化/激活

</aside>

6.2.2 隱藏層的活性化分布與梯度消失問題

使用標準差為1的常態分佈作為權重初始值時的各層激活值的分佈

使用標準差為1的常態分佈作為權重初始值時的各層激活值的分佈

從上圖可知,各層的激活值不斷偏向0和1,隨著不斷靠近0和1,sigmoid函數導數的值逐漸接近0,這樣會造成反向傳播中梯度的值不斷變小,最後消失,這就是梯度消失問題(Gradient Vanishing),層次越深,梯度消失越嚴重。

如果將標準差修改為0.01,呈集中在0.5附近的分佈,激活值的分佈有所偏向,說明在表現力上會有很大問題。

分布集中在0.5。雖沒有引發梯度消失,但活性化分布仍出現特定偏差⇒ 無法正確估算權重