當起始權重時全部設為0時,後面所有層數的參數都會得到相等的值,等於最後得到的權重為均一值,失去深層網路的意義
<aside> 💡 Weight Decay(權重衰減) 以縮小權重參數值為目的進行的學習方法
! 起始權重若設為均一值,則所有權重會變成具對稱性的重複值而失去意義
例如用0.01 * np.random.randn(10, 100) 設定常態分佈的權重值(標準差為0.01的常態分佈)
</aside>
<aside> 💡 Activation 活性化/激活
</aside>
使用標準差為1的常態分佈作為權重初始值時的各層激活值的分佈
從上圖可知,各層的激活值不斷偏向0和1,隨著不斷靠近0和1,sigmoid函數導數的值逐漸接近0,這樣會造成反向傳播中梯度的值不斷變小,最後消失,這就是梯度消失問題(Gradient Vanishing),層次越深,梯度消失越嚴重。
如果將標準差修改為0.01,呈集中在0.5附近的分佈,激活值的分佈有所偏向,說明在表現力上會有很大問題。
分布集中在0.5。雖沒有引發梯度消失,但活性化分布仍出現特定偏差⇒ 無法正確估算權重
标准差修改为0.1时的分布:
表現好一點,但仍有偏誤