保证不了,所以要高度过参数化,保证有大量的种子选手可供选择,最后总会有幸运儿学到特征。
所以参数对初始化非常敏感,重新初始化一下,网络内部结构会完全改变。这个就类似于蝴蝶效应,有一个卷积核向某个方向略偏了一下,结果正好撞上了狗屎运(梯度),居然恰好在对的位置,能获得越来越多的运气(梯度),学到的这个特征就会越来越肯定。
这也是为什么,训练好的神经网络,有用的部分不多,有用的部分只是因为运气好。而没有被梯度之神选中的牺牲品,如果一开始没得到梯度,就成了弃子了,之后就永远都得不到了!
梯度,永远滴神。 ——知乎 @霍华德