Xavier/Glorot 初始化:对于像Sigmoid、Tanh这类输出范围有限的激活函数,这是个不错的选择。它能让每一层的输出方差大致相等,防止梯度消失或爆炸。 He 初始化:在ReLU及其变种激活函数(如LeakyReLU)大行其道的今天,He初始化更显身手。它同样是为了保持方差,但考虑到了ReLU的“半衰期”特性。 更小的初始化值:有时,尤其是在一些特定任务或模型结构中,适当减小初始化值的范围,也能帮助模型稳定训练。
深度学习中,当模型需要同时优化多个目标时,就会出现多个 Loss 函数。例如,在图像分割任务中,可能需要同时考虑像素级别的分类准确率(交叉熵损失)和分割区域的形状或边界的平滑度(Dice Loss、Boundary Loss)。又或者在多任务学习中,模型需要完成图像分类、目标检测和语义分割等多项任务.............
在深度学习这个日新月异的领域,要挑出一篇“心目中最惊艳的论文”着实不易,因为优秀的作品层出不穷,而且“惊艳”往往带有主观色彩。不过,如果非要选择一篇,我会毫不犹豫地选择那篇开启了Transformer时代,也就是 “Attention Is All You Need” 这篇论文。之所以觉得它惊艳,并.............