百科问答小站 logo
百科问答小站 font logo



Resnet是否只是一个深度学习的trick? 第1页

  

user avatar   rewrgf 网友的相关建议: 
      

微积分是不是只是一个极限的trick?感觉学完整个微积分之后,还是没觉得微积分有理论去支持,只是一个极限的小技巧?

相对论是不是只是一个把麦克斯韦方程组和经典力学统一起来的trick?感觉学完整个相对论之后,还是没觉得洛伦兹变换有理论去支持,只是一个数学的小技巧?


user avatar   yinfupai 网友的相关建议: 
      

其实,如果把神经网络各层都想象筛子,便容易理解了。

首先明确的是,从样本提取特征的关键特征的关键,其实就是把非关键特征去除,所以每个网络层起到的作用,其实就只有一个,那就是筛选。

而训练网络的过程,核心就是在尝试训练出来一个良好的筛子,而筛子好不好,全看训练出来的筛孔好不好。

很显然,设计多重集中单一机制的筛子,要比一重拥有筛选特性很复杂的筛子,要容易得多,所以网络层次结构,整体上深比宽好。

在实际使用筛子时,很容易遇到,训练出来的筛子,最后效果不好,这有两种情况:

一种是因为很容易在前面的一些筛子中,一些较大的东西堵住筛孔,导致过程受阻,在数据上对应的情况,就是出现梯度爆炸,

还有一种情况是制作出来的筛子小于特征尺度,结果导致筛选不出有用的特征,这就是梯度消失。

对于梯度消失,比如可以考虑让训练出来的筛子的筛孔大小,形成时不那么稳定,增加点随机因素进去,也就是随机堵上一些筛孔来训练,这样就是dropout,但是dropout有点太随机,效果不太稳定,有没有更好的方法?

我们知道,多层筛子要有效果,初层的筛子的筛孔,肯定要比后面的筛子的筛孔要大,换句话说,使用最开始输入的数据,有利于产生较大的筛孔。

那么,可以引入一些层次更相对靠前的,或直接就是原始数据,与提取过的数据,混在一起,然后再训练,这样形成的筛孔,分布更有可能变得相对合理一些,这样就能缓解梯度消失,这就是skipconnection,其实这个名字英文有些混淆,它实际上指的是层间跳跃连接。

显然,直观的做法中:

如果要是遇到梯度爆炸,最好的办法就是把大块的特征砸碎,保证它们不会堵塞,这就是Regularization,如梯度剪切,其实也是干这个。

如果要是遇到梯度消失,最好的办法就是在训练时,能够通过某种形式对分布进行约束,保证总会有筛孔出现,还是Regularization。

很显然,通过Regularization,不仅可以避免全是小筛孔或全是大筛孔出现,其本质是为了让筛孔分布得相对更加合理,因此可以收获不错的效果。

大家普遍比较喜欢使用的Batch Norm,将数值归一化,方差置0,其实也是这个道理。

如果采用这样的思路,做一个全连接网络,采用skipconnection及regularization,并且处理时再进行点池化,那就成了MLP-Mixer,在特殊情况下,它可以等价于1x1的卷积的叠加。

因此,其实MLP-Mixer其实才应该是cnn的基础形态。

而采用更大的卷积核时,实际上相当于每个单元进行了一次与周边信息的融合。

那么很显然,在层中间对多个单元提取均值或最大值,也就是池化,如果再来加个归一化、缩放之类的,与Batch Norm是一致的。

所以,池化起到了调解筛孔的作用,当归一化不那么重要时,仅仅池化就够了,这取决于构造的网络组合特点。

关于池化一个显然直觉是,直接取平均值或最大值,是不是会有点糙了,所以有时候追求细节保留时,可以考虑将池化移除,然后统一使Batch Norm,效果也不错。

从直觉上很容易联想到,如果是图像处理,完全可以进行不同尺寸的、不同卷积核,进行多重采样,然后汇总在一起,训练出来的筛子,对于缩放变形,会有更好的适应能力。

最好的筛孔,当然是适合的筛孔,在训练筛子并制造筛孔时,有没有更好的方法,能够可以让形成的筛孔能够优先适应更加重要的特征?

一种好办法,就是对层层筛选的特征进行记录,标注成字典进行打分,这就是Attention,具体细的就不多说了。


user avatar   huo-hua-de-41 网友的相关建议: 
      

ResNet只是个trick,那你的工作该叫啥,反正不能高于trick吧?

不如格局打开

把ResNet称作传说级工作

那比RetNet差点的也能叫史诗级工作

拼凑组合的工作也能叫精良的工作

你的灌水小论文,也能叫优秀的工作

大家皆大欢喜,岂不妙哉?


user avatar   wu-fang-dong-4 网友的相关建议: 
      

先说答案,不是,残差有已经很深刻的数学理论做解释。

鄂维南院士在17年从动力系统角度用离散微分方程很好的解释了ResNet,直接深度学习解释性内核。

Weinan E. A Proposal on Machine Learning via Dynamical Systems[J]. Communication in Mathematics and Statistics, 2017.

很好工作,知道人好像不是很多的样子,CV的人反而更热衷于玩新奇的trick,反复炒冷饭


user avatar   caopu021 网友的相关建议: 
      

这个问题问得很好啊,我的建议是看今年年会的摘要集:

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会,不过计算化学分布得比较散,夹杂在各个分会中。各分会的主题可以从这里找到,可能相关的包括:

有一些主题是理论计算夹杂着实验的,还需要仔细辨别。回到摘要集,以第一分会为例:

中国化学会第32届学术年会摘要集-第一分会:物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了,而且还可以下载。

显然,能找到相关方向的摘要的单位,就是开设了相关方向的院校,甚至还能精确到具体的某个课题组。




  

相关话题

  Batch Normalization 训练的时候为什么不使用 moving statistics? 
  深度学习火热兴起后,隐马尔可夫模型(HMM)还有何独到之处,是不是几乎可被深度学习模型给替代了? 
  在计算资源有限的情况下,有什么深度学习的选题可以推荐/避免? 
  GAN:固定训练好的判别器网络,去指导训练生成器为什么不可以? 
  生成对抗网络的毕设怎么上手? 
  如何解读 Jeff Dean 等联合在 arXiv 上发布的用深度学习分析电子病历的论文? 
  什么时候对数据进行[0,1]归一化,什么时候[-1,1]归一化,二者分别在什么场景? 
  能否把一个人的所有物理数据输入在一个模型里,然后计算他接下来的状态变化? 
  如何评价剑桥,腾讯, DeepMind以及港大团队新作 SimCTG ? 
  为什么现在不看好 CV 方向了呢? 

前一个讨论
为什么有些北上广深的人越推崇甚至神化北上广深?有些不在北上广深的人越抵制甚至逃离北上广深?
下一个讨论
如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利