Resnet是否只是一个深度学习的trick？第1页

rewrgf 网友的相关建议:

微积分是不是只是一个极限的trick？感觉学完整个微积分之后，还是没觉得微积分有理论去支持，只是一个极限的小技巧？

相对论是不是只是一个把麦克斯韦方程组和经典力学统一起来的trick?感觉学完整个相对论之后，还是没觉得洛伦兹变换有理论去支持，只是一个数学的小技巧？

yinfupai 网友的相关建议:

其实，如果把神经网络各层都想象筛子，便容易理解了。

首先明确的是，从样本提取特征的关键特征的关键，其实就是把非关键特征去除，所以每个网络层起到的作用，其实就只有一个，那就是筛选。

而训练网络的过程，核心就是在尝试训练出来一个良好的筛子，而筛子好不好，全看训练出来的筛孔好不好。

很显然，设计多重集中单一机制的筛子，要比一重拥有筛选特性很复杂的筛子，要容易得多，所以网络层次结构，整体上深比宽好。

在实际使用筛子时，很容易遇到，训练出来的筛子，最后效果不好，这有两种情况：

一种是因为很容易在前面的一些筛子中，一些较大的东西堵住筛孔，导致过程受阻，在数据上对应的情况，就是出现梯度爆炸，

还有一种情况是制作出来的筛子小于特征尺度，结果导致筛选不出有用的特征，这就是梯度消失。

对于梯度消失，比如可以考虑让训练出来的筛子的筛孔大小，形成时不那么稳定，增加点随机因素进去，也就是随机堵上一些筛孔来训练，这样就是dropout，但是dropout有点太随机，效果不太稳定，有没有更好的方法？

我们知道，多层筛子要有效果，初层的筛子的筛孔，肯定要比后面的筛子的筛孔要大，换句话说，使用最开始输入的数据，有利于产生较大的筛孔。

那么，可以引入一些层次更相对靠前的，或直接就是原始数据，与提取过的数据，混在一起，然后再训练，这样形成的筛孔，分布更有可能变得相对合理一些，这样就能缓解梯度消失，这就是skipconnection，其实这个名字英文有些混淆，它实际上指的是层间跳跃连接。

显然，直观的做法中：

如果要是遇到梯度爆炸，最好的办法就是把大块的特征砸碎，保证它们不会堵塞，这就是Regularization，如梯度剪切，其实也是干这个。

如果要是遇到梯度消失，最好的办法就是在训练时，能够通过某种形式对分布进行约束，保证总会有筛孔出现，还是Regularization。

很显然，通过Regularization，不仅可以避免全是小筛孔或全是大筛孔出现，其本质是为了让筛孔分布得相对更加合理，因此可以收获不错的效果。

大家普遍比较喜欢使用的Batch Norm，将数值归一化，方差置0，其实也是这个道理。

如果采用这样的思路，做一个全连接网络，采用skipconnection及regularization，并且处理时再进行点池化，那就成了MLP-Mixer，在特殊情况下，它可以等价于1x1的卷积的叠加。

因此，其实MLP-Mixer其实才应该是cnn的基础形态。

而采用更大的卷积核时，实际上相当于每个单元进行了一次与周边信息的融合。

那么很显然，在层中间对多个单元提取均值或最大值，也就是池化，如果再来加个归一化、缩放之类的，与Batch Norm是一致的。

所以，池化起到了调解筛孔的作用，当归一化不那么重要时，仅仅池化就够了，这取决于构造的网络组合特点。

关于池化一个显然直觉是，直接取平均值或最大值，是不是会有点糙了，所以有时候追求细节保留时，可以考虑将池化移除，然后统一使Batch Norm，效果也不错。

从直觉上很容易联想到，如果是图像处理，完全可以进行不同尺寸的、不同卷积核，进行多重采样，然后汇总在一起，训练出来的筛子，对于缩放变形，会有更好的适应能力。

最好的筛孔，当然是适合的筛孔，在训练筛子并制造筛孔时，有没有更好的方法，能够可以让形成的筛孔能够优先适应更加重要的特征？

一种好办法，就是对层层筛选的特征进行记录，标注成字典进行打分，这就是Attention，具体细的就不多说了。

huo-hua-de-41 网友的相关建议:

ResNet只是个trick，那你的工作该叫啥，反正不能高于trick吧？

不如格局打开

把ResNet称作传说级工作

那比RetNet差点的也能叫史诗级工作

拼凑组合的工作也能叫精良的工作

你的灌水小论文，也能叫优秀的工作

大家皆大欢喜，岂不妙哉？

wu-fang-dong-4 网友的相关建议:

先说答案，不是，残差有已经很深刻的数学理论做解释。

鄂维南院士在17年从动力系统角度用离散微分方程很好的解释了ResNet，直接深度学习解释性内核。

Weinan E. A Proposal on Machine Learning via Dynamical Systems[J]. Communication in Mathematics and Statistics, 2017.

很好工作，知道人好像不是很多的样子，CV的人反而更热衷于玩新奇的trick，反复炒冷饭

caopu021 网友的相关建议:

这个问题问得很好啊，我的建议是看今年年会的摘要集：

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会，不过计算化学分布得比较散，夹杂在各个分会中。各分会的主题可以从这里找到，可能相关的包括：

有一些主题是理论计算夹杂着实验的，还需要仔细辨别。回到摘要集，以第一分会为例：

中国化学会第32届学术年会摘要集-第一分会：物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了，而且还可以下载。

显然，能找到相关方向的摘要的单位，就是开设了相关方向的院校，甚至还能精确到具体的某个课题组。

Resnet是否只是一个深度学习的trick？的其他答案点击这里

前一个讨论

为什么有些北上广深的人越推崇甚至神化北上广深？有些不在北上广深的人越抵制甚至逃离北上广深？

下一个讨论

如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA？

Resnet是否只是一个深度学习的trick？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

Resnet是否只是一个深度学习的trick？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

Resnet是否只是一个深度学习的trick？第1页