简单总结下现有的CNN网络结构设计思想。
LeNet-5取名自它的作者Yann Lecun,最早被成功应用于在ATM中对支票上的手写数字进行识别。它可以说是CNN的开山之作,其中应用的卷积、激活、池化和全连接等操作一直被沿用至今。
Alex Krizhevsky设计的AlexNet在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)2012获得了冠军。AlexNet和LetNet-5的结构类似,但是比LetNet-5更深并且有更多的参数。AlexNet网络中一共有8层用于学习的神经层,分别是5层卷积层和3层全连接层。AlexNet的创新点在于1)开创性地使用了ReLU激活函数,提高了不少训练速度;2)使用了随机失活(Dropout)、数据增强(Data Augmentation)以及学习率衰减策略来防止过拟合。
AlexNet之后的下一个经典CNN网络就是VGG,同样将CNN在ImageNet分类竞赛的表现提升很多。VGG相比AlexNet最主要的提升就是将网络结构变得更深,网络层数由AlexNet的8层升至16和19层(VGG有两个版本,分别是16层的VGG-16和19层的VGG-19)。VGG也让我们知道网络的深度可以直接提升CNN在图像分类任务中的性能表现。
ILSVRC 2014的冠军网络来自Google的GoogleNet。它还有另外一个名字叫做Inception v1。Inception v1可以算是继VGG之后CNN分类器的一个里程碑。之前的网络主要是通过将CNN做的越来越深从而提升分类性能,但是Inception v1通过网络设计去解决每张图中的主体大小不一的问题从而提升分类性能。
首先在图像分类问题中有一个很常见的问题就是每张图中的主体的大小差别很大,比如下面三张图中的三只狗的大小都不一样,而且每只狗所在图片中的位置都不一样。由于图片中主体的位置差异巨大,就很难为卷积操作选择合适的卷积核大小。信息分布更完全的图片(比如下图中最左边的子图)适合较大的卷积核。而信息分布偏局部的图片(比如下图中最右边的子图)适合较小的卷积核。
Inception v1用一个新的单元结构,名叫Inception模块,去解决上面的问题。Inception模块如下图所示。每个Inception模块有多个滤波器,分别是1×1, 3×3和5×5,对输入图像进行卷积操作。并且还会进行一次最大池化操作。最后将这四个操作的输出结合在一起传送给下一个Inception模块。当然Inception v1也同时增加了网络的深度。它由9个线性的Inception模块组成,一共包含22层。
ResNet是继GoogleNet之后又一个CNN模型的里程碑。它在ILSVRC和COCO 2015上取得5项第一。ResNet最重要的成就是解决了深层CNN模型的训练问题。前面2014年的GoogleNet才只有22层,而2015年的ResNet有高达152层。这在网络深度上完全不是一个数量级。
理论上来讲,CNN的网络深度对提升性能非常重要,提升网络深度可以让模型的性能显著提升。但是从实验上来看,一味地增加网络深度时,网络的性能可能不增长甚至反而下降。而且随着网络深度的增加,梯度消失和梯度爆炸的出现的可能性也就越来越高。这些问题使训练深层CNN网络非常困难。
简单来说,传统网络结构(如下图所示),将每层的输出直接传递给相邻的下一层输出。
ResNet通过使用一个叫做捷径(Short cut或者Skip connection)去解决这个问题。ResNet由很多残差模块组成(如下图所示)。每个模块都由一些列连续的层和一个捷径组成。这个捷径将该模块的输入和输出连在一起,然后在进行ReLU激活之前,将两者相加。然后将得到的输出送给ReLU激活函数生成这个模块的输出。
通过堆叠残差模块,我们就可以把之前传统的网络结构改装成下图(示例)。这样一系列连续的残差模块组成的网络即便非常深(比如有1000层)也是可以有效训练的。
NASNet是使用神经结构搜索(NAS)框架构建的。简单来说,之前我们所说的所有CNN网络模型,从LetNet-5到ResNet都是研究人员手动设计的网络结构。而NAS就是用来自动搜索最优的神经网络结构的方法。由于ImageNet的数据集太大了,通过NAS直接在ImageNet上进行搜索最优CNN网络结构所需要的计算量太大了,所以NASNet的论文的作者使用NAS在CIFAR-10数据集上进行搜索得到了适用于CIFAR-10的最佳结构。即便是这样,通过NAS搜索得到的NASNet在ImageNet 2012竞赛的数据集也获得了3.8%的Top 5错误率。
上面的这些模型包含了这些年来的CNN分类算法发展中的主要思想。基于这些模型的思想,后面有又出现了很多更强大的CNN分类模型。比如基于Inception v1(GoogleNet)的Inception v2、Inception v3和Inception v4。之后的Xception将Inception的思想发挥到了极致。DenseNet是基于ResNet基本思想的一种网络。ResNet只将残差模块中的输入与输出连接在了一起。而DenseNet更为激进,将所有的层互相连接(如下图所示)从而建立密集连接(Dense Connection),这也是这个网络的名字的由来。换句话说,DenseNet中每一层的输入是前面所有层的输出。
ResNet和Inception这两种思想进行融合出现了后面更强大的Inception-ResNet和ResNeXt。在Inception模块引入了ResNet中的捷径思想,就出现了Inception-ResNet v1和Inception-ResNet-v2。Inception-ResNet v1的规模较小,和 Inception v3 相当。而Inception-ResNet v2的规模较大,和 Inception v4 规模差不多,并且两者的分类性能相近。在ResNet中引入Inception的思想得到了ResNeXt。其将ResNet的每一个残差模块像Inception模块那样进行横向扩展(如下图中的右图所示,ResNeXt通过在通道上对输入进行拆分,进行分组卷积)。
2017年最后一届ImageNet的冠军是SENet。它将Top 5错误下降到2.25%,可以说是提升巨大。简单讲SENet引入了一种SE模块,其通过Squeeze和Excitation这两个操作抑制无效特征并且提升有效特征的权重。通过将SE模块与现有CNN模型相结合,可以提升现有模型的性能。
通过上面的介绍可以看到,CNN分类模型变得越来越强大。但是随之而来的缺点也显而易见,这些模型通常需要巨大的存储和计算量。比如ResNet有152层,其模型大小将近300多MB,而且还需要非常强大的GPU来进行运算。而在某些低功耗领域上,比如手机和无人机上,如果要使用这样的模型,几乎是不可能的。所以近年来CNN模型的另外一个很重要的研究方向就是如果在算法层面有效降低模型所需要的存储和计算量。现阶段这个方面做得比较的模型有MobileNet系列和ShuffleNet系列。
对AI感兴趣的同学可以关注我的微信公众号:haotian3141。或者我的博客:www.neohsu.com
从经典的残差网络开始讲起:相较于传统的卷积神经网络,残差网络增加了跨层的恒等路径,以降低训练的难度,如下图所示:
Squeeze-and-Excitation Networks(SENet)在残差网络的基础上,增加了子网络,来自动学习一组权重,调整不同通道特征的大小:
深度残差收缩网络(Deep Residual Shrinkage Network)在SENet的基础上,又做了一些改进,将SENet中的加权替换成了软阈值化。
软阈值化是很多信号降噪算法的关键步骤,可以将接近于零(绝对值小于某个阈值τ)的特征置为零,也就是将处于[-τ, τ]区间的特征置为零,其他的特征也朝着零的方向进行收缩。
如果和前一层的偏置b放在一起看的话,这个置为零的区间就变成了[-τ+b, τ+b]。因为τ和b都是可以自动学习得到的参数,这么看的话,软阈值化似乎是可以将任意区间的特征置为零,是一种更灵活的、删除某个取值范围特征的方式,也可以理解成一种更灵活的非线性变换。
从另一个角度来理解的话,前面的两个卷积层,将冗余信息对应的特征,转换成接近于零的值;将有用的特征,转换成远离零的值。然后,自动学习得到一组阈值,利用软阈值化将冗余特征删除掉,将有用特征保留下来。
最后,和残差网络相同,也是堆叠很多基本模块,构成完整的网络:
文献:Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.
下面的链接可以供参考:
https:// github.com/zhao62/Deep- Residual-Shrinkage-Networks
https:// blog.csdn.net/ABCD_2020 20/article/details/105801032
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有