作者:szx_spark
1. 经典网络
-
LeNet-5
-
AlexNet
-
VGG
-
Ng介绍了上述三个在计算机视觉中的经典网络。网络深度逐渐增加,训练的参数数量也骤增。AlexNet大约6000万参数,VGG大约上亿参数。
-
从中我们可以学习到:
- 随着网络深度增加,模型的效果能够提升。
- 另外,VGG网络虽然很深,但是其结构比较规整。每经过一次池化层(过滤器大小为2,步长为2),图像的长度和宽度折半;每经过一次卷积层,输出数据的channel数量加倍,即卷积层中过滤器(filter)的数量。
2. 残差网络(ResNet)
-
由于存在梯度消失与梯度爆炸的现象,很难训练非常深的网络,因此引入了 “skip connections ”的概念,它可以从网络中的某一层获取激活值,并将信息传递给更深一层的网络(将输入流合并,点加),残差块可以训练更深的神经网络。
-
残差网络的结构如下:
-
更加直观的理解是:
- 残差网络可以尽量避免梯度爆炸或消失的现象;
- 我认为级联相当于对网络加了双层保险,类似于物理中电路的并联,两个输入流只要有一个work,仍能推动网络进行正常的训练。
-
看完上文的描述,可能有人会问,当两个输入流维度不同怎么进行“点加”操作?为了解决上述问题,Ng在课上提到引入一个权重矩阵(W_s),课堂笔记如下图所示:
-
该矩阵可以作为网络的参数进行训练;也可以是一个固定矩阵,对 “skip connections ”的数据进行zero padding,补齐到相同维度。之后将两个相同维度的数据进行”点加“操作。
3. (1 imes 1)卷积网络
-
该图对卷积核大小为1的CNN的解释是, 对输入的channel方向上的某一切片的所有数据与过滤器((1 imes 1 imes 32))进行点乘再相加的操作,相当于对channel维度上的数据乘以不同的权重。
-
(1 imes 1)的卷积从根本上可以理解为一个全连接网络,将数据的第三个维度,即channel大小的维度映射为 #filter(过滤器的数量)大小的维度。这种(1 imes 1)网络也被称之为Network in Network。
-
应用(1 imes 1)卷积将 (28 imes 28 imes 192) 维度的数据,压缩为(28 imes 28 imes 32)维度。这里只是压缩了第三个维度,而池化操作则对前两个维度进行了压缩。具体说明如图所示。
4. Inception
- 当设计卷积网络时,你需要决定过滤器的大小是(1 imes 1)还是(3 imes 3),要不要添加池化层等等。而Inception网络的作用就是代替人工来确定卷积层的过滤器类型,是否需要池化层。
Inception 网络的思想如图所示:
- 基本思想是Inception网络可以让网络自己学习他需要什么样的参数:过滤器大小、是否需要池化层。
- 你可以对网络添加这些参数的所有可能值。 比如图中1、3、5的数值。图中网络分别经过3个不同过滤器大小的卷积、1个池化操作,之后将4个输出流进行合并,作为Inception网络的输出。
但是,Inception网络会带来一个问题——计算成本大大提升。下面我们先对上图(5 imes 5)卷积的计算成本进行计算:
- 图中卷积操作采用了same卷积——使用padding,让卷积不改变图片数据的长和宽(输入数据的前两个维度)大小。该卷积使用了32个过滤器,且过滤器大小为(5 imes 5 imes 192),这样卷积的最终输出是(28 imes 28 imes 32)。经过计算,该卷积的计算成本约为1.2亿(乘法次数)。
为了减少计算成本,采用Section 3所讲的(1 imes 1)卷积,计算过程如下图所示:
- 图中的(1 imes 1)维卷积也称为bottleneck layer。由此可见,改进后的网络,计算成本由1.2亿,减少至1.24千万。
总的来说,当我们不知道该设计多大的卷积核大小时,Inception网络是很好的选择。经过实验证明,只要合理构建bottleneck layer,减少计算成本的同时,不会降低网络的性能。
5. Inception 网络具体实现
上图介绍了 Inception 模块的实现细节,输入数据((28 imes 28 imes 192))分别经过四个处理过程,分别是:
- 64个(1 imes 1)过滤器(严格来讲,应该是(1 imes 1 imes 192))。
- 96个(1 imes 1)过滤器,128个(3 imes 3)过滤器。
- 16个(1 imes 1)过滤器,32个(5 imes 5)过滤器。
- 为了不改变模型的前两个维度大小,这里使用same pooling,过滤器大小为(3 imes 3)。池化后数据的维度不发生改变,仍然为(28 imes 28 imes 192),为了避免最终合并的输出大部分被pooling输出填满,又添加了32个(1 imes 1)过滤器,将channel维度从192压缩至32。
该Inception 模块四个输出分别为(28 imes 28 imes 64)、(28 imes 28 imes 128)、(28 imes 28 imes 32)、(28 imes 28 imes 32)。合并后输出为(28 imes 28 imes 256)。
原论文的模型结构如下所示:
- 该结构看起来很复杂,其实使用很多重复的Inception模块,关于该模块,我们已经进行了非常详细的介绍。
- 原论文中 Inception 网络的一个细节是,他在模型中添加了几个隐藏层、softmax分支。它确保了网络的中间单元也参与了特征计算,并起到了一种调整的效果,能防止网络发生过拟合。
- 另外,在我看来,从某些程度上讲,这样也可以防止梯度消失现象的发生。
感兴趣的同学可以自行阅读发表在CVPR2015上的原始论文Going Deeper with Convolutions。
在这之后又衍生出Inception V2、V3、V4等网络结构,也有与之前提到的skip connections相结合的版本,模型的精度得到了提升。
想了解更多可以参考如下链接:
https://www.zhihu.com/question/50370954/answer/138938524
https://zhuanlan.zhihu.com/p/30756181