Architecture:
整个网络8层,5个卷积层,3个全连接层
Relu Nonlinearity:
非饱和的relu比饱和的sigmoid或者tanh训练速度快很多,并有效解决梯度消失
Overlapping Pooling:
论文中整个网络都使用重叠网络,分别降低top-1、top-5的错误率0.4%、0.3%,并且发现会是网络更加难以过拟合。
Reducing Overfitting:
Data Augmentation:
最简单和最常用的减少过拟合的方式是人为地扩大数据集。数据增强有两种方式,这两种方式都是对原图像进行很少的计算,不需要存储在硬盘上。
1.图像转换和水平翻转。分别从256x256大小的原图像和翻转图像中随机提取224x224大小的块来增加图像数量。没有足够的数据,将限制网络的大小。
2.改变RGB通道的强度。
Dropout:
每次训练,dropout随机选择不参与网络的神经元(既不参与前向传播、也不参与反向传播),相当于每次产生不同的网络结构,但他们是权值共享的,最后训练出来的模型相当于把这些模型结合起来,这种方式有效防止过拟合。
http://blog.csdn.net/liumaolincycle/article/details/50496499 翻译