有个写的很好的文章:https://zhuanlan.zhihu.com/p/80087776
【一】
网络结构很重要,一层都不能少
如果算力提升,效果很显然可以继续提升。
防止过拟合很重要
【二】数据集
train 120w valid 5w test 15w,
报告两个错误率 top1 - top5
预处理:裁剪成 256 x 256, 每张照片 demean
【三】网络结构
3.1 Relu:速度快很多
3.2 双GPU并行跑: 提升1.7% 1.2% (比较单GPU,一半神经元)
3.3 局部标准化:提升泛化能力
3.4 overlap pooling:
传统pooling 2x2, new pooling 步长2 邻域3,
【四】防止过拟合
6000w个参数
4.1 数据增强: 反射 平移 、 改变RGB的强度、
4.2 dropout: 0.5的概率为0, 只在两层全连接。最后用所有的,只是输出乘以0.5
【五】学习细节
sgd 0.9 momentum 0.0005 weight decay,这个decay是施加在momentum上的
weight decay十分重要!
w为std为0.01的正态分布,b有一些为1, 有一些为0, 为了加速
lr相同0.01, 当不会更好的时候 lr 除以10,一共做了三次
训练了90个循环。
待填坑:
1、local normalize具体实现
2、模型效果与evaluation