- 推荐使用 3×3 , 5×5 这样的小卷积核, 卷积
步长
设为 1. 且搭配padding
, 对卷积核大小为 n×n , 步长为 1 的卷积操作, 当 p=(f−1)/2p = (f-1)/2p=(f−1)/2 时, 便可维持输出与原输入等大. - 为了硬件字节级存储管理的方便, 卷积核个数通常设置为 2 的整数次幂.
- 同卷积核大小类似,
池化层
的核大小一般也设为较小的值, 如 2×2, 3×3 等. 池化层常起到下采样的作用. - 关于
学习率
的设定, 建议模型训练开始时设置 0.01 或 0.001 数量级学习率, 并随网络训练轮数增加逐渐减缓学习率, 另外可通过观察模型训练曲线判断学习率是否合适以及如何调整(增大或减小)学习率. 批规范化
操作可一定程度缓解深层网络训练师的梯度弥散
效应, 一般讲批规范化操作设置于网络的非线性映射函数之前, 批规范化操作可有效提高模型收敛率.