深度学习基础——Epoch、Iteration、Batchsize
GPU对2的幂次的batch可以发挥更佳的性能,因此设置成16、32、64、128...时往往要比设置为整10、整100的倍数时表现更优
https://zhuanlan.zhihu.com/p/27763696
深度学习通用策略:SGD, weight decay, momentum, normalization含义理解
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)