本文摘自:学习率和batchsize如何影响模型的性能?
初始的学习率一般有一个最优值,过大则导致模型不收敛,过小则导致模型收敛特别慢或者无法学习,下图展示了不同大小的学习率下模型收敛情况的可能性,图来自于cs231n。