1. 概念
学习速率(learning rate, lr) -->> 对梯度进行缩放的参数
超参数,即需要人为规定的参数。(相比较而言,'y = ax + b' 中的 a,b ,则是优化函数自动调整出的参数)
不合适的lr,会导致损失函数无法降低到最小值,而是在极值点附近不断震荡(超调)。
2. 如何提高网络的拟合能力
- 增加层(大大提升)
- 增加隐藏神经元个数(并不明显,但太小,会造成信息瓶颈,导致模型欠拟合)
- 训练更多轮次
3. 抑制过拟合
-
增加训练数据(或图像增强)
-
减小网络规模(不要太多的层)
-
添加权重正则化
-
使用Dropout层