1. 梯度裁剪:当梯度大于一定阈值的时候才对其裁剪
caffe的solver中设置
clip_gradients: 10 #float
2. 梯度爆炸:深度网络的反传过程中,是一个梯度权值连成的过程,这样如果因子值大于1,则随着层数增加乘积会越来越大
3. 梯度消失:当因子小于1时,乘积则会越来越小接近于0,使得无法更新网络参数
4. f-measure