消除图像共性:https://blog.csdn.net/qq_19329785/article/details/84569604
基本在deep learning中只要你是使用gradient descent来训练模型的话都要在数据预处理步骤进行数据归一化。为什么要采用这种预处理方式呢?首先如果输入层 很大,在back propagation时传递到输入层的梯度就会很大,如下式:梯度会乘上输入层x1我们知道如果梯度非常大,学习率就必须非常小(否则会跳过local minimum),因此,学习率(学习率初始值)的选择需要参考输入层的数值,不如直接将数据归一化,这样学习率就不必再根据数据范围作调整。而且受 和 的影响,各个梯度的数量级不相同,因此,它们需要的学习率数量级也就不相同。对 适合的学习率,可能相对于 来说会太小,如果仍使用适合 的学习率,会导致在 方向上走的非常慢,会消耗非常多的时间,而使用适合 的学习率,对 来说又太大,搜索不到适合 的解
参考:https://www.zhihu.com/question/49096923
https://blog.csdn.net/qq_30979017/article/details/87967554