谈谈我对归一化与标准化作用区别的理解

zoukankan html css js c++ java

谈谈我对归一化与标准化作用区别的理解

为什么要做归一化或者标准化？

　　主要是为了调整样本数据每个维度的量纲，让每个维度数据量纲相同或接近。为什么要调整量纲？目的是什么？

　　1 量纲不一样的情况是什么？

　　　　比如一个2分类任务，预测一批零件是合格品还是残次品。

　　　　　这个零件把他假象成是细长细长的棍子，有两个维度特征，半径都是 1 cm左右，长度都是1000cm左右

　　　　合格的零件半径都在1cm左右差距不大，长度都在1000cm左右差距不大，差距稍微大了点可能就不合格了。至于差距多少算不合格，要建立模型自己去学一下。

　　　　　　一个特征1cm左右一个特征1000cm左右，这个就叫量纲不一样。

　　　　　　1cm左右的特征，上差下差也都是0.几cm的差距， 1000cm的特征上差下差可能差出10cm多或者更多，这就是量纲不一样！

　　2 量纲不一样会造成什么样的后果？

　　　　会误导误导我们的模型学习过程！！

　　　　比如这个零件合不合格的问题，用k近邻算法，或者svm算法，或者什么其他算法，

　　　　当算点到点距离或者点到超面距离的时候，

　　　　　　半径带来的差的平方可能是(0.75 - 1)^2 = 0.25^2 基本连1都不到

　　　　　　长度带来的差的平方可能是（1020-1000）^2 = 400，它很大，甚至可能都超过1000这个数量级

　　　　　　再把半径的残差和长度的残差加和 400.00xx

　　　　　　结果半径的残差可以忽略不计了！！

　　　　　　模型认为长度差距带来的影响巨大！

　　　　　　get不到半径细小的差距也是导致合不合格的原因！可能学不明白到底因为啥合格因为啥不合格！

　　3 怎么解决这个问题？？

　　　　把每个维度特征的量纲调整到一样或者相近！

　　　　目前，最常用的两个方法是：

　　　　　　归一化

　　　　　　标准化

　　4 归一化和标准化是咋回事？干了什么？怎么做到缩放的量纲？

　　　　在这里我只说说最简单常用的标准化和归一化，变形的形式我就不说了，

　　　　　因为我了解的也不深入！简单的我都整不明白呢！整复杂的再整错了挨揍啥的不好。

　　　　对于一个样本X 是n行*d列的矩阵，有n条样本数据，每个数据占一行，每条数据有d个的特征

　　　　　　比如刚才内个零件的 X 就是n行*2列的矩阵，有n个零件的数据每个零件有2个特征分别是半径和长度

　　　　　　用Xi 表示所有n个样本的第i列特征，

　　　　　　归一化和标准化他俩分别干啥了呢？不要急且听我继续胡说八道。

　　　　归一化：

　　　　　　对样本X的每个列Xi,

　　　　　　　　　　Xi = (Xi - min(Xi)) / ( max(Xi) - min(Xi) )

　　　　　　　　　　把Xi这列的每个数都减去这列的最小值再除以这列最大值和最小值的差

　　　　　　结果：所有列的数据，都缩放到 0到1之间，且最大值是1，最小值是0

　　　　　　　　　这个变换保留了这列中每个数到最小值的差距的比例，

　　　　　　　　　量纲大的给缩小了，量纲小的给扩大了全都在0到1之间，量纲严格相等

　　　　标准化：

　　　　　　对样本X的每个列 Xi

　　　　　　　　　　Xi = (Xi - mean(Xi)) / 方差(Xi)

　　　　　　　　　　把这列的每个数都减去这列的均值再除以这列的方差

　　　　　　结果：所有列的数据均值为0 方差为1

　　　　　　　　　这个变换，保留了每列原本的分布，保留了每个数距离均值的差距比例

　　　　　　　　　所有数在均值为中心周围分布，并且方差为1

　　　　　　　　　对于不同列最大值与最小值之间的差距不一定是多少，

　　　　　　　　　量纲大的列被缩小量纲小的列被放大，量纲不严格相等，只是比原来更接近而且很接近了。

　　5 归一化和标准化怎样选择用哪个预处理数据？有什么区别？？

　　　　1 现实中，用归一化更多，因为需要严格要求数据在0到1之间且量纲相等。

　　　　比如现在在深度学习中 cnn中的分类任务，都使用梯度下降BP反向传播算法更新参数，

　　　　　　在梯度下降中是为了逼近最优解，如果不同维度特征的量纲差距大，在超空间中，会形成超椭球的形状

　　　　　　梯度下降过程会反复震荡，如下：

　　　　　　　　　　　　　　

　　　　　　　　当量纲完全一致，样本分布在空间是超正圆，梯度下降才最高效，如图：

　　　　　　　　　　　　　　　　

　　　　2 但是不尽然！有的时候真的需要使用标准化，归一化效果不好。

　　　　　　比如就预测零件是否合格的问题，

　　　　　　往往合格的零件，长度和半径都在样本均值附近才最好才是合格的。

　　　　　　长度过短或者过长都不合格，半径太大太小也都不合格。

　　　　　　我们需要保留样本距离均值的差距比例，

　　　　　　　　如果使用归一化，

　　　　　　　　　　我们只考虑样本到最小值的距离比例，最小值估计应该是个残次品，

　　　　　　　　　　我们丢失了最想要的均值周围的分布情况。

　　　　　　　　　　均值左侧的被缩放程度小，均值右侧被缩放程度大！

　　3 总结一下：

　　　　有的人说，一般只用标准化！这个保留了样本原来的分布！！

　　　　有的人说，一般只用归一化！这个梯度下降收敛效果好！！

　　　　我个人的理解，

　　　　　　如果样本噪声不大，污染不严重，采用归一化比较好，量纲缩放到严格相同，计算距离的时候带来的影响是等价的。

　　　　　　如果均值的信息是有意义的，建议不实用归一化，实用标准化。量纲不同但很接近，不要丢失核心关键！！

以上内容纯属个人理解！欢迎批评指正！

谢谢阅读。

　　　　

查看全文

相关阅读:
MySQL8安装及使用当中的一些注意事项
 设计模式-观察者模式
 在线教育项目-day12【完善后端整合前端】
在线教育项目-day12【微信扫码登录】
在线教育项目-day12【OAuth2】
在线教育项目-day12【完善登陆页面】
在线教育项目-day12【整合前端登陆注册页面（2）】
在线教育项目-day12【整合前端登陆注册页面（1）】
在线教育项目-day12【解析oken信息】
在线教育项目-day12【注册接口】

原文地址：https://www.cnblogs.com/Lin-Yi/p/10387648.html

谈谈我对 归一化 与 标准化 作用 区别 的理解

谈谈我对归一化与标准化作用区别的理解