数据规范化(normalization)

zoukankan html css js c++ java

数据规范化(normalization)
本文摘自数据规范化（归一化）、及Z-score标准化

　　　　解读：为什么要做特征归一化/标准化？（推荐）

一. 常用的feature scaling方法

最大最小规范化

最小-最大规范化也称为离散标准化，是对原始数据的线性变换，将数据值映射到[0, 1]之间。公式为：

离散标准化保留了原来数据中存在的关系，是消除量纲和数据取值范围影响的最简单方法。这种处理方法的缺点是若数值集中且某个数值很大，则规范化后各值接近于0，并且将会相差不大。（如 1， 1.2， 1.3， 1.4， 1.5， 1.6，8.4）这组数据。

Mean normalization

将均值映射为0，同时用最大值最小值的差对特征进行归一化，一种更常见的做法是用标准差进行归一化，如下。

零均值规范化（z-socre标准化、Standardization）

零-均值规范化也称标准差标准化，经过处理的每个维度的数据的均值为0，标准差为1。公式为：

式中，mean是原始数据的均值， $\sigma$ 为原始数据的标准差。标准差分数可以回答这样一个问题："给定数据距离其均值多少个标准差"的问题，在均值之上的数据会得到一个正的标准化分数，反之会得到一个负的标准化分数。

Scaling to unit length

将每个样本的特征向量除以其长度，即对样本特征向量的长度进行归一化，长度的度量常使用的是L2 norm（欧氏距离），有时也会采用L1 norm。

二. 几个规范化方法的比较

前3种feature scaling的计算方式为减一个统计量再除以一个统计量，最后1种为除以向量自身的长度。
- 减一个统计量可以看成选哪个值作为原点，是最小值还是均值，并将整个数据集平移到这个新的原点位置。如果特征间偏置不同对后续过程有负面影响，则该操作是有益的，可以看成是某种偏置无关操作；如果原始特征值有特殊意义，比如稀疏性，该操作可能会破坏其稀疏性。
- 除以一个统计量可以看成在坐标轴方向上对特征进行缩放，用于降低特征尺度的影响，可以看成是某种尺度无关操作。缩放可以使用最大值最小值间的跨度，也可以使用标准差（到中心点的平均距离），前者对outliers敏感，outliers对后者影响与outliers数量和数据集大小有关，outliers越少数据集越大影响越小。
- 除以长度相当于把长度归一化，把所有样本映射到单位球上，可以看成是某种长度无关操作，比如，词频特征要移除文章长度的影响，图像处理中某些特征要移除光照强度的影响，以及方便计算余弦距离或内积相似度等。
从几何上观察上述方法的作用，图片来自CS231n-Neural Networks Part 2: Setting up the Data and the Loss，zero-mean将数据集平移到原点，unit-variance使每维特征上的跨度相当，图中可以明显看出两维特征间存在线性相关性，Standardization操作并没有消除这种相关性。

总的来说，归一化/标准化的目的是为了获得某种“无关性”——偏置无关、尺度无关、长度无关……当归一化/标准化方法背后的物理意义和几何含义与当前问题的需要相契合时，其对解决该问题就有正向作用，反之，就会起反作用。所以，“何时选择何种方法”取决于待解决的问题，即problem-dependent。

三. 什么时候需要feature scaling？
- 涉及或隐含距离计算的算法，比如K-means、KNN、PCA、SVM等，一般需要feature scaling，因为：
zero-mean一般可以增加样本间余弦距离或者内积结果的差异，区分力更强，假设数据集集中分布在第一象限遥远的右上角，将其平移到原点处，可以想象样本间余弦距离的差异被放大了。在模版匹配中，zero-mean可以明显提高响应结果的区分度。就欧式距离而言，增大某个特征的尺度，相当于增加了其在距离计算中的权重，如果有明确的先验知识表明某个特征很重要，那么适当增加其权重可能有正向效果，但如果没有这样的先验，或者目的就是想知道哪些特征更重要，那么就需要先feature scaling，对各维特征等而视之。增大尺度的同时也增大了该特征维度上的方差，PCA算法倾向于关注方差较大的特征所在的坐标轴方向，其他特征可能会被忽视，因此，在PCA前做Standardization效果可能更好，如下图所示，图片来自scikit learn-Importance of Feature Scaling
- 损失函数中含有正则项时，一般需要feature scaling：对于线性模型y=wx+b而言，x的任何线性变换（平移、放缩），都可以被w和b“吸收”掉，理论上，不会影响模型的拟合能力。但是，如果损失函数中含有正则项，如λ∣∣w∣∣^2，λ为超参数，其对w的每一个参数施加同样的惩罚，但对于某一维特征xi而言，其scale越大，系数wi越小，其在正则项中的比重就会变小，相当于对wi惩罚变小，即损失函数会相对忽视那些scale增大的特征，这并不合理，所以需要feature scaling，使损失函数平等看待每一维特征。
- 梯度下降算法，需要feature scaling。梯度下降的参数更新公式如下，
E(W)为损失函数，收敛速度取决于：参数的初始位置到local minima的距离，以及学习率η的大小。一维情况下，在local minima附近，不同学习率对梯度下降的影响如下图所示：

多维情况下可以分解成多个上图，每个维度上分别下降，参数W为向量，但学习率只有1个，即所有参数维度共用同一个学习率（暂不考虑为每个维度都分配单独学习率的算法）。收敛意味着在每个参数维度上都取得极小值，每个参数维度上的偏导数都为0，但是每个参数维度上的下降速度是不同的，为了每个维度上都能收敛，学习率应取所有维度在当前位置合适步长中最小的那个。下面讨论feature scaling对gradient descent的作用，
不同方向上的下降速度变化不同（二阶导不同，曲率不同），恰由输入的协方差矩阵决定，通过scaling改变了损失函数的形状，减小不同方向上的曲率差异。将每个维度上的下降分解来看，给定一个下降步长，如果不够小，有的维度下降的多，有的下降的少，有的还可能在上升，损失函数的整体表现可能是上升也可能是下降，就会不稳定。scaling后不同方向上的曲率相对更接近，更容易选择到合适的学习率，使下降过程相对更稳定。
- 对于传统的神经网络，对输入做feature scaling也很重要，因为采用sigmoid等有饱和区的激活函数，如果输入分布范围很广，参数初始化时没有适配好，很容易直接陷入饱和区，导致梯度消失，所以，需要对输入做Standardization或映射到[0,1]、[−1,1]，配合精心设计的参数初始化方法，对值域进行控制。但自从有了Batch Normalization，每次线性变换改变特征分布后，都会重新进行Normalization，似乎可以不太需要对网络的输入进行feature scaling了？但习惯上还是会做feature scaling。
四. 什么时候不需要Feature Scaling？

与距离计算无关的概率模型，不需要feature scaling，比如Naive Bayes；与距离计算无关的基于树的模型，不需要feature scaling，比如决策树、随机森林等，树中节点的选择只关注当前特征在哪里切分对分类更好，即只在意特征内部的相对大小，而与特征间的相对大小无关。
查看全文

相关阅读:
线段树练习两题
 DP+单调队列 codevs 1748 瑰丽华尔兹（还不是很懂具体的代码实现）
线段树和树状数组问题补充
 一些常见的优化：读入优化,滚动数组
 单调队列应用--BZOJ 3831 Little Bird
单调队列练习之广告印刷
 详解--单调队列经典滑动窗口问题
 数据结构--栈 codevs 1107 等价表达式
 离散化+线段树 POJ 3277 City Horizon
求次短路 codevs 1269 匈牙利游戏

原文地址：https://www.cnblogs.com/picassooo/p/11904056.html

数据规范化(normalization)

一. 常用的feature scaling方法

最大最小规范化

Mean normalization

零均值规范化（z-socre标准化、Standardization）

Scaling to unit length

二. 几个规范化方法的比较

三. 什么时候需要feature scaling？

四. 什么时候不需要Feature Scaling？