![](https://img2020.cnblogs.com/blog/1595345/202004/1595345-20200410234440257-2105853468.png)
![](https://img2020.cnblogs.com/blog/1595345/202004/1595345-20200410234546444-696642872.png)
,
No.1. 数据归一化的目的
数据归一化的目的,就是将数据的所有特征都映射到同一尺度上,这样可以避免由于量纲的不同使数据的某些特征形成主导作用。
No.2. 数据归一化的方法
数据归一化的方法主要有两种:最值归一化和均值方差归一化。
最值归一化的计算公式如下:
,
,
![](https://img2018.cnblogs.com/i-beta/1595345/202001/1595345-20200114132717925-253308725.png)
最值归一化的特点是,可以将所有数据都映射到0-1之间,它适用于数据分布有明显边界的情况,容易受到异常值(outlier)的影响,异常值会造成数据的整体偏斜。
均值方差归一化的计算公式如下:
![](https://img2018.cnblogs.com/i-beta/1595345/202001/1595345-20200114132739173-2131609857.png)
均值方差归一化的特点是,可以将数据归一化到均值为0方差为1的分布中,不容易受到异常值(outlier)影响。
No.3. 向量和矩阵的最值归一化
![](https://img2020.cnblogs.com/blog/1595345/202004/1595345-20200411222217180-123277934.png)
如何对测试数据集进行归一化处理?
不能直接求mean_test,std_test!!!
应该使用训练数据集求得的mean_train,std_train
![](https://img2020.cnblogs.com/blog/1595345/202004/1595345-20200411222516114-615696998.png)
![](https://img2020.cnblogs.com/blog/1595345/202004/1595345-20200411222638757-495803799.png)
![](https://img2020.cnblogs.com/blog/1595345/202004/1595345-20200411222709125-415330507.png)