数据标准化 Normalization
- 把特征的各个维度标准化到特定的区间
- 把有量纲表达式变为无量纲表达式
- 归一化是标准化的一种
Min-Max Feature Scaling
[x' = frac{x; - ; X_{min}}{X_{max} ;;; - ;;X_{min}}
]
- 特点:
1.当有新数据加入时,可能导致 max 和 min 发生变化,需要重新定义。
2.如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min
3.训练集的max,min不适用于测试集。
4.数据处理后范围在0-1之间。
Z-score(零均值标准化、标准差标准化)
[z = frac{x; - ; mu}{sigma}
]
- 特点:
1.经过处理的数据符合标准正态分布,即均值为 0,标准差为 1 。其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
2.对于每个特征来说所有数据都聚集在0附近,方差为1。
Ref.
https://en.wikipedia.org/wiki/Feature_scaling
https://www.zhihu.com/question/20467170
https://blog.csdn.net/u011092188/article/details/78174804
https://en.wikipedia.org/wiki/Normalization_(statistics)