数据预处理-机器学习

zoukankan html css js c++ java

数据预处理-机器学习

参考文章：https://blog.csdn.net/marsjhao/article/details/70213749

常见的数据预处理流程：去除唯一属性，处理缺失值，特征编码，数据标准化正则化，特征选择，主成分分析；

特征编码：

# 度热编码 (one-hot encoding) :

　　用N位的状态寄存器对N个可能的值进行编码，每个状态由一位寄存器表示，每个时刻只有一位寄存器有效；

　　独热编码的优点：能够处理非数值属性；在一定程度上扩充了特征；编码后的属性是稀疏的，存在大量的零元分量；

正则化：

标准化：

数据标准化是将样本的属性缩放到某个指定的范围。

数据标准化的原因：

某些算法要求样本具有零均值和单位方差；

需要消除样本不同属性具有不同量级时的影响：①数量级的差异将导致量级较大的属性占据主导地位；②数量级的差异将导致迭代收敛速度减慢；③依赖于样本距离的算法对于数据的数量级非常敏感。

归一化：

对数据的数值范围进行特定缩放，但不改变其数据分布的一种线性特征变换；

1.min-max 归一化：将数值范围缩放到（0,1）,但没有改变数据分布；

2. z-score 归一化：将数值范围缩放到0附近, 但没有改变数据分布；

标准化：

对数据的分布的进行转换，使其符合某种分布（比如正态分布）的一种非线性特征变换；

比如：box-cox 标准化；

查看全文

相关阅读:
骗分
 【WC2016】鏖战表达式
 emacs配置
 UOJ NOI Round #4补题
 调整法
 IOC(控制反转)与DI（依赖注入）的个人理解。
WPF进阶技巧和实战06-控件模板
 WPF进阶技巧和实战05-样式与行为
 WPF进阶技巧和实战04-资源
 WPF进阶技巧和实战03-控件（2-特殊容器）

原文地址：https://www.cnblogs.com/robin2ML/p/10841547.html