zoukankan      html  css  js  c++  java
  • 数据预处理-机器学习

    参考文章:https://blog.csdn.net/marsjhao/article/details/70213749

    常见的数据预处理流程: 去除唯一属性,处理缺失值,特征编码,数据标准化正则化,特征选择,主成分分析;

    特征编码:

    # 度热编码 (one-hot encoding) :

      用N位的状态寄存器对N个可能的值进行编码,每个状态由一位寄存器表示,每个时刻只有一位寄存器有效;

      独热编码的优点:能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量;

    正则化:

    标准化:

    数据标准化是将样本的属性缩放到某个指定的范围。

    数据标准化的原因:

    某些算法要求样本具有零均值和单位方差;

    需要消除样本不同属性具有不同量级时的影响:①数量级的差异将导致量级较大的属性占据主导地位;②数量级的差异将导致迭代收敛速度减慢;③依赖于样本距离的算法对于数据的数量级非常敏感。

    归一化:

    对数据的数值范围进行特定缩放,但不改变其数据分布的一种线性特征变换;

    1.min-max 归一化:将数值范围缩放到(0,1),但没有改变数据分布;

    2. z-score 归一化:将数值范围缩放到0附近, 但没有改变数据分布;

    标准化:

    对数据的分布的进行转换,使其符合某种分布(比如正态分布)的一种非线性特征变换;

    比如:box-cox 标准化;

  • 相关阅读:
    Javascript之内置对象
    Javascript之匿名函数(私有变量)
    Web前端开发修炼之道 (2)
    11.标志寄存器
    10.CALL和RET指令
    Javascript之继承(其他方式)
    Javascript之Function类型
    5.[BX]和Loop指令
    JavaScript之执行环境及作用域
    Javascript之BOM(window对象)
  • 原文地址:https://www.cnblogs.com/robin2ML/p/10841547.html
Copyright © 2011-2022 走看看