zoukankan      html  css  js  c++  java
  • Scikit-learn Preprocessing 预处理

    本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。

    数学基础

    均值公式:

    $$ar{x}=frac{1}{n} sum_{i=1}^{n} x_{i}$$

    方差公式:

    $$s^{2}=frac{1}{n} sum_{i=1}^{n}left(x_{i}-ar{x} ight)^{2}$$

    0-范数,向量中非零元素的个数。

    1-范数:

    $$|X|=sum_{i=1}^{n}left|x_{i} ight|$$

    2-范数:

    $$|X|_{2}=left(sum_{i=1}^{n} x_{i}^{2} ight)^{frac{1}{2}}$$

    p-范数的计算公式:

    $$|X|_{p}=left(|x 1|^{p}+|x 2|^{p}+ldots+|x n|^{p} ight)^{frac{1}{p}}$$

    一、标准化(Standardization)

    实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。(做概率论的题经常用这招啊)

    但是,当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时,标准化表现的效果较差。

    公式为:(X-X_mean)/X_std 计算时对每个属性/每列分别进行.

    将数据按其属性(按列进行)减去其均值,然后除以其方差。最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方差值为1。

    方法一:使用sklearn.preprocessing.scale()函数

    from sklearn import preprocessing 
    import numpy as np
    X = np.array([[ 1., -1.,  2.],
            [ 2.,  0.,  0.],
            [ 0.,  1., -1.]])
    X_mean = X.mean(axis=0)  #calculate mean
    X_std = X.std(axis=0)   #calculate variance 
    X1 = (X-X_mean)/X_std   #standardize X
    X_scale = preprocessing.scale(X)  #use function preprocessing.scale to standardize X

    最后X_scale的值和X1的值是一样的

    方法2:sklearn.preprocessing.StandardScaler类

    from sklearn import preprocessing 
    import numpy as np
    X = np.array([[ 1., -1.,  2.],
            [ 2.,  0.,  0.],
            [ 0.,  1., -1.]])
    scaler = preprocessing.StandardScaler()
    X_scaled = scaler.fit_transform(X)

    这两个方法得到最后的结果都是一样的。

    二、放缩(MinMaxScaler)

    另一种常用的方法是将属性缩放到一个指定的最大值和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类来实现。

    使用这种方法的目的包括:

    • 1、对于方差非常小的属性可以增强其稳定性;
    • 2、维持稀疏矩阵中为0的条目。

    下面将数据缩至0-1之间,采用MinMaxScaler函数

    from sklearn import preprocessing 
    import numpy as np
    X = np.array([[ 1., -1.,  2.],
            [ 2.,  0.,  0.],
            [ 0.,  1., -1.]])
    min_max_scaler = preprocessing.MinMaxScaler()
    X_minMax = min_max_scaler.fit_transform(X)
    X_minMax
    array([[0.5       , 0.        , 1.        ],
           [1.        , 0.5       , 0.33333333],
           [0.        , 1.        , 0.        ]])

    三、正则化(Normalization)

    正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。

    该方法是文本分类和聚类分析中经常使用的向量空间模型(Vector Space Model)的基础.

    Normalization主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。

    方法1:使用sklearn.preprocessing.normalize()函数

    from sklearn import preprocessing 
    import numpy as np
    X = np.array([[ 1., -1.,  2.],
            [ 2.,  0.,  0.],
            [ 0.,  1., -1.]])
    X_normalized = preprocessing.normalize(X, norm='l2')
    X_normalized

    方法2:sklearn.preprocessing.StandardScaler类

    from sklearn import preprocessing 
    import numpy as np
    X = np.array([[ 1., -1.,  2.],
            [ 2.,  0.,  0.],
            [ 0.,  1., -1.]])
    normalizer = preprocessing.Normalizer()
    normalizer.transform(X)     

    两种方法的结果相同:

    array([[ 0.40824829, -0.40824829,  0.81649658],
           [ 1.        ,  0.        ,  0.        ],
           [ 0.        ,  0.70710678, -0.70710678]])

    四、二值化(Binarization)

    特征的二值化主要是为了将数据特征转变成boolean变量。

    from sklearn import preprocessing 
    import numpy as np
    X = np.array([[ 1., -1.,  2.],
            [ 2.,  0.,  0.],
            [ 0.,  1., -1.]])
    binarizer = preprocessing.Binarizer()
    binarizer.transform(X)

    Binarizer函数也可以设定一个阈值,结果数据值大于阈值的为1,小于阈值的为0,实例代码如下:

    //只需加一个参数
    binarizer = preprocessing.Binarizer(threshold=1.1)

    五、缺失值处理

    现实中的数据集都包含有缺失值,要么是空白的,要么使用NaNs或者其它的符号替代。

    这些数据无法直接使用scikit-learn分类器直接训练,所以需要进行处理。

    幸运地是,sklearn中的Imputer类提供了一些基本的方法来处理缺失值,如使用均值、中位值或者缺失值所在列中频繁出现的值来替换。

    import numpy as np
    from sklearn.preprocessing import Imputer
    imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
    imp.fit([[1, 2], [np.nan, 3], [7, 6]])
    
    X = [[np.nan, 2], [6, np.nan], [7, 6]]
    print(imp.transform(X))  

    Imputer类同样支持稀疏矩阵(即含有大量的0):

    import scipy.sparse as sp
    X = sp.csc_matrix([[1, 2], [0, 3], [7, 6]])
    imp = Imputer(missing_values=0, strategy='mean', axis=0)
    imp.fit(X)
    
    X_test = sp.csc_matrix([[0, 2], [6, 0], [7, 6]])
    print(imp.transform(X_test))  

    更多的请到scikit-learn的官方文档中查看

    参考链接:https://blog.csdn.net/Dream_angel_Z/article/details/49406573

  • 相关阅读:
    The commands of Disk
    How to build a NFS Service
    Apache的dbutils的架构图
    Spring使用ThreadLocal解决线程安全问题
    NIO流程
    Servlet 生命周期、工作原理
    forward和redirect的区别
    笔记:Java 性能优化权威指南 第9、10、11章 GlassFish、Web应用、Web Service、EJB性能调优
    几个关于Java内存泄露方面的面试题
    MAT 检测 Java内存泄露检测
  • 原文地址:https://www.cnblogs.com/lfri/p/11774704.html
Copyright © 2011-2022 走看看