zoukankan      html  css  js  c++  java
  • Sklearn 中 OneHotEncoder 解析

    将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。

    from sklearn.preprocessing import OneHotEncode
    

    参数:

    OneHotEncoder(n_values=’auto’, 
                 categorical_features=’all’, 
                 dtype=<class ‘numpy.float64’>, 
                 sparse=True, 
                 handle_unknown=’error’)
    

    handle_unknown是一个比较有用的参数,默认是"error",指定为"ignore”更好,这个参数的目的是数据在转化为one-hot编码时,如果遇到一个属性值没有事先指定,程序应该怎么办?如果是error的话,程序就报错停止了,其实不方便处理数据,反而是ignore更好,程序可以继续执行
    一个例子:

    enc = OneHotEncoder()
    
    enc.fit([["男", 0, 3], 
              ["男", 1, 0],
              ["女", 2, 1], 
              ["女", 0, 2]])
    

    首先训练一下数据集,提取每一列的属性种类:

    print(enc.categories_)
    [array(['女', '男'], dtype=object), 
    array([0, 1, 2], dtype=object), 
    array([0, 1, 2, 3], dtype=object)]
    

    一个例子:

    from sklearn.preprocessing import  OneHotEncoder
    
    enc = OneHotEncoder()
    enc.fit([[0, 0, 3],
             [1, 1, 0],
             [0, 2, 1],
             [1, 0, 2]])
    
    # 如果不加 toarray() 的话,输出的是稀疏的存储格式,即索引加值的形式,也可以通过参数指定 sparse = False 来达到同样的效果
    
    ans = enc.transform([[0, 1, 3]]).toarray()  
    print(ans) # 输出 [[ 1.  0.  0.  1.  0.  0.  0.  0.  1.]]
    

    下面解释输出结果的意思。对于输入数组,这依旧是把每一行当作一个样本,每一列当作一个特征,

    • 我们先来看第一个特征,即第一列 [0,1,0,1],也就是说它有两个取值 0 或者 1,那么 one-hot 就会使用两位来表示这个特征,[1,0] 表示 0, [0,1] 表示 1,在上例输出结果中的前两位 [1,0...],也就是表示该特征为 0
    • 第二个特征,第二列 [0,1,2,0],它有三种值,那么 one-hot 就会使用三位来表示这个特征,[1,0,0] 表示 0, [0,1,0] 表示 1,[0,0,1] 表示 2,在上例输出结果中的第三位到第六位 [...0,1,0,0...]也就是表示该特征为 1
    • 第三个特征,第三列 [3,0,1,2],它有四种值,那么 one-hot 就会使用四位来表示这个特征,[1,0,0,0] 表示 0, [0,1,0,0] 表示 1,[0,0,1,0] 表示 2,[0,0,0,1] 表示 3,在上例输出结果中的最后四位 [...0,0,0,1] 也就是表示该特征为 3
      虽然训练样本中的数值仅仅代表类别,但是也必须使用数值格式的数据,如果使用字符串格式的数据会报错。

    n_values=’auto’,表示每个特征使用几维的数值由数据集自动推断,即几种类别就使用几位来表示。

    原文链接:https://blog.csdn.net/gxc19971128/article/details/106932288/

  • 相关阅读:
    Linux中OCI开发库的配置
    makefile中的gcc -o $@ $^是什么意思?
    【转】gcc中的-w -W和-Wall选项
    【转】Linux查看系统是32位还是64位方法总结
    【转】gcc命令中参数c和o混合使用的详解
    Python2.7设置在shell脚本中自动补全功能的方法
    Python3设置在shell脚本中自动补全功能的方法
    Pyqt图标下载网站
    如何使QLineEdit禁止编辑
    python偏函数的运用
  • 原文地址:https://www.cnblogs.com/geoffreygao/p/15721555.html
Copyright © 2011-2022 走看看