zoukankan      html  css  js  c++  java
  • sklearn preprocessing 数据预处理(OneHotEncoder)

    原博客:

    https://blog.csdn.net/lanchunhui/article/details/72794317

    数据集:

      [[0, 0, 3],

      [1, 1, 0],

      [0, 2, 1],

      [1, 0, 2]]

    每一列代表一个属性,fit 操作之后:

    • 对象encn_values_成员变量,记录着每一个属性的最大取值数目,如本例第一个属性:0, 1, 0, 1 ⇒ 2,0, 1, 2, 0 ⇒ 3,3, 0, 1, 2 ⇒ 4; 
      • 即各个属性(feature)在 one hot 编码下占据的位数;
    • 对象 enc 的 feature_indices_,则记录着属性在新 One hot 编码下的索引位置, 
      • feature_indices_ 是对 n_values_ 的累积值,不过 feature_indices 的首位是 0;

    进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码:

    >>> enc.transform([[0, 1, 1]]).toarray()
    array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
    • 1
    • 2
    • 前 2 位 1, 0,对 0 进行编码
    • 中间 3 位 0, 1, 0 对 1 进行编码;
    • 末尾 4 位 0, 1, 0, 0 对 1 进行编码;
  • 相关阅读:
    SQL中char,varchar,nvarchar等的异同
    SQL中group by的用法
    如何管理自己的时间
    ref和out
    SQL中的日期时间函数
    SQL中的类型转换
    SQL中的自定义函数Function
    SQL中的模糊查询
    Struct是干什么的
    把普通图片转换成二进制
  • 原文地址:https://www.cnblogs.com/smartwhite/p/9683038.html
Copyright © 2011-2022 走看看