zoukankan      html  css  js  c++  java
  • sklearn连续型数据离散化

    二值化

    设置一个condition,把连续型的数据分类两类。比如Age,大于30,和小于30。

    from sklearn.preprocessing import Binerize as Ber
    x = data_2.iloc[:,0].values.reshpe(-1,1) #提取数据
    trans = Ber(threshold = 30).fit_transform(x)
    trans
    

    这是x中>30的设置为1,其他的设置为0.

    标签

    有时数据可能需要对数据进行分箱化处理,或者给不同的数据设置不同的标签。

    from sklearn.preprocessing import LabelEncoder as le
    l = le()
    l=l.fit(y)
    label =l.transform(y)
    

    可以在l对象,用classes_属性,查看总共有多少类。

    l.classes_
    

    array(['No', 'Unknown', 'Yes'], dtype=object)

    label中就是处理过的数据。可直接写成:

    from sklearn.preprocessing import LabelEncoder
    data.iloc[:,-1]=LabelEncoder().fit_transform(data.iloc[:,-1])
    

    独热编码

    如果数据是有序,但不能进行计算。比如小学、中学、大学。如果用1,2,3分别进行替代。那么计算时,可能会将2视作1+1,两个小学加起来和中学不等,因此需要将它们单独分类组成这样的数据:

    stu_id 小学 中学 大学
    1234 1
    1235 1
    1236 1

    这种方法就叫独热编码。

    from sklearn.preprocessing import OneHotEncoder
    enc=OneHotEncoder(categories='auto').fit(x)
    

    使用get_feature_names() 可查看名称:

    enc.get_feature_names()
    

    enc.get_feature_names()

    得到的结果是稀疏矩阵,需要用toArray() 方法。

    result=OneHotEncoder(categories='auto').fit_transform(x).toarray()
    

    最后将结果连接到原数据中,再提取。

    newdata=pd.concat([data, pd.DataFrame(result)],axis=1)
    
  • 相关阅读:
    Ignite、Vertx
    Spring boot ConditionalOnClass原理解析
    SPI
    Redis (总结)
    Mysql 线程池 ===
    Mysql JDBC-mysql-Driver queryTimeout分析
    Java网关服务-AIO(三)
    Java网关服务-AIO(二)
    Java网关服务-AIO(一)
    Java nio Server端示例
  • 原文地址:https://www.cnblogs.com/heenhui2016/p/10988059.html
Copyright © 2011-2022 走看看