zoukankan      html  css  js  c++  java
  • sklearn连续型数据离散化

    二值化

    设置一个condition,把连续型的数据分类两类。比如Age,大于30,和小于30。

    from sklearn.preprocessing import Binerize as Ber
    x = data_2.iloc[:,0].values.reshpe(-1,1) #提取数据
    trans = Ber(threshold = 30).fit_transform(x)
    trans
    

    这是x中>30的设置为1,其他的设置为0.

    标签

    有时数据可能需要对数据进行分箱化处理,或者给不同的数据设置不同的标签。

    from sklearn.preprocessing import LabelEncoder as le
    l = le()
    l=l.fit(y)
    label =l.transform(y)
    

    可以在l对象,用classes_属性,查看总共有多少类。

    l.classes_
    

    array(['No', 'Unknown', 'Yes'], dtype=object)

    label中就是处理过的数据。可直接写成:

    from sklearn.preprocessing import LabelEncoder
    data.iloc[:,-1]=LabelEncoder().fit_transform(data.iloc[:,-1])
    

    独热编码

    如果数据是有序,但不能进行计算。比如小学、中学、大学。如果用1,2,3分别进行替代。那么计算时,可能会将2视作1+1,两个小学加起来和中学不等,因此需要将它们单独分类组成这样的数据:

    stu_id 小学 中学 大学
    1234 1
    1235 1
    1236 1

    这种方法就叫独热编码。

    from sklearn.preprocessing import OneHotEncoder
    enc=OneHotEncoder(categories='auto').fit(x)
    

    使用get_feature_names() 可查看名称:

    enc.get_feature_names()
    

    enc.get_feature_names()

    得到的结果是稀疏矩阵,需要用toArray() 方法。

    result=OneHotEncoder(categories='auto').fit_transform(x).toarray()
    

    最后将结果连接到原数据中,再提取。

    newdata=pd.concat([data, pd.DataFrame(result)],axis=1)
    
  • 相关阅读:
    118. 杨辉三角
    1054. 距离相等的条形码
    面试题 02.01. 移除重复节点
    289. 生命游戏
    KONGA下的HAMC插件功能 --JAVA代码实现
    JPA
    Spring Cloud概述
    Spring框架分为哪七大模块,各模块的主要功能作用是什么
    ActiveMQ
    新手也能看懂,消息队列其实很简单
  • 原文地址:https://www.cnblogs.com/heenhui2016/p/10988059.html
Copyright © 2011-2022 走看看