zoukankan      html  css  js  c++  java
  • sklearn连续型数据离散化

    二值化

    设置一个condition,把连续型的数据分类两类。比如Age,大于30,和小于30。

    from sklearn.preprocessing import Binerize as Ber
    x = data_2.iloc[:,0].values.reshpe(-1,1) #提取数据
    trans = Ber(threshold = 30).fit_transform(x)
    trans
    

    这是x中>30的设置为1,其他的设置为0.

    标签

    有时数据可能需要对数据进行分箱化处理,或者给不同的数据设置不同的标签。

    from sklearn.preprocessing import LabelEncoder as le
    l = le()
    l=l.fit(y)
    label =l.transform(y)
    

    可以在l对象,用classes_属性,查看总共有多少类。

    l.classes_
    

    array(['No', 'Unknown', 'Yes'], dtype=object)

    label中就是处理过的数据。可直接写成:

    from sklearn.preprocessing import LabelEncoder
    data.iloc[:,-1]=LabelEncoder().fit_transform(data.iloc[:,-1])
    

    独热编码

    如果数据是有序,但不能进行计算。比如小学、中学、大学。如果用1,2,3分别进行替代。那么计算时,可能会将2视作1+1,两个小学加起来和中学不等,因此需要将它们单独分类组成这样的数据:

    stu_id 小学 中学 大学
    1234 1
    1235 1
    1236 1

    这种方法就叫独热编码。

    from sklearn.preprocessing import OneHotEncoder
    enc=OneHotEncoder(categories='auto').fit(x)
    

    使用get_feature_names() 可查看名称:

    enc.get_feature_names()
    

    enc.get_feature_names()

    得到的结果是稀疏矩阵,需要用toArray() 方法。

    result=OneHotEncoder(categories='auto').fit_transform(x).toarray()
    

    最后将结果连接到原数据中,再提取。

    newdata=pd.concat([data, pd.DataFrame(result)],axis=1)
    
  • 相关阅读:
    ARM应用笔记网址和常见问题
    ARM处理器中断处理的编程实现(转)
    altera_avalon_pio_regs.h中的函数意义
    keil 启动代码at91sam9260
    转载:"IF :DEF: EN_CRP"这一句是什么意思啊?
    Realview MDK中启动代码的配置详解
    转载 网络上的8051 free IP core资源
    keil下ARM启动代码分析视频
    SOPC方面的书籍
    NIOS的system.h解读PIO实现的LED灯和key
  • 原文地址:https://www.cnblogs.com/heenhui2016/p/10988059.html
Copyright © 2011-2022 走看看