zoukankan      html  css  js  c++  java
  • 特征的处理

    1、首先要进行特征的选择,特征的选择需要基于一定的背景知识

    X = titanic[['age','pclass','sex']]

    y=titanic['survived']

    选择结束可以使用info()进行探查

    2、有些特征缺失,我们需要将其补充完整

    如果该特征是数值型 eg:age特征 可使用平均值或中位值,该策略是对模型造成影响最小的

    X['age'] .fillnaX['age'].mean() , inplace=True )

    X.info()   #再次查看

    3、有一些数据列的值都是类别型的,需要转化为数值特征,用0/1代替

    from sklearn.feature_extraction import DictVectorizer

    #使用scikit-sklearn.feature_extraction 中的特征转换器

    vec = DictVectorizer(sparse=False)   #sparse稀疏

    X_train = vec.fit_transform( X_train.to_dict(orient='record') )

    print(vec.feature_names_)  #通过查看转换特征后的结果我们发现凡是类别型的特征都单独剥离出来,独成一列特征,数值型不变

    如下图:

    完成了特征的处理,可以继续下一步啦!

  • 相关阅读:
    HDFS上传/下载数据的过程和原理
    使用JavaAPI获取文件信息
    jquery 最佳实践
    jQuery ajax
    两中复制表结构
    c#基础知识
    类和结构区别
    访问修饰符
    设计模式详细
    设计模式分类
  • 原文地址:https://www.cnblogs.com/cola-1998/p/10223504.html
Copyright © 2011-2022 走看看