zoukankan      html  css  js  c++  java
  • 【pandas-20】实践(泰坦尼克沉船事件)-特征处理

    一、找出最影响结果的那些特征

    实例演示:泰坦尼克沉船事件中,最影响生死的因素有哪些?

    1、导入相关的包

    2、导入泰坦尼克号的数据

    这种方法也可以:

    3、数据清理和转换

    3.1 查看是否有空值列

    3.2 Age列填充平均值

    3.2 将性别列变成数字

    3.3 Embarked列填充空值,字符串转换成数字

    4、将特征列和结果列拆分开

    5、使用卡方检验选择topK的特征

    6、按照重要性顺序打印特征列表

       

       

    二、get_dummies用于机器学习的特征处理

    get_dummies就是用于颜色、性别这种特征的处理,也叫作one-hot-encoding处理

    比如:

    男性:1 0

    女性:0 1

    这就叫做one-hot-encoding,是机器学习对类别的特征处理

    1、普通无序分类特征可以用get_dummies编码

    其实就是one-hot编码

    注意,One-hot-Encoding一般要去掉一列,不然会出现dummy variable trap,因为一个人不是male就是femal,它俩有推导关系 https://www.geeksforgeeks.org/ml-dummy-variable-trap-in-regression-models/

    2、机器学习模型训练

  • 相关阅读:
    最小路径
    零钱兑换
    硬币
    三步问题
    区域和检索
    除数博弈
    URI和URL的辨别
    交叉编译OpenMP
    牛客挑战赛44D-数列的和
    CF1408H. Rainbow Triples
  • 原文地址:https://www.cnblogs.com/yifanrensheng/p/14659820.html
Copyright © 2011-2022 走看看