一、找出最影响结果的那些特征
实例演示:泰坦尼克沉船事件中,最影响生死的因素有哪些?
1、导入相关的包
2、导入泰坦尼克号的数据
这种方法也可以:
3、数据清理和转换
3.1 查看是否有空值列
3.2 给Age列填充平均值
3.2 将性别列变成数字
3.3 给Embarked列填充空值,字符串转换成数字
4、将特征列和结果列拆分开
5、使用卡方检验选择topK的特征
6、按照重要性顺序打印特征列表
二、get_dummies用于机器学习的特征处理
get_dummies就是用于颜色、性别这种特征的处理,也叫作one-hot-encoding处理
比如:
男性:1 0
女性:0 1
这就叫做one-hot-encoding,是机器学习对类别的特征处理
1、普通无序分类特征可以用get_dummies编码
其实就是one-hot编码
注意,One-hot-Encoding一般要去掉一列,不然会出现dummy variable trap,因为一个人不是male就是femal,它俩有推导关系 https://www.geeksforgeeks.org/ml-dummy-variable-trap-in-regression-models/
2、机器学习模型训练