用决策树做泰坦尼克号乘客的生存预测

zoukankan html css js c++ java

用决策树做泰坦尼克号乘客的生存预测
前言

前些天学习了一下决策树算法（ID3、C4.5、cart算法），今天实际练习一下。

数据集、测试集地址：

https://github.com/cystanford/Titanic_Data

原始数据：

train.csv 是训练数据集，包含特征信息和存活与否的标签；

test.csv: 测试数据集，只包含特征信息。

我们需要做的，就是使用训练集的数据，构建决策树，然后对测试集数据进行预测。

训练集中的数据特征：

数据分析流程：

接下来我们会按照以上这6个步骤，去对泰坦尼克号乘客进行生存预测。

数据探索：

数据探索，其实就是对现有数据进行分析。比如行数、列数、数据完整度等。

进行数据探索，你需要知道如下几个函数：

使用info()查看数据表的基本信息：行数、列数、每列的数据类型、数据完整度；

使用describe()了解数据表的统计情况：总数、平均值、标准值、最小值、最大值等；

使用describe(include=['0'])查看字符串（非数字）类型的整体情况

使用head查看前几行数据（默认5行）

使用tail查看后几行数据（默认后5行）

接下来我们执行一下这些命令
import pandas as pd # 数据加载 train_data = pd.read_csv('../niki/train.csv')
info()查看数据表基本信息
# 数据探索 print(train_data.info())
可以看到它展示了：行数、数据完整度、数据类型、字段名、数据类型数、内存使用情况。

describe()查看数据表的统计信息：
# 数据探索 print(train_data.describe())
可以看出，它展示的依次是：数据量、平均值、标准差、最小值、还有25%、50%、75%所含的数据、最大值

上面的输出结果只展示了部分数据，如果想展示全部的数据，只需要在describe方法执行之前，加上上面两句指令即可：
# 显示所有列 pd.set_option('display.max_columns', None) # 显示所有行 pd.set_option('display.max_rows', None)
describe(include=['0'])查看字符串类型整体情况：
# 数据探索 print(train_data.describe(include=['O']))
展示了数据的数量，有多少数据是不等的，出现数量最多的数据是什么，出现了几次。

head tail查看数据的前几行和后几行：

这两条命令和linux查看文件的命令是一样的。
# 数据探索 print(train_data.head()) print('-'*50) print(train_data.tail())
数据清洗：

我们对训练集和测试集中的数据进行探索，可以得知：

Age、Fare、Cabin、Embarked存在缺失，Age数值型，代表年龄。我们可以用平均值补齐，Fare是船票价格，同理。
# 数据清洗 train_data['Age'].fillna(train_data['Age'].mean(), inplace=True) test_data['Age'].fillna(test_data['Age'].mean(), inplace=True) train_data['Fare'].fillna(train_data['Fare'].mean, inplace=True) test_data['Fare'].fillna(test_data['Fare'].mean, inplace=True)
Cabin为船舱信息，由于训练集和测试集中有大量的缺失数据，所以无法进行补齐。

Embarked是港口信息，我们可以使用value_counts()方法进行观察：
print(train_data['Embarked'].value_counts())
发现S的占比超过了70%，所以我们可以用s值进行补齐
train_data['Embarked'].fillna('S', inplace=True) test_data['Embarked'].fillna('S', inplace=True)
特征选择：

通过数据探索，我们可以发现PassengerId为乘客的编号，对分类没有作用，可以舍弃，Name为乘客姓名，也可以舍弃，Cabin缺失值太多，可以舍弃，Ticket为船票号码，杂乱无章，可以舍弃，剩余的字段包括：Pclass、Sex、Age、SibSp、Parch 和 Fare，这些属性分别表示了乘客的船票等级、性别、年龄、亲戚数量以及船票价格，可能会和乘客的生存预测分类有关系。

我们现将这些值放到特征向量里：
# 特征选择 features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features] train_labels = train_data['Survived'] test_features = test_data[features]
特征值中，有一些是字符串类型的值，不利于后续的运算，需要转成数字的类型，比如 Sex 字段，有 male 和 female 两种取值。我们可以把它变成 Sex=male 和 Sex=female 两个字段，数值用 0 或 1 来表示。我们可以用klearn 特征选择中的 DictVectorizer 类进行上述操作：
from sklearn.feature_extraction import DictVectorizer dvec = DictVectorizer(sparse=False) train_features = dvec.fit_transform(train_features.to_dict(orient='record'))
fit_transfrom可以将特征向量转换成特征矩阵，然后我们可以通过查看dvec的feature_name_属性来获取特征值。

这样我们就得到了一个10个特征值，891个样本的10列的特征矩阵。

决策树模型：

我们可以使用ID3算法构建决策树，即创建DecisionTreeClassifier的时候，设置criterion='entropy'
from sklearn.tree import DecisionTreeClassifier # 构造ID3决策树 clf = DecisionTreeClassifier(criterion='entropy') # 决策树训练 clf.fit(train_features, train_labels)
模型的预测 & 评估：

我们首先应该得到测试集的特征矩阵，然后使用训练好的clf树进行预测。
test_features=dvec.transform(test_features.to_dict(orient='record')) # 决策树预测 pred_labels = clf.predict(test_features)
在模型评估中，我们可以使用决策树的score函数得到准确率，但是由于我们不知道测试集中的结果，所以我们这里使用训练集的数据，进行一下预测。

但是这么做显然是不准确的，因为我们的决策树是通过训练集数据构建出来的。所以它的正确率会趋近于100%，那么有没有什么方法可以在不知道测试机数据结果的时候，来统计决策树的准确率呢？

这里就会使用k折交叉验证的方式。
1. K折交叉验证是这样的，我们将整个训练集分成k等份
  
  使用其中的1份作为测试数据，其余的数据作为训练数据
  
  计算测试数据的准确性
  
  使用不同的训练集重复2、3动作
sklearn的model_selection模型中，就提供了用于k折交叉验证的函数，cross_val_score，参数cv代表将原始数据划分成多少份。
import numpy as np from sklearn.model_selection import cross_val_score # 使用K折交叉验证统计决策树准确率 print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))
可以看出，结果差异还是比较大的

决策树可视化：

我们可以用Grapviz进行决策树的可视化：
import graphviz from sklearn import tree # 决策树可视化 dot_data = tree.export_graphviz(clf, out_file=None) graph = graphviz.Source(dot_data) graph.view()
结果：

决策树下载地址：https://github.com/cystanford/Titanic_Data
查看全文

相关阅读:
Vue2.5
Vue --- :is
Vue面试中经常会被问到的面试题
 100道JS构造函数面试题
 100道前端面试题
 占位
 06-验证码-基本功能实现
 由ES规范学JavaScript(二)：深入理解“连等赋值”问题
 JS中keyup, keypress, keydown以及oninput四个事件的区别
 Java中class的声明

原文地址：https://www.cnblogs.com/nedulee/p/11846289.html

用决策树做泰坦尼克号乘客的生存预测

前言

数据集、测试集地址：

原始数据：

训练集中的数据特征：

数据分析流程：

数据探索：

接下来我们执行一下这些命令

info()查看数据表基本信息

describe()查看数据表的统计信息：

describe(include=['0'])查看字符串类型整体情况：

head tail查看数据的前几行和后几行：

数据清洗：

特征选择：

决策树模型：

模型的预测 & 评估：

决策树可视化：

结果：