Evernote Export
机器学习的运行步骤
1.导入数据
没什么注意的,成功导入数据集就可以了,打印看下数据的标准格式就行
用个info和describe
2.分析数据
这里要详细分析数据的内容,看看缺省值和数据的特征,主要是为了看到数据的特征,并且人肉分析一下特征值对目标值的大约影响,嗯,就是这样
然后开始划分数据,将数据分为两个部分,一个数据的特征值(features),一个是数据的目标值(target)
这里要用到数据的基本操作,有数据清洗和数据整理等内容。
重点:数据的分割,这里就需要将数据集(如果只有一个数据集)分割为两个部分,一个是训练集,一个是测试集
这里使用的是
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features,prices,test_size=0.2,random_state=10)
3.模型衡量标准
这里稍微有点懵,因为这一步并不会在接下来马上使用,而是在过程中,你需要评估的一种方式,我这里把这种方式应该是作为一个模块化编程的方式来学习的,而不是部分交互式编程的方式
- 使用 sklearn.metrics 中的 r2_score 来计算 y_true 和 y_predict的R2值,作为对其表现的评判。
- 将他们的表现评分储存到score变量中。
设立模型的衡量标准主要是为了确定你的模型拟合程度
def performance_metric(y_true, y_predict):
"""计算并返回预测值相比于预测值的分数"""
from sklearn.metrics import r2_score
score = r2_score(y_true, y_predict)
return score
4.分析模型表现
这里应该是有对算法的模型选型的过程,这里跳过的原因是因为这一章我们是站在已经有数据模型的方向去考虑问题的,所以跳过了模型的选型和测试的环节,实际上这里应该是最花时间的地方,需要你调参的地方也会很多。
它们是一个决策树模型在不同最大深度下的表现。每一条曲线都直观得显示了随着训练数据量的增加,模型学习曲线的在训练集评分和验证集评分的变化,评分使用决定系数R2。曲线的阴影区域代表的是该曲线的不确定性(用标准差衡量)
5.选择最优参数
选择最优参数的时候也是在已经确定了模型以后的简单调参了,就是选择了决策树的最大深度
6.做出预测
没什么说的,就是带入新的数据进行模拟运算