机器学习架构方法论
数据预处理
探索数据
- 数据的存储格式csv,xls等,每行每列存储的是什么内容
- 数据的内容,有哪些特征,特征是文本还是数字,是离散还是连续
3.数据的取值范围某几个数据的取值是什么,数据值的分布是什么?
数据处理
- 对数转换,数据若是非正态分布,进行对数转换;算法的假设
- 归一化,把不同特征数据的值域转换到相似区间,避免算法无法收敛
- 独热编码,转换string到向量,简单编码方式
pandas & numpy
机器学习算法
调用模型
- sklearn三部曲
reg= xx_model(para=xx)
reg.fit(X,y)
res = reg.predict(X')
模型评价指标
precision,recall,F1等 r square ,acuracy
周志华 机器学习第二章
不同模型的比较
得到最终模型
模型调参
特征选择
- 维度灾难
- 专业知识
- 算法结构比较