模型选择:对特定任务最优建模方法的选择或者对特定模型最佳参数的选择
在训练数据集上运行模型(算法)并在测试数据集中测试效果,迭代进行数据模型的修改,这种方式呗称为交叉验证(将数据分为训练集和测试集,使用训练集构建模型,并使用测试i集评估模型提供修改建议)
模型的选择会尽可能多的选择算法进行执行,并比较执行结果
模型的测试一般以以下几个方面进行比较,分别是准确率/召回率/精准率/F值
准确率(Accuracy)=提取的正确样本数/总样本数
召回率(Recall)=正确的正例样本数/样本中的正例样本数 ---覆盖率
精准率(Precision)=正确的正例样本数/预测为正例的样本数
F值=Precision*Recall*2/(Precision+Recall) (即F值为正确率与召回率的调和平均值)
ROC ROC曲线
AUC ROC曲下的面积 #注意AUC值对分类的影响
#回归算法评估方式(略)
模型的监控与反馈:
当模型一旦投入到实际生产环境中,模型的效果监控是非常重要的,往往需要关注业务效果和用户体验,所以有时候会进行A/B测试
模型需要对永辉的反馈进行响应测试,即进行模型修改,但是要注意异常反馈信息对模型的影响,故需要进行必要的数据预处理操作!!!