模型评估
基本评估指标
- 准确率
[Accuracy=frac{n_{correct}}{n_{total}} ag{1}
]
- 精确率和召回率
[Precision=frac{TP}{TP+FP} ag{2}
]
[Recall=frac{TP}{TP+FN} ag{3}
]
- F1(精确率和召回率的调和平均)
[frac{2}{F_1}=frac{1}{Precision}+frac{1}{Recall} ag{4}
]
- RMSE均方根误差、MAPE平均绝对百分比误差
[RMSE = sqrt{frac{Sigma_{i=1}^{n}(y_i-hat{y_i})^2}{n}}
]
[MAPE = frac{100}{n}Sigma_{i=1}^{n}|frac{y_i-hat{y_i}}{y_i}|
]
RMSE对离群点敏感,MAPE通过对每个样本点的误差进行归一化,降低单个离群点对误差带来的影响
5. PR曲线
策略:将样本为正例的预测概率按照由大到小的进行排列,将每个值逐项设置为阈值,高于阈值为正例,低于阈值为负例。
y: Precision 1->0
x: Recall 0->1
6. ROC曲线及AUC值
策略:与PR曲线一致
y:真阳性率(敏感度)(TPR = frac{TP}{TP+FN})
x:假阳性率(1-特异性)(FPR = frac{FP}{FP+TN})
计算AUC可以通过对横轴进行积分即可,[0.5,1]。
敏感度、召回率即为真阳性率,假阴性率为1-敏感度;
特异性为真阴性率,假阳性为1-特异性。
- 余弦距离
[cos(A,B)=frac{A cdot B}{|A||B|}
]
余弦距离不是严格定义的距离(正定性、对称性以及三角不等式),余弦距离不满足三角不等式
8. A/B测试(在机器学习领域中,A/B测试是验证模型最终效果的主要手段)
随机分桶,实验组和对照组在求解目标下的一致性(防止结果被稀释)
9. 模型验证方法
1. Holdout检测法:将数据集随机分成训练集和验证集;
2. 交叉验证:将数据集划分为k个等大小的样本子集,依次遍历k个子集,每次将该子集作为验证集,其余子集作为训练集,进行模型的训练和评估;最后把k次评估指标的平均值作为最终的评估指标;特别地,留一法是将数据集划分为样本总数n个样本子集;
3. 自取法:有放回的进行样本总数n的采样, 将未被采样到的样本作为验证集,将采样到的样本作为训练集。当样本数量为正无穷大时,((1-frac{1}{n})^n)的极限趋近于(frac{1}{e}),即36.8%。
问题
- ROC曲线相对于P-R曲线有什么特点?
ROC曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能。(比如正负样本很不均衡的情况) - 如何进行超参数调优?
超参数搜索算法的基本要素:1. 确定目标函数 2. 确定搜索范围 3. 确定其他参数,如搜索步长- 网格搜索:确定上下界;使用较大的搜索步长,确定可能位置;使用较小的搜索步长进行搜索
- 随机搜索:不测试上下界中的所有值,仅采用在搜索范围内进行随机采样的方式[与网格搜索的快速版一样,不能保证结果]
- 贝叶斯优化算法:学习目标函数的形状【不断使用采样点更新目标函数的先验分布;使用后验分布给出最值的可能位置,易陷入局部最优】