参考《机器学习》,周志华,清华大学出版社
第二章
回归问题
回归任务常用的度量指标是:均方误差
[E(f;D)=frac {1}{m}sum^{m}_{i=1}(f(x_{i})-y_{i})^{2}
]
分类问题
分类任务中常用的性能度量指标是:错误率、精度
错误率:分类错误的样本数/样本总数
精度:分类正确的样本数/样本总数
预测结果 | ||
---|---|---|
真实情况 | 正例 | 反例 |
正例 | TP 真正例 | FN 假反例 |
反例 | FP 假正例 | TN 真反例 |
查准率precision:
[P=frac {TP}{TP+FP}
]
查全率recall:
[R=frac {TP}{TP+FN}
]
P-R曲线
以查准率为横轴,以查全率为纵轴,得到查准率、查全率曲线,简称“P-R”曲线。
平衡点
查全率 = 查准率
F1
[F1 = frac {2 imes P imes R } {P+R}
]
真正例率:
[TPR = frac {TP}{TP+FN}
]
假正例率:
[FPR = frac {FP} {TN+FP}
]
ROC曲线
研究学习器的泛化能力
横轴假正例率,纵轴真正例率,得到ROC曲线
AUC
ROC曲线下的面积,称为AUC