准确率和召回率是数据挖掘中预测,互联网中得搜索引擎等经常涉及的两个概念和指标。
准确率:又称“精度”,“正确率”
召回率:又称“查全率”
以检索为例,可以把搜索情况用下图表示:
相关 | 不相关 | |
检索到 | A | B |
未检索到 | C | D |
A:检索到的,相关的
B:检索到的,但是不相关的
C:未检索到的,但却是相关的
D:未检索到的,也不相关的
1.召回率:被检索到的内容越多越好,即R=A/(A+C)
2.准确率:检索到的文档中,真正想要的越多越好,即P=A/(A+B)
在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究,可以绘制Precision-Recall曲线来辅助分析。
F1-Measure:P和R指标有的时候是矛盾的,需要一定的方法来综合考虑他们
F-Measure是P和R的加权调和平均:F=((a2+1)P*R)/(a2(P+R))
当参数a=1时,就是最常见的F1了:F1=2PR/(P+R)
F1综合了P和R的结果,当F1较高时则比较说明实验方法比较理想。