问题:
- 数据倾斜:
癌症预测为例,以为数据分布不均,导致准确率失真。 - 精准率和召回率是两个度量值,用来评价推荐结果的质量。
1. 精确率是指检索出的相关文档与检索出的文档总数的比率,衡量的是检索系统的查准率。简单来说就是指检索出来的条目有多少条是准确的。
公式为:
举个例子,一座猴山里有100只猴子,50只公猴子,50只母猴子。现在需要抓出来公猴子,于是一共取出来30只猴子,其中公猴子有20只。那么抓出公猴子的精准率就是:
2. 召回率是指检索出的相关文档和文档中所有相关文档数的比率,衡量的是检索系统的查全率。在库里所有准确的条目有多少条被检索出来了。
公式为:
还是在那座猴山里,同时还是要抓公猴子,取出来30只猴子,其中公猴子还是20只。那么抓出来公猴子的召回率就是:
当你想要公猴子时,我给你推荐了30只猴子,精准率就是66.7%,召回率就是40%。
思考:
这个时候,精准率和召回率都有了,但是两个比率不一样啊,咋整。此时,我们就需要引入一个词,叫做 F 值。
F值简单来说就是综合了精准率和召回率得出的结果。
公式为:
所以推荐给你的猴子到底靠不靠谱呢,看看最终结果。
结果就表明,推荐给你的猴子里,有50%是你想要的公猴子。