zoukankan      html  css  js  c++  java
  • 统计中的精度和召回率的解释

    召回率(Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统查准率

    召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。

    基本概念

    编辑
    对于数据测试结果有下面4种情况:
    TP: 预测为正,实际为正
    TN: 预测为负,实际为负
    FP:预测为正,实际为负
    FN: 预测为负,实际为正
    准确率: TP/ (TP+FP)
    召回率: TP/ (TP+FN)
     
     

    计算方法

    编辑
    召回率和精度示意图
    recallrecall
    假定:从一个大规模数据集合中检索文档时,可把文档分成四组:
    - 系统检索到的相关文档(A)
    - 系统检索到的不相关文档(B)
    - 相关但是系统没有检索到的文档(C)
    - 不相关且没有被系统检索到的文档(D)
    则:
    - 召回率R:用实际检索到相关文档数作为分子,所有相关文档总数作为分母,即R = A / ( A + C )
    - 精度P:用实际检索到相关文档数作为分子,所有检索到的文档总数作为分母,即P = A / ( A + B )
    举例来说:
    一个数据库有500个文档,其中有50个文档符合定义。系统检索到75个文档,但是实际只有45个符合定义。则:
    召回率R=45/50=90%
    精度P=45/75=60%
    本例中,系统检索是比较有效的,召回率为90%。但是结果有很大的噪音,有近一半的检索结果是不相关。 研究表明:在不牺牲精度的情况下,获得一个高召回率是很困难的。
     
     

    搜索系统

    编辑
    对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常用11种召回率下11种精度的平均值来衡量一个检索系统的精度。我们也可以将这两个度量值融合成一个度量值,如F度量(F-measure)。对于搜索引擎系统来讲,因为没有一个搜索引擎[2]  系统能够搜集到所有的WEB网页,所以召回率很难计算。搜索引擎系统都非常关心精度。
    影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。
    “召回率”与“准确率”虽然没有必然的关系,然而在大规模数据集合中,这两个指标却是相互制约的。
    由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。
    而希望去除检索[3]  结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。
    凡是设计到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点,这个平衡点由具体需求决定。
     

    常用名词

    编辑
    TP —— True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率
    TN —— True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率
    FP ——False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率
    FN——False Negative(假负 , FN)被模型预测为负的正样本;可以称作漏报率
    True Positive Rate(真正率 , TPR)或灵敏度(sensitivity) 
      TPR = TP /(TP + FN) 
      被预测为正的正样本结果数 / 正样本实际数
    True Negative Rate(真负率 , TNR)或特指度(specificity) 
      TNR = TN /(TN + FP) 
      被预测为负的负样本结果数 / 负样本实际数
    False Positive Rate (假正率, FPR) 
      FPR = FP /(TN + FP) 
      被预测为正的负样本结果数 /负样本实际数
    False Negative Rate(假负率 , FNR) 
      FNR = FN /(TP + FN) 
      被预测为负的正样本结果数 / 正样本实际数
  • 相关阅读:
    CodeForces 785D Anton and School
    CodeForces 785C Anton and Fairy Tale
    CodeForces 785B Anton and Classes
    CodeForces 785A Anton and Polyhedrons
    爱奇艺全国高校算法大赛初赛C
    爱奇艺全国高校算法大赛初赛B
    爱奇艺全国高校算法大赛初赛A
    EOJ 3265 七巧板
    EOJ 3256 拼音魔法
    EOJ 3262 黑心啤酒厂
  • 原文地址:https://www.cnblogs.com/huanglifeng/p/8350395.html
Copyright © 2011-2022 走看看