zoukankan      html  css  js  c++  java
  • 信息检索X科普一:查准与召回(Precision & Recall),F1 Measure

     好吧,其实我也不是IR专家,但是我喜欢IR,最近几年国内这方面研究的人挺多的,google和百度的强势,也说明了这个方向的价值。当然,如果你是学IR的,不用看我写的这些基础的东西咯。如果你是初学者或者是其他学科的,正想了解这些科普性质的知识,那么我这段时间要写的这个“信息检索X科普”系列也许可以帮助你。(我可能写的不是很快,见谅)

    至于为什么名字中间带一个字母X呢? 得意不告诉你...

    为什么先讲Precision和Recall呢?因为IR中很多算法的评估都用到Precision和Recall来评估好坏。所以我先讲什么是“好人”,再告诉你他是“好人”

    查准与召回(Precision & Recall)

    先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall

    通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

    下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。

     

    我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很低。

    因此在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析(我应该会在以后介绍)。

    F1  Measure

    前面已经讲了,P和R指标有的时候是矛盾的,那么有没有办法综合考虑他们呢?我想方法肯定是有很多的,最常见的方法应该就是F Measure了,有些地方也叫做F Score,都是一样的。

    F Measure是Precision和Recall加权调和平均:

    F = (a^2+1)P*R / a^2P +R

    当参数a=1时,就是最常见的F1了:

    F1 = 2P*R / (P+R)

    很容易理解,F1综合了P和R的结果。

     引用请注明:http://blog.csdn.net/xbinworld/article/details/6742095

    end

  • 相关阅读:
    html 页面打印元素被切割,元素自适应分页
    linux jupyter 安装
    == 与 equals()的区别
    多段图
    数据仓库和ODS 的并行
    Linux下对sh文件的基本操作总结
    linux tr命令详解
    数据仓库分层
    利用SQOOP将数据从数据库导入到HDFS(并行导入,增量导入)
    Etl之HiveSql调优(left join where的位置)
  • 原文地址:https://www.cnblogs.com/yihaha/p/7265356.html
Copyright © 2011-2022 走看看