zoukankan      html  css  js  c++  java
  • 信息检索X科普一:查准与召回(Precision & Recall),F1 Measure

     好吧,其实我也不是IR专家,但是我喜欢IR,最近几年国内这方面研究的人挺多的,google和百度的强势,也说明了这个方向的价值。当然,如果你是学IR的,不用看我写的这些基础的东西咯。如果你是初学者或者是其他学科的,正想了解这些科普性质的知识,那么我这段时间要写的这个“信息检索X科普”系列也许可以帮助你。(我可能写的不是很快,见谅)

    至于为什么名字中间带一个字母X呢? 得意不告诉你...

    为什么先讲Precision和Recall呢?因为IR中很多算法的评估都用到Precision和Recall来评估好坏。所以我先讲什么是“好人”,再告诉你他是“好人”

    查准与召回(Precision & Recall)

    先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall

    通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

    下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。

     

    我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很低。

    因此在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析(我应该会在以后介绍)。

    F1  Measure

    前面已经讲了,P和R指标有的时候是矛盾的,那么有没有办法综合考虑他们呢?我想方法肯定是有很多的,最常见的方法应该就是F Measure了,有些地方也叫做F Score,都是一样的。

    F Measure是Precision和Recall加权调和平均:

    F = (a^2+1)P*R / a^2P +R

    当参数a=1时,就是最常见的F1了:

    F1 = 2P*R / (P+R)

    很容易理解,F1综合了P和R的结果。

     引用请注明:http://blog.csdn.net/xbinworld/article/details/6742095

    end

  • 相关阅读:
    linux如何编译安装新内核支持NTFS文件系统?(以redhat7.2x64为例)
    RAID磁盘阵列的搭建(以raid0、raid1、raid5、raid10为例)
    linux专题一之文件归档和压缩(tar、file、zip)
    linux专题一之文件管理(目录结构、创建、查看、删除、移动)
    CENTOS6.6上搭建单实例ORACLE12C
    oracle12c各个版本对其需要的依赖包及系统参数的修改
    mysql cp复制和mysqldump备份测试
    mysql之mysql_config_editor
    CENTOS6.6下redis3.2集群搭建
    CENTOS6.6 下mysql MHA架构搭建
  • 原文地址:https://www.cnblogs.com/yihaha/p/7265356.html
Copyright © 2011-2022 走看看