zoukankan      html  css  js  c++  java
  • 信息检索X科普一:查准与召回(Precision & Recall),F1 Measure

     好吧,其实我也不是IR专家,但是我喜欢IR,最近几年国内这方面研究的人挺多的,google和百度的强势,也说明了这个方向的价值。当然,如果你是学IR的,不用看我写的这些基础的东西咯。如果你是初学者或者是其他学科的,正想了解这些科普性质的知识,那么我这段时间要写的这个“信息检索X科普”系列也许可以帮助你。(我可能写的不是很快,见谅)

    至于为什么名字中间带一个字母X呢? 得意不告诉你...

    为什么先讲Precision和Recall呢?因为IR中很多算法的评估都用到Precision和Recall来评估好坏。所以我先讲什么是“好人”,再告诉你他是“好人”

    查准与召回(Precision & Recall)

    先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall

    通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

    下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。

     

    我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很低。

    因此在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析(我应该会在以后介绍)。

    F1  Measure

    前面已经讲了,P和R指标有的时候是矛盾的,那么有没有办法综合考虑他们呢?我想方法肯定是有很多的,最常见的方法应该就是F Measure了,有些地方也叫做F Score,都是一样的。

    F Measure是Precision和Recall加权调和平均:

    F = (a^2+1)P*R / a^2P +R

    当参数a=1时,就是最常见的F1了:

    F1 = 2P*R / (P+R)

    很容易理解,F1综合了P和R的结果。

     引用请注明:http://blog.csdn.net/xbinworld/article/details/6742095

    end

  • 相关阅读:
    hadoop安全模式
    建造者模式:设计角度重温游戏中的角色
    工厂模式:工厂方法与抽象工厂的战争
    原型模式(克隆模式):浅谈浅克隆与深克隆
    单例模式:层层剖析寻找最高效安全的单例
    24种设计模式和7大设计原则
    浅谈图的存储结构与遍历
    彻底理清二叉排序树的插入、查找、删除
    浅谈顺序、折半查找
    Android定位(是否使用GPS进行定位)
  • 原文地址:https://www.cnblogs.com/yihaha/p/7265356.html
Copyright © 2011-2022 走看看