zoukankan      html  css  js  c++  java
  • 【转】nDCG measure相关概念 浅色天空的日志 网易博客

    【转】nDCG measure相关概念 - 浅色天空的日志 - 网易博客

    【转】nDCG measure相关概念   

    2011-06-20 18:04:20|  分类: 默认分类 |  标签:  |字号  订阅

     

    Normalized Discounted Cumulative Gain

    一种对搜索引擎或相关程序有效性的度量。

    假设:

    1. 强相关的文档出现在结果列表越靠前(rank越高)越有用
    1. 强相关文档比弱相关文档有用,比不相关文档有用

    下面有几个层层递进的概念:

    Graded Relevance:

    制定的衡量相关度的若干个等级,如:

    Highly relevant: 2

    Marginally relevant: 1

    Irrelevant: 0

    一般由人(Human judge)来裁定。下述公式中表示为rel

    Cumulative Gain:

    不考虑结果集中的序信息,单纯把分级相关度相加。

    结果集中第p个结果的CG值为:

    clip_image001

    改变p之前的任意两结果的位置关系不会影响p的CG值

    在上述假设下,DCG较CG为优

    Discounted Cumulative Gain

    如果一个强相关的文档排名靠后则应该受到惩罚

    clip_image002

    计算式不唯一,理论上只证明了对数折扣因子的平滑性要求

    另一个DCG计算公式更加强调相关性

    clip_image003

    若分级相关度只在0和1取二值的话,二公式效果相同

    Normalized Discounted Cumulative Gain

    根据Query的不同,结果列表的长度也不同,所以这一度量考虑了正规化问题

    clip_image004

    IDCGp(Ideal DCG)是在一个完美的排序下,p所具有的最大DCG值

    这样一来无论Query是什么,nDCG都可以得到一个平均值,因此不同的Query之间的效能就可以做比较了。

    完美的排序算法会使DCGp和IDCGp相同,从而使nDCGp为1,nDCG的取值在0到1之间

    例:

    结果列表中的6篇文档D1,D2,D3,D4,D5,D6,判定了他们的相关度是3,2,3,0,1,2,则:

    clip_image005

    clip_image006

    一个理想的排序应该是:3,3,2,2,1,0,所以

    clip_image007

    clip_image008

  • 相关阅读:
    (转载)MySQL日期时间函数大全
    Tcl commands
    Toplevel
    tk 8.4 commands
    iwidgets
    Options for Buttontype widgets
    Text Widget Options
    tk options
    itk_option
    Widget Options
  • 原文地址:https://www.cnblogs.com/lexus/p/3030368.html
Copyright © 2011-2022 走看看