zoukankan      html  css  js  c++  java
  • 搜索核心原理之网页和查询的相关性——TF-IDF

    1.相关性的演进:

         i.单文本词频TF(Term Frequency)
              用关键词的出现的次数除以文章的总次数,做归一化处理得到TF,来屏蔽文章长度对用关键词出现次数来衡量相关性时的影响

         ii.搜索关键词权重的度量IDF:
              需要给每个此赋以权重,来区分查询中词的重要性
                   a.一个词预测主题的能力越强,其权重越大
                   b.停止词(的 是 和这类无用词)的权重为0
     
              逆文本频率指数IDF(Inverse Document Frequency):公式为log(D/Dw),其中一个关键词在Dw个网页中出现过,Dw越大,词w的权重越小
     
         iii.相关性的度量(TF-IDF:Term Frequency/Inverse Document Frequency):
              词频的加权求和:∑TF(w)*IDF(w)
     
    2.TF-IDF的信息量依据
         i.查询中每个关键词w的权重应该反映这个词对这个查询提供了多少信息,用此的信息量来作为权重:
              I(w)=-P(w)logP(w)=-(TF(w)/N)*log(TF(w)/N)
              而语料库此的总数N是一定的,所以I(w)=-TF(w)*log(TF(w)/N)
              漏洞:一个词在一篇文献中出现TF次和一个词在所有文献中出现TF次,信息量是一样的
     
         ii.提出假设:
              a.每篇文章的大小基本相同,均为M个词,M=N/D
              b.假设在一篇文章中关键词出现的次数,与其贡献无关,那么一个词在一篇文献中出现的平均次数C(w)=TF(w)/D(w),C(w)<M
     
              则-TF(w)*log(TF(w)/N)=TF(w)*log(N/TF(w))=TF(w)*log(MD/C(w)D(w))=TF(w)*log(D/D(w))+TF(w)*log(M/C(w))
              即I(w)=TF-IDF+TF(w)*log(M/C(w)),有TF-IDF=I(w)-TF(w)*log(M/C(w))
                   显然,IDF与词的信息量成正比,同时在w命中的文献中w出现的平均次数越多,C(w)越小,贡献越大
  • 相关阅读:
    ActiveSync合作关系对话框的配置
    WINCE对象存储区(object store)
    Wince 隐藏TASKBAR的方法
    Wince输入法换肤换语言机制
    poj 3080 Blue Jeans 解题报告
    codeforces A. Vasily the Bear and Triangle 解题报告
    hdu 1050 Moving Tables 解题报告
    hdu 1113 Word Amalgamation 解题报告
    codeforces A. IQ Test 解题报告
    poj 1007 DNA Sorting 解题报告
  • 原文地址:https://www.cnblogs.com/uttu/p/6289756.html
Copyright © 2011-2022 走看看