zoukankan      html  css  js  c++  java
  • Information Retrieval

    Information Retrieval

     1、信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。

     2、布尔检索模型

      

     3、文档(document)是信息检索系统的检索对象,它们可以是一条条单独的记录或者是一本书的各章。

     4、所有文档组成的文档集(collection),有时也称为语料库(corpus)。

     5、检索系统的效果(effectiveness):

      1)正确率:返回的结果中真正和信息需求相关的文档所占的百分比。

      2)召回率:所有和信息需求真正相关的文档中被检索系统返回的百分比。 

     6、倒排索引(inverted index),是一个从词项(term,词项的集合也叫 dictionary / vocabulary / lexicon)到倒排记录表(posting list / inverted list)的一张表,所有词的倒排记录表构成全休倒排记录表(postings)。

      

     7、建立索引主要步骤:

      

     8、建立倒排索引

      给定一个文档集,我们假定每篇文档都有一个唯一的标识符即编号(docID)。在索引构建 过程中,我们可以给每篇新出现的文档赋一个连续的整数编号。在上述的前 3 步处理结束后, 对每篇文档建立索引时的输入就是一个归一化的词条表,也可以看成二元组(词项,文档 ID) 的一个列表(参见图 1-4)。建立索引最核心的步骤是将这个列表按照词项的字母顺序进行排序, 之后我们得到下图中部显示的结果,其中一个词项在同一文档中的多次出现会合并在一起 1, 最后整个结果分成词典和倒排记录表两部分。

      

      

      在最终得到的倒排索引中,词典和倒排记录表都有存储开销。前者往往放在内存中,而后 者由于规模大得多,通常放在磁盘上。 

     9、倒排记录表的存储方式:

      1)单链表。

      2)变长数组,定长数组链表。

       11. 查询优化, 对于下述查询, 一个启发式的想法是, 按照词项的文档频率(也就是倒排记录表的长度)从小到大依次进行处理,如果我们先合并两个最短的倒排记录表,那么所有中间结果的大小都不会超过最短的倒排记录表

      Brutus AND Caesar AND Calpurnia

  • 相关阅读:
    Eclipse Kepler安装WST Server Adapter后创建Server无Tomcat解决方法
    centos下Linux C语言MD5的使用
    解析JSON字符串
    切换view的动画
    设置菜单和工具条
    视图切换的几种方法
    scrollview 例子2
    UIScrollView
    iOS:翻页效果
    软件预构的艺术源码编译
  • 原文地址:https://www.cnblogs.com/tekkaman/p/3307479.html
Copyright © 2011-2022 走看看