zoukankan      html  css  js  c++  java
  • Lucene/ElasticSearch 学习系列 (2) Information Retrival 初步之名词解释

    计算机领域一半是理论,一半是在理论基础之上的应用。要想深入地掌握某个方面的应用,就需要先学习那方面的理论。

    “搜索”是应用,其背后的理论是 "Information Retrieval"。学习理论的最佳途径是读该领域的书籍和论文。上一周大概看了《Introduction to Information Retrival》这本书的前面几章,在此简单地总结。

    名词解释

    Information need

    人们为什么要搜索?因为有需求。这种需求被称为“信息需求”。搜索技术正是满足人们信息需求背后的技术。

    Search Index 

    Index 是集中存放文本信息的地方。它的结构、构建、更新、使用是搜索技术的核心部分。

    Document

    Document 是人们搜索时希望获取的信息单元。比如对于百度、Google 来讲,一个网页就是一个 Document。在论坛里搜索时,Document 则对应于一篇帖子。

    Query

    用户的 Information Need 的形式是:告诉搜索引擎自己想要搜索什么内容,搜索引擎返回若干符合要求的 Document。“想要搜索什么内容”,就是 Query。Query 可以很简单:最基本的 Query,如搜索所有包含“苹果”的 Document。也可以更复杂一点:搜索包含”苹果“但不包含”梨子“的Document。当然,还可心更复杂地多....

    Token

    一个 Document 里的信息在被加入到 Index 之前需要先被分解为 token。粗略的讲,一个 token 就是一个词语。比如“我喜欢苹果”这句话里就有三个 token: “我”, “喜欢”, 和“苹果”。

    Term

    一个 Document 可能包含多个同样的 token 。去掉重复的 token,这个集合中的每个元素就叫一个 term。比如 “我喜欢我家”,有四个 token,“我”,“喜欢”,“我”,“家”;但只有三个 terms:“我”,“喜欢”,“家”。

    Vocabulary/Dictionary

    Term 的集合称为这个集合的 vocabulary 或者  dictionaray。

    Posting/Postings list

    在 Index 中。为了快速搜索到包含某个 term 的所有 Document,一个 term 会有一个包含该 term 的所有的 document 的 ID 列表,这个列表称为 postings list. 其中每个元素,或者更确切的说,每一个 (term, DocID) 对,称为一个 posting

  • 相关阅读:
    【Codeforce 487E】【UOJ#30】—Tourists(圆方树+树链剖分)
    【省选模拟】—River(贪心)
    【BZOJ4012】【HNOI2015】—开店(动态点分治)
    【BZOJ4543】【POI2014】Hotel加强版(长链剖分)
    【BZOJ3809】—GTY的二逼妹子序列(莫队+权值分块)
    【BZOJ2878】【NOI2012】—迷失游乐园(基环树期望dp)
    【2019省选模拟】—树(并查集+容斥)
    【BZOJ2120】—数颜色(带修莫队)
    【BZOJ3597】【SCOI2014】—方伯伯运椰子(分数规划)
    【BZOJ3598】【SCOI2014】方伯伯的商场之旅(数位dp)
  • 原文地址:https://www.cnblogs.com/lins05/p/3164203.html
Copyright © 2011-2022 走看看