zoukankan      html  css  js  c++  java
  • Lucene/ElasticSearch 学习系列 (2) Information Retrival 初步之名词解释

    计算机领域一半是理论,一半是在理论基础之上的应用。要想深入地掌握某个方面的应用,就需要先学习那方面的理论。

    “搜索”是应用,其背后的理论是 "Information Retrieval"。学习理论的最佳途径是读该领域的书籍和论文。上一周大概看了《Introduction to Information Retrival》这本书的前面几章,在此简单地总结。

    名词解释

    Information need

    人们为什么要搜索?因为有需求。这种需求被称为“信息需求”。搜索技术正是满足人们信息需求背后的技术。

    Search Index 

    Index 是集中存放文本信息的地方。它的结构、构建、更新、使用是搜索技术的核心部分。

    Document

    Document 是人们搜索时希望获取的信息单元。比如对于百度、Google 来讲,一个网页就是一个 Document。在论坛里搜索时,Document 则对应于一篇帖子。

    Query

    用户的 Information Need 的形式是:告诉搜索引擎自己想要搜索什么内容,搜索引擎返回若干符合要求的 Document。“想要搜索什么内容”,就是 Query。Query 可以很简单:最基本的 Query,如搜索所有包含“苹果”的 Document。也可以更复杂一点:搜索包含”苹果“但不包含”梨子“的Document。当然,还可心更复杂地多....

    Token

    一个 Document 里的信息在被加入到 Index 之前需要先被分解为 token。粗略的讲,一个 token 就是一个词语。比如“我喜欢苹果”这句话里就有三个 token: “我”, “喜欢”, 和“苹果”。

    Term

    一个 Document 可能包含多个同样的 token 。去掉重复的 token,这个集合中的每个元素就叫一个 term。比如 “我喜欢我家”,有四个 token,“我”,“喜欢”,“我”,“家”;但只有三个 terms:“我”,“喜欢”,“家”。

    Vocabulary/Dictionary

    Term 的集合称为这个集合的 vocabulary 或者  dictionaray。

    Posting/Postings list

    在 Index 中。为了快速搜索到包含某个 term 的所有 Document,一个 term 会有一个包含该 term 的所有的 document 的 ID 列表,这个列表称为 postings list. 其中每个元素,或者更确切的说,每一个 (term, DocID) 对,称为一个 posting

  • 相关阅读:
    平衡二叉树之RB树
    平衡二叉树之AVL树
    实现哈希表
    LeetCode Median of Two Sorted Arrays
    LeetCode Minimum Window Substring
    LeetCode Interleaving String
    LeetCode Regular Expression Matching
    PAT 1087 All Roads Lead to Rome
    PAT 1086 Tree Traversals Again
    LeetCode Longest Palindromic Substring
  • 原文地址:https://www.cnblogs.com/lins05/p/3164203.html
Copyright © 2011-2022 走看看