zoukankan      html  css  js  c++  java
  • elasticsearch倒排索引介绍

    正排与倒排索引

    目录 – 正排

    正排索引是文档id到单词的一个关系
    倒排索引是单词到文档id的一个关系

    倒排索引的核心组成

    倒排索引包含两个部分
    单词词典(Term Dictionary),记录所有文档的单词,记录单词到倒排列表的关联关系
    单词词典一般比较大,可以通过B+树或哈希链法实现,以满足高性能的插入与查询
    倒排列表(Posting List)- 记录了单词对应的文档结合,由倒排索引项组成
    倒排索引项(Posting)
    文档ID
    词频TF – 该单词在文档中出现的次数,用于相关性评分
    位置(Position)- 单词在文档中分词的位置。用于语句搜索(phrase query)
    偏移(Offset)- 记录单词的开始结束位置,实现高亮显示

    一个例子 – Elasticsearch

    Elasticsearch的 倒排索引

    Elasticsearch的JSON文档中的每个字段,都有自己的倒排索引
    可以指定对某些字段不做索引
    优点:节省存储空间
    缺点:字段无法被索引

  • 相关阅读:
    MobileNet V1 V2
    异常检测 与 One Class SVM
    异常检测
    图像分割
    1x1卷积核的作用
    迁移学习
    python
    图像分割
    图像分割
    Nagios
  • 原文地址:https://www.cnblogs.com/anyux/p/11977321.html
Copyright © 2011-2022 走看看