zoukankan      html  css  js  c++  java
  • 全文检索基础

    一、全文检索基础

    1、信息源 --> 分词器 --> 建立索引库

    2、文本在建立索引和搜索的时候,都会先进行分词

    3、索引库的结构

      索引表:存放具体词汇,哪些词汇在哪些文档里面存储。索引表里面存储的就是分词器分词之后的结果

      数据源:文本信息集合

    4、用户搜索时,首先经过分词器进行分词,然后去索引表里面查找对应的词汇( 利用倒排序索引算法 ),再找到对应的文档集合

    5、信息集合里每一条数据都是一个 document ( 存储所有信息,他是一个 Field 属性的集合 )

    6、sorre 是否进行存储

    7、index 是否进行索引

    二、存储数据到索引库

       将数据源存储到索引库之前,会先进行分词器分词,然后将数据存储到索引库。索引库包含了两个部分,一个数全量数据块,用来存储数据源。一个是索引表,用来存储分词器分词之后的词语

    三、用户搜索

      首先经过分词器进行分词,然后去索引表里面查找对应的词汇( 利用倒排序索引算法 ),再找到对应的文档集合,将文档集合返回给用户

  • 相关阅读:
    【计算机网络】SSL交互和握手过程
    【LDAP】ldap目录服务的命名模型
    运维知识体系概览
    linux安装Django 以及 生产环境部署实现高并发
    xss过滤代码
    python单列模式
    JSONP
    组合搜索
    KindEditor
    登录验证码
  • 原文地址:https://www.cnblogs.com/fangwu/p/8654903.html
Copyright © 2011-2022 走看看