zoukankan      html  css  js  c++  java
  • 数据查询方法

    1.顺序扫描法

      算法描述:
        所谓顺序扫描,例如要找内容包含一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。
      优点:
        查询准确率高
      缺点:
        查询速度会随着查询数据量的增大, 越来越慢
      使用场景:
        数据库中的 like关键字模糊查询
        文本编辑器的 Ctrl + F 查询功能

    2.倒排索引

      先举一个例子:
        例如我们使用新华字典查询汉字,新华字典有偏旁部首的目录(索引),我们查字首先查这个目录,找到这个目录中对应的偏旁部首,就可以通过这个目录中的偏旁部首找到这个字所在的位置(文档)。
      Lucene会对文档建立倒排索引
      1、 提取资源中关键信息, 建立索引 (目录)
      2、 搜索时,根据关键字(目录),找到资源的位置
      算法描述:
        查询前会先将查询的内容提取出来组成文档(正文), 对文档进行切分词组成索引(目录), 索引和文档有关联关系, 查询的时候先查询索引, 通过索引找文档的这个过程叫做全文检索。

      为什么倒排索引比顺序扫描快?
        理解 : 因为索引可以去掉重复的词, 汉语常用的字和词大概等于, 字典加词典, 常用的英文在牛津词典也有收录.如果用计算机的速度查询, 字典+词典+牛津词典这些内容是非常快的. 但是用这些字典, 词典组成的文章却是千千万万不计其数. 索引的大小最多也就是字典+词典. 所以通过查询索引, 再通过索引和文档的关联关系找到文档速度比较快. 顺序扫描法则是直接去逐个查询那些不计其数的文章,就算是计算的速度也会很慢.
      优点:
        查询准确率高
        查询速度快, 并且不会因为查询内容量的增加, 而使查询速度逐渐变慢
      缺点:
        索引文件会占用额外的磁盘空间, 也就是占用磁盘量会增大。
      使用场景:
        海量数据查询

    全文检索技术应用场景:

      1、 站内搜索 (baidu贴吧、论坛、 京东、 taobao)
      2、 垂直领域的搜索 (818工作网)
      3、 专业搜索引擎公司 (google、baidu)

  • 相关阅读:
    C++虚函数表解析(转)
    学习网址
    css 段落文字换行问题
    移动端fixed兼容问题
    半数集1
    汇编寄存器
    设计模式概述
    Vector用法介绍
    汇编PC硬件基本特征
    android 反编译总结
  • 原文地址:https://www.cnblogs.com/roadlandscape/p/12545275.html
Copyright © 2011-2022 走看看