1.顺序扫描法
算法描述:
所谓顺序扫描,例如要找内容包含一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。
优点:
查询准确率高
缺点:
查询速度会随着查询数据量的增大, 越来越慢
使用场景:
数据库中的 like关键字模糊查询
文本编辑器的 Ctrl + F 查询功能
2.倒排索引
先举一个例子:
例如我们使用新华字典查询汉字,新华字典有偏旁部首的目录(索引),我们查字首先查这个目录,找到这个目录中对应的偏旁部首,就可以通过这个目录中的偏旁部首找到这个字所在的位置(文档)。
Lucene会对文档建立倒排索引
1、 提取资源中关键信息, 建立索引 (目录)
2、 搜索时,根据关键字(目录),找到资源的位置
算法描述:
查询前会先将查询的内容提取出来组成文档(正文), 对文档进行切分词组成索引(目录), 索引和文档有关联关系, 查询的时候先查询索引, 通过索引找文档的这个过程叫做全文检索。
为什么倒排索引比顺序扫描快?
理解 : 因为索引可以去掉重复的词, 汉语常用的字和词大概等于, 字典加词典, 常用的英文在牛津词典也有收录.如果用计算机的速度查询, 字典+词典+牛津词典这些内容是非常快的. 但是用这些字典, 词典组成的文章却是千千万万不计其数. 索引的大小最多也就是字典+词典. 所以通过查询索引, 再通过索引和文档的关联关系找到文档速度比较快. 顺序扫描法则是直接去逐个查询那些不计其数的文章,就算是计算的速度也会很慢.
优点:
查询准确率高
查询速度快, 并且不会因为查询内容量的增加, 而使查询速度逐渐变慢
缺点:
索引文件会占用额外的磁盘空间, 也就是占用磁盘量会增大。
使用场景:
海量数据查询
全文检索技术应用场景:
1、 站内搜索 (baidu贴吧、论坛、 京东、 taobao)
2、 垂直领域的搜索 (818工作网)
3、 专业搜索引擎公司 (google、baidu)