术语:
Term :索引里最小的存储和查询单元,词;
字典:Term的集合;
倒排表:记录某些词出现在哪些文章中;
正向信息:最原始的文档信息;
段:索引中最小的独立存储单元,不可变;
检索方式:
单个词
AND(分别查到词A和词B的文档链表,然后做交集运算)
OR(做并集运算)
NOT(做差集运算)
分段储存:
如果不分段储存的话,会生成一个非常大的倒排索引写入磁盘,并且如果索引有更新,就需要重新全量创建一个索引来替换原来的索引。这种方式在数据量很大时,效率过低。
因此在搜索中引入了段的概念,讲一个索引文件拆分为多个子文件,则每个子文件叫做段,每个段都是一个独立的可搜索数据集。并且段具有不可变性。
新增:新建一个段
删除:新增一个.del文件,储存被删除的数据id。查询还能查得到,只是进行链表合并时会把删除的过滤掉,在段合并时才会真正的移除
更新:删除+新增
优点:
不需要锁
缓存友好
增量创建
缺点:
空间浪费
为了提升写的性能,使用了优化的方式。
(1)新数据写入时,并没有直接写入硬盘中,而是暂时写入到内存,当内存中数据量达到一定阶段时,再批量提交到磁盘;
(2)达到除法条件后,会将内存中缓存的数据一次性写入磁盘,并生成提交点;
(3)清空内存;
(4)一个段一旦拥有提交点,那么这个段只有读权限,失去写权限,相反,它在内存中时,只有写权限,没有读权限。
段合并策略:
检索过程:
查询所有段中满足查询条件的数据,然后对每个段里查询的结果集进行合并,所以为了空值索引段里段的数量,必须定期进行段合并操作。但是如果每次合并所有的段,会造成资源浪费,所以,现根据段的大小进行分组,再将同一组的段进行合并,但是如果段特别大了,就不会再合并了。