正排索引和倒排索引
倒排索引核心组成
单词词典(TermDictionary) 记录所有文档的单词,记录单词到倒排列表的关联关系
单词词典一般比较大,可以通过B+树或者哈希拉链法去实现,以满足高性能的插入与查询
倒排列表(Posting List)-记录单词对应的文档结合,由倒排索引项组成
倒排索引项
文档ID
词频TF - 该单词在文档中出现的次数,用于相关性评分
位置 - 单词在文档中分词的位置,用于语句搜索
偏移 - 记录单词的开始结束位置,实现高亮显示
Elasticsearch的倒排索引