倒排索引
常规目录:正排索引,文档id到文档内容和单词的关联
附录索引:倒排索引,单词到文档id的关联
倒排索引项组成
- 文档id
- 词频,相关性
- 位置
- 偏移,开始和结束的位置,用于高亮显示等
elasticsearch的json的每一个字段都有自己的倒排索引
analysis分词
Analyzer是es内置的分词器。
- Character Filters:原始处理,比如去除html标签
- Tokenizer:拆分器,按照规则进行拆分,比如按照空格进行拆分
- Token Filters:对已经拆分的单词进行二次加工,比如全部小写等
GET _analyze
{
"analyzer": "standard",
"text":"this is a test TEXT, but i think it's enough"
}