ElasticSearch——原始文档和倒排索引

zoukankan html css js c++ java

ElasticSearch——原始文档和倒排索引
一、原始文档

如上图所示, 第二象限是一份原始文档，有title和content2个字段，字段取值分别为”我是中国人”和” 热爱共X产党”，这一点没什么可解释的。我们把原始文档写入Elasticsearch，默认情况下，Elasticsearch里面有2份内容，一份是原始文档，也就是_source字段里的内容，我们在Elasticsearch中搜索文档，查看的文档内容就是_source中的内容，如图2，相信大家一定非常熟悉这个界面。

二、倒排索引

另一份是倒排索引，倒排索引中的数据结构是倒排记录表，记录了词项和文档之间的对应关系，比如关键词”中国人”包含在文档ID为1的文档中，倒排记录表中存储的就是这种对应关系，当然也包括词频等更多信息。Elasticsearch底层用的是Lucene的API，Elasticsearch之所以能完成全文搜索的功能就是因为存储的有倒排索引。如果把倒排索引拿掉，Elasticsearch是不是和mongoDB很像？
那么文档索引到Elasticsearch的时候，默认情况下是对所有字段创建倒排索引的(动态mapping解析出来为数字类型、布尔类型的字段除外)，某个字段是否生成倒排索引是由字段的index属性控制的，在Elasticsearch 5之前，index属性的取值有三个:

analyzed:字段被索引，会做分词，可搜索。反过来，如果需要根据某个字段进搜索，index属性就应该设置为analyzed。
not_analyzed：字段值不分词，会被原样写入索引。反过来，如果某些字段需要完全匹配，比如人名、地名，index属性设置为not_analyzed为佳。
no:字段不写入索引，当然也就不能搜索。反过来，有些业务要求某些字段不能被搜索，那么index属性设置为no即可。
再说_all字段，顾名思义，_all字段里面包含了一个文档里面的所有信息，是一个超级字段。以图中的文档为例，如果开启_all字段，那么title+content会组成一个超级字段，这个字段包含了其他字段的所有内容，当然也可以设置只存储某几个字段到_all属性里面或者排除某些字段。

回到图一的第一象限，用户输入关键词" 中国人"，分词以后，Elasticsearch从倒排记录表中查找哪些文档包含词项"中国人 ",注意变化，分词之前" 中国人"是用户查询(query)，分词之后在倒排索引中" 中国人"是词项(term)。Elasticsearch根据文档ID(通常是文档ID的集合)返回文档内容给用户，如图一第四象限所示。

三、_source配置

_source字段默认是存储的，什么情况下不用保留_source字段？如果某个字段内容非常多，业务里面只需要能对该字段进行搜索，最后返回文档id，查看文档内容会再次到mysql或者hbase中取数据，把大字段的内容存在Elasticsearch中只会增大索引，这一点文档数量越大结果越明显，如果一条文档节省几KB，放大到亿万级的量结果也是非常可观的。
如果想要关闭_source字段，在mapping中的设置如下:
{ "yourtype":{ "_source":{ "enabled":false }, "properties": { ... } } }
如果只想存储某几个字段的原始值到Elasticsearch，可以通过incudes参数来设置，在mapping中的设置如下:
{ "yourtype":{ "_source":{ "includes":["field1","field2"] }, "properties": { ... } } }
同样，可以通过excludes参数排除某些字段：
{ "yourtype":{ "_source":{ "excludes":["field1","field2"] }, "properties": { ... } } }
四、_all配置

_all字段默认是关闭的，如果要开启_all字段，索引增大是不言而喻的。_all字段开启适用于不指定搜索某一个字段，根据关键词，搜索整个文档内容。
开启_all字段的方法和_source类似,mapping中的配置如下:
{ "yourtype": { "_all": { "enabled": true }, "properties": { ... } } }
也可以通过在字段中指定某个字段是否包含在_all中:
{ "yourtype": { "properties": { "field1": { "type": "string", "include_in_all": false }, "field2": { "type": "string", "include_in_all": true } } } }
参考：

https://blog.csdn.net/napoay/article/details/62233031
查看全文

相关阅读:
SpringBoot学习（一）——Spring的发展
 layer插件学习——弹框（自定义页）
layer插件学习——提示层
 layer插件学习——询问框
 layer插件学习——icon样式
 windows环境下搭建Java开发环境（二）：Tomcat安装和配置
 windows环境下搭建Java开发环境（一）：jdk安装和配置
 朋友（翻转树边权值比赛）——依然是思维
 S=∑1≤u<v≤nmex(u,v)
Emergency Evacuation(最短下车时间)———（思维）

原文地址：https://www.cnblogs.com/caoweixiong/p/11961734.html

ElasticSearch——原始文档和倒排索引

一、原始文档

二、倒排索引

三、_source配置

四、_all配置