zoukankan      html  css  js  c++  java
  • ES入门

    ES入门概念简介

    • 索引库 index
    • type
    • 文档 document
    • 字段 filed

    创建索引库

    创建一个名为“index_test”的索引库:

      PUT/index_test

           http://localhost:9200/index_test

    {
    "settings":{
    "number_of_shards":1, //索引库分片数量
    "number_of_replicas":0 //每个分片的副本数,关于分片、集群等在后文详细介绍
    }
    }

    创建mapping关系

     POST /index_name/type_name/_mapping?include_type_name=true=true

    7.0之后的版本不支持type所以需要增加此参数 include_type_name=true

      http://localhost:9200/index_test/doc/_mapping

      

    {
    "properties":{
    "name":{
    "type":"text"
    },
    "age":{
    "type":"integer"
    },
    "description":{
    "type":"text"
    }
    }
    }
    添加文档

    PUT /index/type/id

       如果不指定id,es会自动创建id

       这里不会做index校验,也就是说如果你写错了index,也会添加成功需要注意

    http://localhost:9200/index_test/doc/
    {
    "name" : "许文祥",
    "description" : "666666666666666666666666666666666666666666666666",
    "age" : 27
    }


    IK中文分词器
    ES默认情况下是不支持中文分词的,也就是说对于添加的中文数据,ES将会把每个字当做一个term(词项),这不利于中文检索。

    • es6之前方法是GET,如下:


    http://localhost:9200/_analyze?analyzer=ik_smart&text=手机充值

    • es6之后可以使用GET或者POST方法,但是分词器和查询词需要以json的形式写在body里。


    测试ES默认情况下对中文分词的结果:
    POST /_analyze
    http://localhost:9200/_analyze

    analyzer为分词类型,可以不写默认:standard

    {
    "analyzer": "standard",
    "text": "许文祥sfsafsf"
    }

     

    {
    "tokens": [
    {
    "token": "许",
    "start_offset": 0,
    "end_offset": 1,
    "type": "<IDEOGRAPHIC>",
    "position": 0
    },
    {
    "token": "文",
    "start_offset": 1,
    "end_offset": 2,
    "type": "<IDEOGRAPHIC>",
    "position": 1
    },
    {
    "token": "祥",
    "start_offset": 2,
    "end_offset": 3,
    "type": "<IDEOGRAPHIC>",
    "position": 2
    },
    {
    "token": "sfsafsf",
    "start_offset": 3,
    "end_offset": 10,
    "type": "<ALPHANUM>",
    "position": 3
    }
    ]
    }

    这里可以看到中文被分成了一个字一个字
    下载ik https://www.cnblogs.com/heshun/articles/10658909.html并解压到ES的plugins文件夹下
    目录下,并将解压后的目录改名为 ik,重启ES,该插件即会被自动加载。

    这里需要注意一个问题,ik的配置文件里会配指定的es版本,如果和你的es版本不一致,启动es的时候会报错


    启动es的时候会一闪而过,只能去log里面取看日志
    修改这个version=6.2.3之后就能启动了

    {
    "text":"中华人民共和国",
    "analyzer":"ik_max_word" //设置分词器为ik分词器,否则还是会采用默认分词器,可选ik_max_word和ik_smart
    }
    {
    "tokens": [
    {
    "token": "中华人民共和国",
    "start_offset": 0,
    "end_offset": 7,
    "type": "CN_WORD",
    "position": 0
    },
    {
    "token": "中华人民",
    "start_offset": 0,
    "end_offset": 4,
    "type": "CN_WORD",
    "position": 1
    },
    {
    "token": "中华",
    "start_offset": 0,
    "end_offset": 2,
    "type": "CN_WORD",
    "position": 2
    },
    {
    "token": "华人",
    "start_offset": 1,
    "end_offset": 3,
    "type": "CN_WORD",
    "position": 3
    },
    {
    "token": "人民共和国",
    "start_offset": 2,
    "end_offset": 7,
    "type": "CN_WORD",
    "position": 4
    },
    {
    "token": "人民",
    "start_offset": 2,
    "end_offset": 4,
    "type": "CN_WORD",
    "position": 5
    },
    {
    "token": "共和国",
    "start_offset": 4,
    "end_offset": 7,
    "type": "CN_WORD",
    "position": 6
    },
    {
    "token": "共和",
    "start_offset": 4,
    "end_offset": 6,
    "type": "CN_WORD",
    "position": 7
    },
    {
    "token": "国",
    "start_offset": 6,
    "end_offset": 7,
    "type": "CN_CHAR",
    "position": 8
    }
    ]
    }

    在输入"中华人民共和国"的时候可以看出ik中文分词的效果,但是在输入"许文祥sdfsf"的时候并不能看出效果原因是ik中文分词默认启用main.dic分词库,在config文件里可以看到.

    自定义词库
    自定义词库的编码格式需要是utf-8,否则会不启作用
    我们在ES的目录下增加自定义的词库文件extra_my.dic

    /plugins/ik/config


    并添加两行行“许文祥 文祥”(词典文件的格式是每一个词项占一行),并在ik的配置文件中引入该自定义词典:

    /plugins/ik/config/IKAnalyzer.cfg.xml

    这次再去测试中文分词就会根据自己词库进行分词

    {
    "tokens": [
    {
    "token": "许文祥",
    "start_offset": 0,
    "end_offset": 3,
    "type": "CN_WORD",
    "position": 0
    },
    {
    "token": "文祥",
    "start_offset": 1,
    "end_offset": 3,
    "type": "CN_WORD",
    "position": 1
    }
    ]
    }

    映射
    新增字段
    PUT /xc_course/doc/_mapping

    http://localhost:9200/index_test/doc/_mapping

    {
    "properties":{
    "create_time":{
    "type":"date"
    }
    }
    }

    查看映射
    GET /index/doc/_mapping

    http://localhost:9200/index_test/doc/_mapping

    {
    "index_test": {
    "mappings": {
    "doc": {
    "properties": {
    "age": {
    "type": "integer"
    },
    "create_time": {
    "type": "date"
    },
    "description": {
    "type": "text"
    },
    "name": {
    "type": "text"
    }
    }
    }
    }
    }
    }

    已有的映射可以新增字段但不可以更改已有字段的定义!

    如果一定要更改某字段的定义(包括类型、分词器、是否索引等),那么只有删除此索引库重新建立索引并定义好各字段,再迁入数据。因此在索引库创建时要考虑好映射的定义,因为仅可扩展字段但不可重新定义字段。

    {
    "properties":{
    "create_time":{
    "type":"integer"
    }
    }
    }
    这边就会报错
    {
    "error": {
    "root_cause": [
    {
    "type": "illegal_argument_exception",
    "reason": "mapper [create_time] of different type, current_type [date], merged_type [integer]"
    }
    ],
    "type": "illegal_argument_exception",
    "reason": "mapper [create_time] of different type, current_type [date], merged_type [integer]"
    },
    "status": 400
    }
     
  • 相关阅读:
    指针加减法运算的“定义域”
    将main()进行到底
    带命令行参数的main函数的误解[到处转载的垃圾]
    亡羊补牢还是越错越远——“C99允许在函数中的复合语句中定义变量”
    会错意表错情,搭错车上错床——“度日如年”的故事及“feof()”的故事
    狗屁不通的《C语言详解:什么是表达式、语句、表达式语句?》
    已知两边长求三角形面积
    用驴子拖宝马——怎样滥用结构体
    糟蹋好题——魔方阵问题
    怎样建立链表并同时造成内存泄露
  • 原文地址:https://www.cnblogs.com/xwx20160804/p/11718322.html
Copyright © 2011-2022 走看看