zoukankan      html  css  js  c++  java
  • ElasticSearch中文分词器

    Lucene的IK分词器早在2012年已经没有维护了,现在我们要使用的是在其基础上维护升级的版本,并且开发为ElasticSearch的集成插件了,与Elasticsearch一起维护升级,版本也保持一致,最新版本:6.3.0

    1.5.1.安装

    https://github.com/medcl/elasticsearch-analysis-ik/releases

     

    使用unzip命令解压:

    unzip elasticsearch-analysis-ik-6.3.0.zip -d ik-analyzer

    然后重启elasticsearch:

    1.5.2.测试

    大家先不管语法,我们先测试一波。

    在kibana控制台输入下面的请求:

    POST _analyze
    {
      "analyzer": "ik_max_word",
      "text":     "我是中国人"
    }

    运行得到结果:

    {
      "tokens": [
        {
          "token": "",
          "start_offset": 0,
          "end_offset": 1,
          "type": "CN_CHAR",
          "position": 0
        },
        {
          "token": "",
          "start_offset": 1,
          "end_offset": 2,
          "type": "CN_CHAR",
          "position": 1
        },
        {
          "token": "中国人",
          "start_offset": 2,
          "end_offset": 5,
          "type": "CN_WORD",
          "position": 2
        },
        {
          "token": "中国",
          "start_offset": 2,
          "end_offset": 4,
          "type": "CN_WORD",
          "position": 3
        },
        {
          "token": "国人",
          "start_offset": 3,
          "end_offset": 5,
          "type": "CN_WORD",
          "position": 4
        }
      ]
    }
     
  • 相关阅读:
    CentOS最常用命令
    cssreset
    mysql cmd连接 乱码
    帮朋友转发招聘信息 南京知名互联网公司招聘java、测试、前端,具体私聊
    InputStream写文件出现大量NUL
    iOS app开发资料整理
    完美的视图旋转算法
    Windows上使用clang编译
    nodejs
    Rpath handling on Linux
  • 原文地址:https://www.cnblogs.com/sheng-se/p/14363935.html
Copyright © 2011-2022 走看看