zoukankan      html  css  js  c++  java
  • ES 中文分词

    一、大名鼎鼎的中文插件IK的安装配置

    1. 在插件目录中建立IK的目录

    mkdir $ES_HOME/plugins/analysis-ik

    2. 下载IK 的类库jar 文件到IK目录

    cd  $ES_HOME/plugins/analysis-ik
    wget https://github.com/medcl/elasticsearch-rtf/blob/master/plugins/analysis-ik/elasticsearch-analysis-ik-1.2.6.jar

    3. 放置数据字典

    将打包的ik.zip 解压缩到$ES_HOME/config目录中

    unzip  ik.zip  -d  /usr/local/elasticsearch/config/

    4. 设置配置文件

    在配置文件中添加IK的配置

    vi $ES_HOME/config/elasticsearch.yml

    在最后添加下边的内容

    index:
      analysis:                   
        analyzer:      
          ik:
              alias: [ik_analyzer]
              type: org.elasticsearch.index.analysis.IkAnalyzerProvider
          ik_max_word:
              type: ik
              use_smart: true
          ik_smart:
              type: ik
              use_smart: false

    5.重新启动es 看IK 插件运行是否正常

    $ES_HOME/bin/elasticsearch –d

    查看启动日志中是否加载analysis-ik

    cat  $ES_HOME/logs/7jia2.log | grep 'analysis-ik'
    [2014-10-12 22:03:31,309][INFO ][plugins ] [spt] loaded [analysis-ik], sites [bigdesk, head]

    看到analysis-ik表示加载成功

    6. 测试分词效果

    curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=ik" -d'
    {
        "text" : "女士冲锋衣"
    }'

    clip_image002

    二 Medcl 大神的另一个分词利器mmseg

    1. 在插件目录中建立IK的目录

    mkdir $ES_HOME/plugins/ analysis-mmseg

    2. 下载IK 的类库jar 文件到IK目录

    cd  $ES_HOME/plugins/ analysis-mmseg
    wget https://github.com/medcl/elasticsearch-rtf/blob/master/plugins/analysis-mmseg/elasticsearch-analysis-mmseg-1.2.2.jar

    3.放置数据字典

    将打包的mmseg.zip 解压缩到$ES_HOME/config目录中

    unzip  mmseg.zip  -d  /usr/local/elasticsearch/config/

    4. 设置配置文件

    在配置文件中添加IK的配置

    vi $ES_HOME/config/elasticsearch.yml

    使最后的分析器如下显示

    index:
      analysis:
        tokenizer:
          mmseg_maxword:
            type: mmseg
            seg_type: max_word
          mmseg_complex:
            type: mmseg
            seg_type: complex
          mmseg_simple:
            type: mmseg
            seg_type: simple
        analyzer:
          ik:
            alias:
            - ik_analyzer
            type: org.elasticsearch.index.analysis.IkAnalyzerProvider
          ik_max_word:
            type: ik
            use_smart: false
          ik_smart:
            type: ik
            use_smart: true
          mmseg:
            alias:
            - mmseg_analyzer
            type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider
          mmseg_maxword:
            type: custom
            filter:
            - lowercase
            tokenizer: mmseg_maxword
          mmseg_complex:
            type: custom
            filter:
            - lowercase
            tokenizer: mmseg_complex
          mmseg_simple:
            type: custom
            filter:
            - lowercase
            tokenizer: mmseg_simple

    5.重新启动es 看IK 插件运行是否正常

    $ES_HOME/bin/elasticsearch –d

    查看启动日志中是否加载mmseg

    cat  $ES_HOME/logs/7jia2.log | grep 'analysis-mmseg '
    loaded [analysis-mmseg, analysis-ik, jdbc-1.3.0.4-247a6f5], sites [bigdesk, head]

    看到mmseg表示加载成功

    6.测试分词效果

    Curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=mmseg" -d'
    {
        "text" : "女士冲锋衣"
    }'

    clip_image002[4]

    curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=mmseg_complex" -d'
    {
        "text" : "女士冲锋衣"
    }'

    clip_image002[6]

  • 相关阅读:
    Week14
    带你一文读懂Batch Normalization
    019_04简易相机
    019_03camera的调用
    019_02视频播放之VideoView
    019_01播放视频之SurfaceView
    018_04音效播放之MediaPlayer与SoundPool
    018_03简易美图
    018_02图片水印
    018_01图片特效
  • 原文地址:https://www.cnblogs.com/tjxwg/p/4026925.html
Copyright © 2011-2022 走看看