zoukankan      html  css  js  c++  java
  • ES 中文分词

    一、大名鼎鼎的中文插件IK的安装配置

    1. 在插件目录中建立IK的目录

    mkdir $ES_HOME/plugins/analysis-ik

    2. 下载IK 的类库jar 文件到IK目录

    cd  $ES_HOME/plugins/analysis-ik
    wget https://github.com/medcl/elasticsearch-rtf/blob/master/plugins/analysis-ik/elasticsearch-analysis-ik-1.2.6.jar

    3. 放置数据字典

    将打包的ik.zip 解压缩到$ES_HOME/config目录中

    unzip  ik.zip  -d  /usr/local/elasticsearch/config/

    4. 设置配置文件

    在配置文件中添加IK的配置

    vi $ES_HOME/config/elasticsearch.yml

    在最后添加下边的内容

    index:
      analysis:                   
        analyzer:      
          ik:
              alias: [ik_analyzer]
              type: org.elasticsearch.index.analysis.IkAnalyzerProvider
          ik_max_word:
              type: ik
              use_smart: true
          ik_smart:
              type: ik
              use_smart: false

    5.重新启动es 看IK 插件运行是否正常

    $ES_HOME/bin/elasticsearch –d

    查看启动日志中是否加载analysis-ik

    cat  $ES_HOME/logs/7jia2.log | grep 'analysis-ik'
    [2014-10-12 22:03:31,309][INFO ][plugins ] [spt] loaded [analysis-ik], sites [bigdesk, head]

    看到analysis-ik表示加载成功

    6. 测试分词效果

    curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=ik" -d'
    {
        "text" : "女士冲锋衣"
    }'

    clip_image002

    二 Medcl 大神的另一个分词利器mmseg

    1. 在插件目录中建立IK的目录

    mkdir $ES_HOME/plugins/ analysis-mmseg

    2. 下载IK 的类库jar 文件到IK目录

    cd  $ES_HOME/plugins/ analysis-mmseg
    wget https://github.com/medcl/elasticsearch-rtf/blob/master/plugins/analysis-mmseg/elasticsearch-analysis-mmseg-1.2.2.jar

    3.放置数据字典

    将打包的mmseg.zip 解压缩到$ES_HOME/config目录中

    unzip  mmseg.zip  -d  /usr/local/elasticsearch/config/

    4. 设置配置文件

    在配置文件中添加IK的配置

    vi $ES_HOME/config/elasticsearch.yml

    使最后的分析器如下显示

    index:
      analysis:
        tokenizer:
          mmseg_maxword:
            type: mmseg
            seg_type: max_word
          mmseg_complex:
            type: mmseg
            seg_type: complex
          mmseg_simple:
            type: mmseg
            seg_type: simple
        analyzer:
          ik:
            alias:
            - ik_analyzer
            type: org.elasticsearch.index.analysis.IkAnalyzerProvider
          ik_max_word:
            type: ik
            use_smart: false
          ik_smart:
            type: ik
            use_smart: true
          mmseg:
            alias:
            - mmseg_analyzer
            type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider
          mmseg_maxword:
            type: custom
            filter:
            - lowercase
            tokenizer: mmseg_maxword
          mmseg_complex:
            type: custom
            filter:
            - lowercase
            tokenizer: mmseg_complex
          mmseg_simple:
            type: custom
            filter:
            - lowercase
            tokenizer: mmseg_simple

    5.重新启动es 看IK 插件运行是否正常

    $ES_HOME/bin/elasticsearch –d

    查看启动日志中是否加载mmseg

    cat  $ES_HOME/logs/7jia2.log | grep 'analysis-mmseg '
    loaded [analysis-mmseg, analysis-ik, jdbc-1.3.0.4-247a6f5], sites [bigdesk, head]

    看到mmseg表示加载成功

    6.测试分词效果

    Curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=mmseg" -d'
    {
        "text" : "女士冲锋衣"
    }'

    clip_image002[4]

    curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=mmseg_complex" -d'
    {
        "text" : "女士冲锋衣"
    }'

    clip_image002[6]

  • 相关阅读:
    ECMAScript 6 基础入门
    软件历史版本存档及下载
    arduino 编程基础
    生活中的实验 —— 家庭电路
    电子元件 —— 继电器
    电与磁 —— 电磁铁
    windows cmd 命令行 —— 进程与服务
    计算机硬件、摄影设备、物质、材料英语
    DHCP服务器备份、还原、迁移
    SVN同步
  • 原文地址:https://www.cnblogs.com/tjxwg/p/4026925.html
Copyright © 2011-2022 走看看