zoukankan      html  css  js  c++  java
  • Solr6.6 IK 中文分词的配置和使用

      

      1. 首先,下载IKAnalyzer ,下载

      

      2. 将ik的相关文件 拷贝到 webappssolrWEB-INFlib 目录下

       或者存放solr-6.6.0serversolr estlib下面,就是在核test下面建立lib文件夹,把对应组件放在lib下面

       

      修改solrconfig.xml,增加如下:

      

     <lib dir="./lib" regex=".*.jar"/>

      

      3. 在 solr-6.6.0serversolr estconfmanaged-schema增加如下配置

      

     <fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index" >
          <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
          <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/CNstopwords.txt" />
        </analyzer>
        <analyzer type="query">
          <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
          <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/CNstopwords.txt" />
        </analyzer>
      </fieldType>

      

    CNstopwords.txt为通用词文件

    
    

      或

    <!-- 我添加的IK分词 -->
             <fieldType name="text_ik" class="solr.TextField">   
                       <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
                       <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
             </fieldType>

      同时,把需要分词的字段,设置为text_ik,

      <field name="pathsummary"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />
      <field name="attr_content"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />

      

      4、在admin后台, analysis 下查看分词效果

      

  • 相关阅读:
    还需要做恰当的解读,此时你可能需要一些书:
    创业公司的架构演进史
    任务调度平台Cuckoo-Schedule
    ORACLE中死锁
    Action的模型绑定
    三次握手、四次握手、backlog
    Django框架
    扩展BootstrapTable的treegrid功能
    Identity Service
    Linux权限
  • 原文地址:https://www.cnblogs.com/shaosks/p/8204615.html
Copyright © 2011-2022 走看看