zoukankan      html  css  js  c++  java
  • Solr6.6 IK 中文分词的配置和使用

      

      1. 首先,下载IKAnalyzer ,下载

      

      2. 将ik的相关文件 拷贝到 webappssolrWEB-INFlib 目录下

       或者存放solr-6.6.0serversolr estlib下面,就是在核test下面建立lib文件夹,把对应组件放在lib下面

       

      修改solrconfig.xml,增加如下:

      

     <lib dir="./lib" regex=".*.jar"/>

      

      3. 在 solr-6.6.0serversolr estconfmanaged-schema增加如下配置

      

     <fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index" >
          <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
          <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/CNstopwords.txt" />
        </analyzer>
        <analyzer type="query">
          <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
          <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/CNstopwords.txt" />
        </analyzer>
      </fieldType>

      

    CNstopwords.txt为通用词文件

    
    

      或

    <!-- 我添加的IK分词 -->
             <fieldType name="text_ik" class="solr.TextField">   
                       <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
                       <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
             </fieldType>

      同时,把需要分词的字段,设置为text_ik,

      <field name="pathsummary"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />
      <field name="attr_content"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />

      

      4、在admin后台, analysis 下查看分词效果

      

  • 相关阅读:
    P4097 [HEOI2013]Segment(李超线段树模板)
    P2155 [SDOI2008]沙拉公主的困惑
    BZOJ3675 [Apio2014]序列分割[斜率优化dp]
    hdu4261 Estimation[暴力dp+对顶堆]
    poj2374 Fence Obstacle Course[线段树+DP]
    poj1463 Strategic game[树形DP]
    CH5E02 [IOI1999]花店橱窗[暴力dp]
    CH5E01[NOIP2010] 乌龟棋[暴力]
    CH5702 Count The Repetitions[倍增dp]
    P1081 [NOIP2012]开车旅行[倍增]
  • 原文地址:https://www.cnblogs.com/shaosks/p/8204615.html
Copyright © 2011-2022 走看看