zoukankan      html  css  js  c++  java
  • SOLR企业搜索平台 二 (分词安装)

    原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://3961409.blog.51cto.com/3951409/833417

     中文分词器安装

    1)下载分词器,下载地址: http://code.google.com/p/mmseg4j/downloads/list(版本自己选择吧,我用的是1.8.5)

    2)解压mmseg4j-1.8.5.zip,将mmseg4j-all-1.8.5.jar和dist中的mmseg4j-solr-1.8.5.jar一并复制到tomcat的webapps\solr\WEB-INF\lib\中

    3)打开{solr.home}下的solr/conf/schema.xml,加入如下代码(在types标签内加入)

    1. <!--MMesgAnalyazed--> 
    2.     <fieldType name="textComplex" class="solr.TextField" 
    3.       <analyzer
    4.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> 
    5.       </analyzer
    6.     </fieldType
    7.     <fieldType name="textMaxWord" class="solr.TextField" 
    8.       <analyzer
    9.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> 
    10.       </analyzer
    11.     </fieldType
    12.     <fieldType name="textSimple" class="solr.TextField" 
    13.       <analyzer
    14.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/> 
    15.       </analyzer
    16.     </fieldType

    dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录),mode 指定分词模式(simple|complex|max-word,默认是max-word)。这段代码也可以在mmseg4j-1.8.5.zip解压目录下的readme中找到.

    4)在{solr.home}的solr目录下新建名为dic文件夹

    5)将mmseg4j-1.8.5/data/下所有文件复制到dic中

    6)访问http://127.0.0.1:8080/solr/admin/analysis.jsp填入如下图信息

    分词信息

    输入:  solr中文分词器

    如果分词的结果显示  solr|中文|分词|器   

    恭喜安装成功! 

    本文出自 “李明泽” 博客,请务必保留此出处http://3961409.blog.51cto.com/3951409/833417

  • 相关阅读:
    第一次作业
    第一次作业
    第一次作业
    第一次作业
    随笔初谈
    第一次作业
    第一次作业
    第一次班级作业
    C语言感想---第一次作业
    C语言入门
  • 原文地址:https://www.cnblogs.com/hhcblog/p/3855509.html
Copyright © 2011-2022 走看看