zoukankan      html  css  js  c++  java
  • Solr系列二:Solr与mmseg4j的整合

    mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下:

    第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585

    第二步:将下载的mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-2.2.0.jar这三个jar包复制到tomcat下的webapps/solr/WEB-INF/lib目录下。

    第三步:修改配置文件,打开solr home目录中的某一个core的目录,例如core0:然后打开core0/conf下的schema.xml文件。

    第四步:在filedtype域插入如下代码:

        <fieldType name="textComplex" class="solr.TextField" >  
            <analyzer>  
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic/"/>  
            </analyzer>  
        </fieldType>  
        <fieldType name="textMaxWord" class="solr.TextField" >  
            <analyzer>  
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic/"/>  
            </analyzer>  
        </fieldType>  
        <fieldType name="textSimple" class="solr.TextField" >  
            <analyzer>  
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic/"/>  
            </analyzer>  
        </fieldType>  

    4. 将mmseg4j-all-1.8.4-with-dic.war解压在一个临时文件夹中,然后将data文件夹内的chars.dic、units.dic、words.dic三个字典文件复制到TOMCAT_HOME/solr_home/core0/dic目录中;

    5. 启动tomcat,访问http://localhost:8080/solr/admin/analysis.jsp,选择Field下拉选项中的type,后面输入textComplex,然后在Field value中随便复制一段中文文字,点击Analyz,就可以看到mmseg4j的分词结果了。

  • 相关阅读:
    React 高阶组件(HOC)
    使用 httpclient 连接 https 请求
    JAVA递归生成树形菜单
    Java8 stream 操作 GroupBy 设置键允许为null
    Java中简单对象(数组)拷贝
    idea中的Java项目引入外部jar包以及打包
    Java代码测试Kafka集群收发消息
    docker环境下,查看服务的线程数
    前端 vue3 随手记
    当GPU型号选定后,用什么样GPU的服务器?
  • 原文地址:https://www.cnblogs.com/huajiezh/p/5432878.html
Copyright © 2011-2022 走看看