zoukankan      html  css  js  c++  java
  • solr中文分词

    1.简介

    Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。因为中文的特殊性,在对中文文档建立全文索引时,需要利用分词工具进行分词。

    目前比较知名的分词工具有:
    IK,庖丁等

    2.下载

     solr链接:https://pan.baidu.com/s/1iitpaYgBVpXQSUABtkCm5Q 
    提取码:tuuo 

    3.安装

    解压文件。

    进入bin 启动solr

    ./solr start -p 8984

    可以在ip:8984端口上查看solr情况

    关闭solr

    ./solr stop -all

    4.中文分词配置

    copy ik-analyzer-solr5-5.x.jar to server/solr-webapp/webapp/WEB-INF/lib

    ik-analyzer-solr5-5.x.jar 下载地址:链接:https://pan.baidu.com/s/1MlzginuetwyONGQ5KbtnOg 
    提取码:7g7z 

     

    /usr/local/solr/solr-5.4.0/server/solr-webapp/webapp/WEB-INF/lib

    修改schema.xml

    <fieldType name="text_ik" class="solr.TextField">   <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" />  </analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" /></analyzer></fieldType>

    <field name="docContent" type="text_ik" indexed="true" stored="true" multiValued="true"/>

    <field name="docType" type="text_ik" indexed="true" stored="true" multiValued="true"/>

    <field name="docName" type="text_ik" indexed="true" stored="true" multiValued="true"/>

    重启solr

    检测:
    进入solr管理页面-->analysis 查看分词结果

  • 相关阅读:
    WM_COMMAND 和 WM_NOTIFY 的区别
    C 游戏所要看的书
    Source Insight中文字体设置
    在 windows7 中使用 vs2003 时,“在文件中查找”导致无响应的问题
    解决VS2008 调试启动特别慢
    c++ 浅谈 new 的使用
    Access界面基础操作
    与孩子一起学编程12章
    YT工作日志-0911
    两种方式遍历二叉树--递归方式和非递归方式
  • 原文地址:https://www.cnblogs.com/pigdata/p/10305562.html
Copyright © 2011-2022 走看看