zoukankan      html  css  js  c++  java
  • solr4.7中文分词器(ik-analyzer)配置

    solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。


    一、版本信息

    solr版本:4.7.0

    需要ik-analyzer版本:IK Analyzer 2012FF_hf1

    ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list


    二、配置步骤

    下载压缩解压后得到如下目录结构的文件夹:

    我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solrWEB-INFlib下面。

    我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

    修改core的schema.xml,在<types></types>配置项间加一段如下配置:

    1. <fieldType name="text_ik" class="solr.TextField">   
    2.      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
    3. </fieldType>  

    我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer

    我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

    1. <field name="name"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />   


    三、中文分词测试

                         
      1. IKT  
      2.       
      3. text  
      4. raw_bytes  
      5. start  
      6. end  
      7. type  
      8. position  
      9.       
      10. 中华人民共和国  
      11. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]  
      12. 0  
      13. 7  
      14. CN_WORD  
      15. 1  
      16.       
      17. 中华人民  
      18. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]  
      19. 0  
      20. 4  
      21. CN_WORD  
      22. 2  
      23.       
      24. 中华  
      25. [e4 b8 ad e5 8d 8e]  
      26. 0  
      27. 2  
      28. CN_WORD  
      29. 3  
      30.       
      31. 华人  
      32. [e5 8d 8e e4 ba ba]  
      33. 1  
      34. 3  
      35. CN_WORD  
      36. 4  
      37.       
      38. 人民共和国  
      39. [e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]  
      40. 2  
      41. 7  
      42. CN_WORD  
      43. 5  
      44.       
      45. 人民  
      46. [e4 ba ba e6 b0 91]  
      47. 2  
      48. 4  
      49. CN_WORD  
      50. 6  
      51.       
      52. 共和国  
      53. [e5 85 b1 e5 92 8c e5 9b bd]  
      54. 4  
      55. 7  
      56. CN_WORD  
      57. 7  
      58.       
      59. 共和  
      60. [e5 85 b1 e5 92 8c]  
      61. 4  
      62. 6  
      63. CN_WORD  
      64. 8  
      65.       
      66. 国  
      67. [e5 9b bd]  
      68. 6  
      69. 7  
      70. CN_CHAR  
  • 相关阅读:
    泛型
    Webx示例-PetStore分析1
    Spring容器简介
    PostgreSQL配置文件--复制
    PostgreSQL配置文件--WAL
    PostgreSQL配置文件--资源使用(除WAL外)
    PostgreSQL配置文件--连接和认证
    postgres访问认证配置文件pg_hba.conf
    lykops运维自动化
    DBA不可不知的操作系统内核参数
  • 原文地址:https://www.cnblogs.com/rxingyue/p/4159798.html
Copyright © 2011-2022 走看看