搜索引擎solr系列---solr分词配置

zoukankan html css js c++ java

搜索引擎solr系列---solr分词配置
分词我理解的是，输入的一句话，按照它自己定义的规则分为常用词语。

首先，Solr有自己基本的类型，string、int、date、long等等。

对于string类型，比如在你的core/conf/manage-schema文件中，配置一个字段类型为string类型，如果查询符合“我是中国人”的数据，它就认为“我是中国人”是一个词语。
但是如果你将该字段设置成了分词，即配置成了text_ik类型，就可能匹配“我”、“中国人”、“中国”、“中”、“人”带有这些字的该字段数据都可能被查询到。这就是分词带来的结果。具体要按照各自的业务来配置是否分词，分词对于大文本字段设置是合理的，但是对于小字段，设置分词是没必要的，甚至有相反的结果。比如你的某一个叫姓名的字段设置了分词，还不如设置string,查询时模糊匹配效果最好，（模糊匹配就是查询条件两边加上*），当然也要看自己业务需求是什么。

Solr分词的配置如下：

1.首先下载一个分词的jar包ik分词5.5jar包下载地址

2.将该分词jar包放到你的solr运行tomcat中的webapps/solr/WEB-INF/lib文件夹中，例如我的是D:Tomcat9SolrwebappssolrWEB-INFlib。

3.然后，在你的solrHome下的某个core/conf文件夹中,找到manage-schema文件，在改文件中的最下边添加配置如下内容：

<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer" /> <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer" /> </fieldType>

1

2

3

4

5

6

4.然后还是在这个manage-schema文件中，找到你想配置分词的字段，将其type改为text_ik类型：

这里以dkdz为例，设置之前，在solr客户端查看是如下结果：
不好意思，我图贴错了，下边的3处应该是dkdz，不是dkbm!!

配置分词如下：

配置之后，在solr客户端的core admin中，reload该core，再次查看，变成如下页面：

如果变成了上边这种结果，就说明分词成功了。对于分词后的字段，如果在查询结果上有歧义，最好是来到solr客户端的上边位置，看下你的条件是不是因为分词，给分成了不是你想要的那种结果。

下一篇写，分词添加自定义扩展词库
版权声明：重在参与，贵在分享 https://blog.csdn.net/wohaqiyi/article/details/78287307
查看全文

相关阅读:
Cleve Moler MATLAB 创始人金秋10月中国大学校园行
 [原]ASP.NET中使用JQUERYEASYUI后，解决ClientScript.RegisterStartupScript 所注册脚本执行两次
 [原]ASP.NET中使用后端代码注册脚本生成JQUERYEASYUI　的界面错位
 [原]jqueryeasyui 关闭tab如何自动切换到前一个tab
[原创]C# 实例Oracle 备份，带进度提示
 停止Oracle 服务开机自动重启
 最新县及县以上行政区划代码（截止2009年12月31日）
单元测试学习：无返回值，触发委托
 [笔记]GetRequestStream()超时问题（出现假死，卡住）
asp.net 页面 css中图片不存在引发的异常

原文地址：https://www.cnblogs.com/cuihongyu3503319/p/9390086.html

搜索引擎solr系列---solr分词配置

分词我理解的是，输入的一句话，按照它自己定义的规则分为常用词语。

首先，Solr有自己基本的类型，string、int、date、long等等。

Solr分词的配置如下：

1.首先下载一个分词的jar包ik分词5.5jar包下载地址

2.将该分词jar包放到你的solr运行tomcat中的webapps/solr/WEB-INF/lib文件夹中，例如我的是D:Tomcat9SolrwebappssolrWEB-INFlib。

3.然后，在你的solrHome下的某个core/conf文件夹中,找到manage-schema文件，在改文件中的最下边添加配置如下内容：

4.然后还是在这个manage-schema文件中，找到你想配置分词的字段，将其type改为text_ik类型：