ElasticSearch 分词器

zoukankan html css js c++ java

ElasticSearch 分词器
1，什么是分词器

分词器在ES 中，相当于字典一样，收录了很多的词。

但是，ElasticSearch 对中文的支持不是很大，默认的就是一个一个字，所以，我们需要安装插件比如IK 分词器，收录了几十万个词语。

2，默认的分词器，

中国好声音，没有一个词语，都一个个汉字

3，IK 安装

下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases

第一步：下载es的IK插件（资料中有）命名改为ik插件

第二步: 上传到/usr/local/elasticsearch-6.4.3/plugins

第三步: 重启elasticsearch即可

这样就可以出现中国汉语常用的词语几十万个了

4，自定义

由于一些新词，或者网络用语，IK 插件是没有收录的

也可以自定义

在/usr/local/elasticsearch-6.4.3/plugins/ik/config目录下

vi custom/new_word.dic 创建新词语，在

vi IKAnalyzer.cfg.xml 配置下就可以
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment>  <entry key="ext_dict">custom/new_word.dic</entry>  <entry key="ext_stopwords"></entry>     </properties>
查看全文

相关阅读:
深入理解JavaScript定时器（续）
也谈前端基础设施建设
 Reporting Services在指定计算机上找不到报表服务器
 优化tempdb提高SQL Server的性能
 SQL 代理服务未运行。此操作需要 SQL 代理服务。 (rsSchedulerNotResponding) 获取联机帮助
 报表服务器上出现内部错误。有关详细信息，请参阅错误日志。 (rsInternalError) 获取联机帮助.找不到存储过程 'GetOneConfigurationInfo'。
表中包含有外键时无法进行导入数据，
SQLSTATE ODBC API（驱动程序管理器）错误
 数据库只能用机器名连接,不能用ip地址连接
 请教：不能访问通过IP访问，却可以通过机器名访问

原文地址：https://www.cnblogs.com/pickKnow/p/11450474.html