zoukankan html css js c++ java

分词器

什么是分词器

采用一种算法，将中英文本中的字符拆分开来，形成词汇，以待用户输入关健字后搜索

为什么要分词器

因为用户输入的搜索的内容是一段文本中的一个关健字，和原始表中的内容有差别，

但作为搜索引擎来讲，又得将相关的内容搜索出来，此时就得采用分词器来最大限度

匹配原始表中的内容

分词器工作流程

步一：按分词器拆分出词汇

步二：去除停用词和禁用词

步三：如果有英文，把英文字母转为小写，即搜索不分大小写

分词器例子图解：“传智播客说我们的首都是北京呀I AM zhaojun”

演示常用分词器测试，只观查结果

package loaderman.analyzer;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
/**
 * 测试Lucene内置和第三方分词器的分词效果*/
public class TestAnalyzer {
    private static void testAnalyzer(Analyzer analyzer, String text) throws Exception {
        System.out.println("当前使用的分词器：" + analyzer.getClass());
        TokenStream tokenStream = analyzer.tokenStream("content",new StringReader(text));
        tokenStream.addAttribute(TermAttribute.class);
        while (tokenStream.incrementToken()) {
            TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
            System.out.println(termAttribute.term());
        }
    }



    public static void main(String[] args) throws Exception{
        //Lucene内存的分词器
        //testAnalyzer(new StandardAnalyzer(LuceneUtil.getVersion()),"呢哈说我们的首都是北京呀");
        //testAnalyzer(new FrenchAnalyzer(LuceneUtil.getVersion()),"呢哈说我们的首都是北京呀");
        //testAnalyzer(new RussianAnalyzer(LuceneUtil.getVersion()),"呢哈说我们的首都是北京呀");
        //testAnalyzer(new ChineseAnalyzer(),"呢哈说我们的首都是北京呀");
        //testAnalyzer(new CJKAnalyzer(LuceneUtil.getVersion()),"呢哈说我们的首都是北京呀");
        //testAnalyzer(new CJKAnalyzer(LuceneUtil.getVersion()),"呢哈说我们的首都是北京呀");
        //testAnalyzer(new FrenchAnalyzer(LuceneUtil.getVersion()),"呢哈说我们的首都是北京呀""); 
     testAnalyzer(new IKAnalyzer(),"呢哈说我们的首都是北京呀"); //testAnalyzer(new IKAnalyzer(),"上海自来水来自海上");  } }

2．6使用第三方IKAnalyzer分词器--------中文首选

需求：过滤掉上面例子中的“说”，“的”，“呀”，且将“首都”看成一个整体关健字

步一：导入IKAnalyzer分词器核心jar包，IKAnalyzer3.2.0Stable.jar

步二：将IKAnalyzer.cfg.xml和stopword.dic和xxx.dic文件复制到MyEclipse的src目录下，

再进行配置，在配置时，首行需要一个空行

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 扩展配置</comment>
    
    <!-- 用户可以在这里配置自己的扩展字典 --> 
    <entry key="ext_dict">/mydict.dic</entry> 
    
    
    <!--用户可以在这里配置自己的扩展停止词字典 -->
    <entry key="ext_stopwords">/surname.dic</entry> 
    
    
</properties>

首都   注/mydict.dic文件

说    注/surname.dic文件
的
呀

查看全文

相关阅读:
启动hadoop 2.6遇到的datanode启动不了
 .net开发遇到的一个问题
 there are 0 datanode.....
更改HDFS权限
 VMware提示：已将该虚拟机配置为使用 64 位客户机操作系统。但是，无法执行 64 位操作。解决方案
 Hive学习
 linux下mysql安装
 （5.2）mysql高可用系列——测试环境部署
 【转】mysql索引的探究
 【3.1】【mysql基本实验】mysql复制（主从复制/异步复制/半同步复制，一主一从）

原文地址：https://www.cnblogs.com/loaderman/p/10059510.html