zoukankan html css js c++ java

ik分词器

ik分词器下载地址：https://code.google.com/archive/p/ik-analyzer/downloads

需要翻墙

配置文件：

IKAnalyzer2012.jar（主 jar 包）
IKAnalyzer.cfg.xml（分词器扩展配置文件）
stopword.dic（停止词典）
ext.dic (扩展词典)

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
 * Ik分词器
 *
 * @author jiang
 *
 */
public class Ik {

    public static void main(String[] args) {

        try {

　　　  　　　// 检索内容
            String text = "中国人";
            // 当为 true 时，分词器采用智能切分 ；当为 false时，分词器进行最细粒度切分。
            IKAnalyzer anal = new IKAnalyzer(false);
            StringReader reader = new StringReader(text);
            // 分词
            TokenStream ts = anal.tokenStream("s", reader);
            CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
            // 遍历分词数据
            while (ts.incrementToken()) {
                System.out.print(term.toString() + "|");
            }
            reader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

控制台：

加载扩展词典：ext.dic
加载扩展停止词典：stopword.dic
中国人|中国|国人|

lucene4.0 与iku_1兼容，其它不兼容情况可以更换jar包

查看全文

相关阅读:
关于总线的总结
 我已经理解了并发和并行的区别
 关于CPU的一些基本知识总结
 shell生成指定长度的随机数
 进程、线程、协程、例程、过程的区别是什么？
Perl输出带颜色行号或普通输出行
 Ruby数组(2)：数组方法详细整理
 Linux find常用用法示例
 MariaDB官方手册翻译
 Ruby中to_s和to_str、to_i和to_int、to_a和to_ary、to_h和to_hash的解释说明

原文地址：https://www.cnblogs.com/bchange/p/9447546.html