zoukankan      html  css  js  c++  java
  • ik分词器

    ik分词器下载地址:https://code.google.com/archive/p/ik-analyzer/downloads

    需要翻墙

     配置文件:

     IKAnalyzer2012.jar(主 jar 包)
     IKAnalyzer.cfg.xml(分词器扩展配置文件)
     stopword.dic(停止词典)
     ext.dic (扩展词典)

     

    import java.io.StringReader;
    
    import org.apache.lucene.analysis.TokenStream;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    import org.wltea.analyzer.lucene.IKAnalyzer;
    
    /**
     * Ik分词器
     *
     * @author jiang
     *
     */
    public class Ik {
    
        public static void main(String[] args) {
    
            try {
    
            // 检索内容
                String text = "中国人";
                // 当为 true 时,分词器采用智能切分 ;当为 false时,分词器进行最细粒度切分。
                IKAnalyzer anal = new IKAnalyzer(false);
                StringReader reader = new StringReader(text);
                // 分词
                TokenStream ts = anal.tokenStream("s", reader);
                CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
                // 遍历分词数据
                while (ts.incrementToken()) {
                    System.out.print(term.toString() + "|");
                }
                reader.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    控制台:

    加载扩展词典:ext.dic
    加载扩展停止词典:stopword.dic
    中国人|中国|国人|

    lucene4.0 与iku_1兼容,其它不兼容情况可以更换jar包

  • 相关阅读:
    [k8s]通过svc来访问集群podhttp://api:8080/api/v1/namespaces/default/services/mynginx/proxy/
    redis 常用配置
    mysql 查询重复值命令
    maven3常用命令创建Project
    nginx如何解决超长请求串
    hbase 使用备忘
    Top命令内存占用剖析
    linux 模拟延时和丢包
    hbase命令备忘
    linux grep命令总结
  • 原文地址:https://www.cnblogs.com/bchange/p/9447546.html
Copyright © 2011-2022 走看看