zoukankan      html  css  js  c++  java
  • paip.中文 分词 paoding 3.1 的使用

    paip.中文 分词 ---paoding 3.1 的使用

    paoding 3.1 下载: 1

    设置字典路径 1

    测试代码 1

    作者Attilax  艾龙,  EMAIL:1466519819@qq.com 
    来源:attilax的专栏
    地址:http://blog.csdn.net/attilax

    paoding 3.1 下载:

    Paoding分词器基于Lucene4.x

    http://git.oschina.net/zhzhenqin/paoding-analysis.git

    原项目见 https://code.google.com/p/paoding/

    设置字典路径

    /paodinProj/src/paoding-dic-home.properties   默认不用更改..

    /paodinProj/dic

    测试代码

     */

    public static void main(String[] args) throws IOException {

     String  text = "我的QQ号码是1466519819"; 

     text="一生当中,真正的朋友只有那么一两个!可以为自己的友情做个加减法!";

     Analyzer analyzer = new PaodingAnalyzer(); 

    TokenStream ts = analyzer.tokenStream("text", new StringReader(text));

    //添加工具类  注意:以下这些与之前lucene2.x版本不同的地方

    CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);

    // 循环打印出分词的结果,及分词出现的位置

    while (ts.incrementToken()) {

        System.out.print(offAtt.toString() + "\t");

     

     

    结论:

      实现类: PaodingAnalyzer

      使用方法: 主要通过lucene的接口实现, Analyser#tokenStream方法

      切词效果: 传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状//大小//性质

      备注: paoding的切词会漏字(食字),上面的结果就食了 ‘在’ 字;

                总会进行最小粒度切分,只要在词库里有的词组,都会出现。如:之前-->/之前

    效果不如ik,Ictclas4j

     

    }

    }

  • 相关阅读:
    Ural 1966 Cycling Roads
    SQL Server 2008 安装(lpt亲测)
    cf Round#273 Div.2
    poj 2318 TOYS
    计算几何好模板
    ❤Friends
    限制pyqt5应用程序 只允许打开一次
    pyqt5 菜单栏+信息提示框
    Android Linux deploy
    system分区解锁
  • 原文地址:https://www.cnblogs.com/attilax/p/15199413.html
Copyright © 2011-2022 走看看