zoukankan      html  css  js  c++  java
  • paoding分词

    Paoding 详细介绍

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

    高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

    采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

    能够对未知的词汇进行合理解析

    示例代码:

    //生成analyzer实例 
    Analyzer analyzer = new PaodingAnalyzer(properties); 
    //取得Token流 
    TokenStream stream = analyzer.tokenStream("", reader); 
    
    //重置到流的开始位置 
    stream.reset(); 
    
    //添加工具类 
    TermAttribute termAtt = (TermAttribute) stream.addAttribute(TermAttribute.class); 
    OffsetAttribute offAtt = (OffsetAttribute) stream.addAttribute(OffsetAttribute.class); 
    
    //循环打印所有分词及其位置 
    while (stream.incrementToken()) {
        System.out.println(termAtt.term() + " " + offAtt.startOffset() + " " + offAtt.endOffset()); 
    }







    参考自:开源中国 https://www.oschina.net/p/paoding



  • 相关阅读:
    分解质因数
    大素数测试和分解质因数
    快速幂
    欧拉函数
    素数
    gcd,lcm,ext_gcd,inv
    凸包问题 poj 2187
    map的 简单用法
    判断线段是否在园内
    2-sat 问题
  • 原文地址:https://www.cnblogs.com/qiaoyanlin/p/6891426.html
Copyright © 2011-2022 走看看