zoukankan      html  css  js  c++  java
  • hanlp和ansj技术对字符串(文档分词)的使用和总结

    最近做的一个项目的一部分就是分词技术,在网上找到的技术也有很多,在这里对hanlp和ansj技术进行代码展示以及结果展示

    首先是hanlp技术对分词的使用:

    1.下载hanlp的jar包(地址:http://hanlp.linrunsoft.com/services.html

    2.创建一个测试的java project 新建一个test的测试类进行测试:(代码如下)

    package hanlp;
    import java.util.List;
    import com.hankcs.hanlp.HanLP;
    import com.hankcs.hanlp.seg.common.Term;
    import com.hankcs.hanlp.tokenizer.NLPTokenizer;
    import com.hankcs.hanlp.tokenizer.TraditionalChineseTokenizer;
    
    public class test {
        public static void main(String args[])
        {
            List<Term> termList = NLPTokenizer.segment("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
            System.out.println(termList);
    
        }
    
    }

    展示结果如下:

    其次介绍ansj技术对分词的解决办法:

    1.下载ansj的jar包( http://maven.ansj.org/org/ansj/

    代码如下:

    package AnsjTest;
    
    import java.util.List;
    
    import org.ansj.splitWord.analysis.IndexAnalysis;
    import org.ansj.splitWord.analysis.ToAnalysis;
    
    import com.hankcs.hanlp.seg.common.Term;
    import com.hankcs.hanlp.tokenizer.NLPTokenizer;
    
    public class test {
    
        public static void main(String args[])
        {
            String str="欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!";
            System.out.println(IndexAnalysis.parse(str));
            
        }
    }

  • 相关阅读:
    IntentService源码分析
    startService过程源码分析
    洛谷P3300 城市规划
    agc033
    洛谷P3306 随机数生成器
    洛谷P3299 保护出题人
    洛谷P3298 泉
    洛谷P3296 刺客信条
    树hash
    我们都爱膜您退火!
  • 原文地址:https://www.cnblogs.com/zhaochunhui/p/10641120.html
Copyright © 2011-2022 走看看