zoukankan      html  css  js  c++  java
  • PyNLPIR python中文分词工具


            NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统。    
            其主要的功能有中文分词,标注词性和获取句中的关键词。
            主要用到的函数有两个: pynlpir.segment(spos_tagging=Truepos_names='parent'pos_english=True)
                                                       pynlpir.get_key_words(smax_words=50weighted=False)
              分词:pynlpir.segment(spos_tagging=Truepos_names='parent'pos_english=True
                    S: 句子    
                    pos_tagging:是否进行词性标注    
                    pos_names:显示词性的父类(parent)还是子类(child) 或者全部(all)   
                    pos_english:词性显示英语还是中文
                获取关键词:pynlpir.get_key_words(smax_words=50weighted=False)
                    s: 句子
                    max_words:最大的关键词数
                    weighted:是否显示关键词的权重
    1. import pynlpir
    2. import jieba
    3. pynlpir.open()
    4. s = '最早的几何学兴起于公元前7世纪的古埃及'
    5. # s = 'hscode为0110001234的进口'
    6. segments = pynlpir.segment(s, pos_names='all',pos_english=False)
    7. for segment in segments:
    8. print (segment[0], ' ', segment[1])
    9. key_words = pynlpir.get_key_words(s, weighted=True)
    10. for key_word in key_words:
    11. print (key_word[0], ' ', key_word[1])
    12. pynlpir.close()
                           
     




  • 相关阅读:
    PHP全部手册
    你必须收藏的GitHub技巧
    PV和并发
    api接口
    LeetCode 14. 最长公共前缀
    LeetCode 1037. 有效的回旋镖
    LeetCode 242. 有效的字母异位词
    LeetCode 151. 翻转字符串里的单词
    LeetCode 22. 括号生成
    LeetCode 面试题05. 替换空格
  • 原文地址:https://www.cnblogs.com/combfish/p/7569111.html
Copyright © 2011-2022 走看看