zoukankan      html  css  js  c++  java
  • 中文词频统计

    import jieba
    f=open('hlm.txt','r')
    text=f.read()
    notelist=list(jieba.lcut(text))
    
    textdic={}
    for i in set(notelist):   #计算次数
        textdic[i]=notelist.count(i)
    
    delete={'',' ','','', '', '', '', '','','','','','','','
    ','','','"','','','u3000','',
                 '','','','','','','他们','','我们','','','你们','便','','','','',}
    
    for i in delete:     #删除非法词汇
        if i in textdic:
            del textdic[i]
    
    word = sorted(textdic.items(), key= lambda d:d[1], reverse = True)  # 由大到小排序
    for i in range(10):  #输出词频Top10
        print(word[i])



    问题:使用长篇小说时候会报错,下面是使用小说部分内容进行的中文词频查询。

    运行截图如下:
    
    
  • 相关阅读:
    我罗斯方块最终篇
    我罗斯汇报作业一
    11组-Alpha冲刺-2/6
    11组-Alpha冲刺-1/6
    结对编程作业
    11组 团队展示
    第一次个人编程作业
    第一次博客作业
    寒假作业3
    寒假作业2
  • 原文地址:https://www.cnblogs.com/hhmk/p/8663302.html
Copyright © 2011-2022 走看看