zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    
    
    import jieba
    
    f=open('好吗.txt','r')
    notes=f.read()
    notelist=list(jieba.lcut(notes))
    
    NoteDic={}
    for i in set(notelist):    #计算次数
        NoteDic[i]=notelist.count(i)
    
    delete_word={'的',' ','你',';', 'u3000', '这', '就', '说', '皆', '没有', '自己', '走',',','。',':','“','”','看到','','?','着','想',
               '操','遂','与','不','是','、','这个','和','!', '
    ','…','?','什么','吗','好','现在','知道','知道','一个','吧','看','想着','真的',
                 '很','了','我','在','也','有','人','去','.','他','都','把','样子','上','事','给','她','要','不是','就是','会'}
    
    for i in delete_word:        #删除非法词汇
        if i in NoteDic:
            del NoteDic[i]
    
    sort_word = sorted(NoteDic.items(), key= lambda d:d[1], reverse = True)  # 由大到小排序
    for i in range(20):  #输出词频Top20
        print(sort_word[i])
    
    
    

      

    
    
    
    
    
    
  • 相关阅读:
    2016工作总结与反思
    JSP 标准标签库(JSTL)
    JQuery遍历CheckBox踩坑记
    JAVA中按照""截取字符串
    file上传图片功能
    List转化为Map
    Map转化为List
    对JAVA的LIST进行排序
    根据制定ID查询信息
    制定查询条数
  • 原文地址:https://www.cnblogs.com/qazwsx833/p/8665293.html
Copyright © 2011-2022 走看看