zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    
    
    import jieba
    
    f=open('好吗.txt','r')
    notes=f.read()
    notelist=list(jieba.lcut(notes))
    
    NoteDic={}
    for i in set(notelist):    #计算次数
        NoteDic[i]=notelist.count(i)
    
    delete_word={'的',' ','你',';', 'u3000', '这', '就', '说', '皆', '没有', '自己', '走',',','。',':','“','”','看到','','?','着','想',
               '操','遂','与','不','是','、','这个','和','!', '
    ','…','?','什么','吗','好','现在','知道','知道','一个','吧','看','想着','真的',
                 '很','了','我','在','也','有','人','去','.','他','都','把','样子','上','事','给','她','要','不是','就是','会'}
    
    for i in delete_word:        #删除非法词汇
        if i in NoteDic:
            del NoteDic[i]
    
    sort_word = sorted(NoteDic.items(), key= lambda d:d[1], reverse = True)  # 由大到小排序
    for i in range(20):  #输出词频Top20
        print(sort_word[i])
    
    
    

      

    
    
    
    
    
    
  • 相关阅读:
    Asp.net的安全问题
    周末了
    GDI+ 取得文本的宽度和高度
    Family的解释
    日语:名词并列
    第一次来入住园里
    All About Floats
    smarty的基本配置
    apache:一个ip绑定多个域名的问题
    CSS Overflow属性详解
  • 原文地址:https://www.cnblogs.com/qazwsx833/p/8665293.html
Copyright © 2011-2022 走看看