zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    # -*- coding : UTF-8 -*-
    # -*- author : onexiaofeng -*-
    import jieba
    
    f=open('bbb.txt','r',encoding='utf-8')
    notes=f.read()
    notelist=list(jieba.lcut(notes))
    
    NoteDic={}
    for i in set(notelist):    #计算次数
        NoteDic[i]=notelist.count(i)
    
    delete_word={'',' ','','', '', '', '', '', '', '', '', '','','','','','','','','?','','',
               '','','','','','','','','', '
    ','','','','','','','','','','','','','却说',
                 '','','','便','','','','','','','','','','','','使',''}
    
    for i in delete_word:        #删除非法词汇
        if i in NoteDic:
            del NoteDic[i]
    
    sort_word = sorted(NoteDic.items(), key= lambda d:d[1], reverse = True)  # 由大到小排序
    for i in range(20):  #输出词频Top20
        print(sort_word[i])

  • 相关阅读:
    C# is 与 as 运算符
    C# dynamic类型
    C# 数组
    C# 泛型
    C# 事件
    C# 委托
    C# DateTime类,TimeSpan类
    C# 获取当前应用程序的绝对路径支持asp.net
    C# 父子类_实例_静态成员变量_构造函数的执行顺序
    C# System.Uri类_获取Url的各种属性_文件名_参数_域名_端口等等
  • 原文地址:https://www.cnblogs.com/onlythisone/p/8666126.html
Copyright © 2011-2022 走看看