zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。
    从文件读取待分析文本。
    news = open('gzccnews.txt','r',encoding = 'utf-8')
    安装与使用jieba进行中文分词。
    pip install jieba
    import jieba
    list(jieba.lcut(news))
    生成词频统计
    排序
    排除语法型词汇,代词、冠词、连词
    输出词频最大TOP20

    # -*- coding:UTF-8 -*-
    # -*- author:deng -*-
    import jieba
    
    f=open('C:/Users/Administrator/Desktop/童年.txt','r',encoding='gbk')
    notes=f.read()
    notelist=list(jieba.lcut(notes))
    
    NoteDic={}
    #统计次数
    for i in set(notelist):
        NoteDic[i]=notelist.count(i)
    
    #删除非法词汇
    delete_word={'','','','','','','','或者','',''}
    for i in delete_word:
        if i in NoteDic:
            del NoteDic[i]
    
    sort_word = sorted(NoteDic.items(), key= lambda d:d[1], reverse = True)  # 由大到小排序
    for i in range(20):  #输出词频Top20
        print(sort_word[i])

  • 相关阅读:
    pytest ini配置文件格式
    C#星辰之路
    bootstrap
    rabbitmq 安装
    curl 下载文件
    mysql 面试题
    mvn --version
    后台运行的nohup vs &
    scp
    linux下.tar.gz和.gz文件解压详解
  • 原文地址:https://www.cnblogs.com/dfq621/p/8666620.html
Copyright © 2011-2022 走看看