zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    将代码与运行结果截图发布在博客上。

    # -*- coding: UTF-8 -*-# -*-
    import  jieba
    fo = open('我们仨.txt','r',encoding = 'utf-8')
    novel = fo.read()
    novelList=list(jieba.lcut(novel))
    
    exclude = {'',',', '','', '', '',' ','u3000','
    ','',
               '', '', '', '', '', '', '', '',
               '', '', '', '', '', '', '', '',
               '', '', '', '', '','', '', '', '',
               '', '', '', '', '','', '', '', '',
               '', '', '一个', '', '', '', '', '',
               '', '', '', '', '', '', '', '没有',
               '','','','','','','','','什么','因为'}
    
    novelDict = {}
    novelSet = set(novelList)-exclude
    for s in novelSet:
        novelDict[s] = novelList.count(s)  
    
        dictList = list(novelDict.items())
        dictList.sort(key=lambda x: x[1], reverse=True)
    
    for i in range(20):
            print(dictList[i])

     截图:

     

  • 相关阅读:
    tableView cell 设置圆角 响应链
    iOS
    git code 初次上传
    隐藏导航栏,偏移20PX
    Mysql数据库远程连接
    umeng推送, 生产环境deviceToken失效可能原因
    KeyChainWrapper
    UIVisualEffectView(高斯模糊效果)
    UVA 11582 Colossal Fibonacci Numbers! 快速幂
    HDU 2859 Phalanx DP
  • 原文地址:https://www.cnblogs.com/ashh/p/8664779.html
Copyright © 2011-2022 走看看