中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20

import jieba

news = open('news.txt','r').read()

news_cut = jieba.lcut(news)

dict = {}

for i in set(news_cut):
    dict[i]=news_cut.count(i)
    delete={'的','和','了','在','为','是','为','我', ' ','上','对','更','。','？','！','“','”','：','；','、','.','‘','’','，','
','多','年','并','也','对于'}

for i in delete:
    if i in dict:
        del dict[i]

nesw_print = sorted(dict.items(), key = lambda d:d[1], reverse = True)

for i in range(10):
    print(nesw_print[i])

查看全文

相关阅读:
ORACLE CASE WHEN 及 SELECT CASE WHEN的用法
 Oracle中NVARCHAR2字符集不匹配问题
 数据库读写分离
 oracle存储过程获取异常信息码和异常信息
 js删除字符串的最后一个字符三种方法
 我弄的一些TASKER配置
 分享我用Taker做任务时需要的各种资源的精华帖，方便查阅
 Tasker 正则表达式测试器
 支持Tasker控制的app合集
 Tasker文件夹说明

原文地址：https://www.cnblogs.com/lawliet12/p/8665007.html