中文词频统计及词云制作

中文分词

下载一中文长篇小说，并转换成UTF-8编码。
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。
**排除一些无意义词、合并同一词。
**使用wordcloud库绘制一个词云。

import jieba
txt="E://novels.txt"
book=open(txt,"r",encoding='utf-8').read()
excepts={'前言','第一卷'}
ls=[]
words=jieba.lcut(book)
counts={}
for i in words:
    ls.append(i)
    if len(i)==1:
        continue
    else:
        counts[i]=counts.get(i,0)+1
for i in excepts:
    del(counts[i])
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
print('出现频率最高的词组前十：')
for j in range(10):
    i , count=items[j]
    print("{:<10}{}".format(i,count))

查看全文

相关阅读:
测试的种类
 软件测试的原则
 软件测试的目的
 软件测试的对象
 软件的分类
 软件测试
 mysql 视图
 mysql 字段添加以及删除
 mysql 引擎类型
 mysql 数据插入insert

原文地址：https://www.cnblogs.com/amzinghui/p/7591675.html