zoukankan html css js c++ java

十、中文词频统计

中文分词

下载一中文长篇小说，并转换成UTF-8编码。
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。
排除一些无意义词、合并同一词。

对词频统计结果做简单的解读。

import jieba

stories = open('蜻蜓眼.txt','r',encoding='utf-8').read()
story=list(jieba.cut(stories))

#不统计单词的集合
exp = {'一个','一把','一声','一次','一直'}

#键的集合
keys=set(story)-exp

#写入字典
dic={}

#单词计数字典
for s in keys:
    if len(s)>1:
        dic[s]=story.count(s)

#(词组，计数)元组的列表
sk = list(dic.items())

#列表排序
sk.sort(key=lambda x:x[1],reverse = True)

#输出TOP20元组
for i in range(20):
    print(sk[i])

运行结果如图：

统计结果解读：这一章节奶奶与阿梅的出现次数最多，奶奶对油纸伞的喜爱和阿梅对爷爷奶奶的感情贯穿全文。

查看全文

相关阅读:
VlanTrunk
2015届互联网名企校招网址一览表
 The declared package does not match the expected package
经典的算法网站
 Nutch
JTable只要一双击就进入编辑状态,禁止的方法实现
 Java通过JDBC链接数据库，数据库中wen
Cisco Packet Tracer的使用（一）
Nutch安装的几个网址
 面试经

原文地址：https://www.cnblogs.com/Green-/p/7610334.html