中文词频统计 - 走看看

zoukankan html css js c++ java

中文词频统计
1.下载一中文长篇小说，并转换成UTF-8编码。

2.使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

3.排除一些无意义词、合并同一词。

4.对词频统计结果做简单的解读。
import jieba content=open(r'C:UsersAdministratorAppDataLocalProgramsPythonPython36挪威的森林.txt','r',encoding='utf-8') forest=content.read() content.close() words=list(jieba.cut(forest)) s=set(words) dic={} for i in s: if(i==" "): continue if(i==""): continue if len(i)==1: continue else: dic[i]=words.count(i) lis=list(dic.items()) lis.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(lis[i])
　

运行结果为：

解读：通过对《挪威的森林》的词频统计，因为“喜欢”，“我们”，“女孩”，“自己”诸如此类词语的高频出现，我们可以隐约知道这部小说应该主要讨论关于爱情的故事。
查看全文

相关阅读:
rem单位
 JS_高程5.引用类型（5）Array类型的操作方法
 JS_理解函数参数按值传递
 JS_高程5.引用类型（4）Array类型的各类方法
 JS_高程5.引用类型（3）Array类型-检测数组
 JS_高程5.引用类型（2）Array类型
 JS_高程5.引用类型（1）Object类型
 JS_高程4.变量，作用域和内存问题（3）垃圾收集
 JS_高程4.变量，作用域和内存问题（2）执行环境及作用域
 JS_高程4.变量，作用域和内存问题（1）

原文地址：https://www.cnblogs.com/mavenlon/p/7609669.html

Copyright © 2011-2022 走看看