zoukankan html css js c++ java

中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20

将代码与运行结果截图发布在博客上。

import jieba

f=open('hero.txt','r',encoding='utf-8')
text=f.read()
notelist=list(jieba.lcut(text))

textDic={}
for i in set(notelist):   #计算次数
    textDic[i]=notelist.count(i)

delete={'。',' ','他','；', '的', '说', '道', '你','了','，','．','：','也','是','
','”','“','"','我','又','u3000','？',
             '去','都','来','有','这','人','他们','不','我们','在','着','你们','便','就','还','们','那',}

for i in delete:  #删除非法词汇
   if i in textDic:
       del textDic[i]

word = sorted(textDic.items(), key=lambda d: d[1], reverse=True)  # 由大到小排序
for i in  range(10):   # 输出词频Top10
       print(word[i])

截图

查看全文

相关阅读:
flume1.7.0的安装与使用
 获取top10
editplus格式化xml文档
 LOG4J.PROPERTIES配置详解
 Oracle自增列
 javascript 传递引用类型参数
 {JavaScript}栈和堆内存，作用域
 JAVA中String与StringBuffer的区别
 Java中堆和栈的区别(转)
JAVA错误：org.apache.jasper.JasperException: java.lang.ClassCastException:org.apache.catalina.util.DefaultAnnotationProcessor cannot be cast to org.apach

原文地址：https://www.cnblogs.com/168-hui/p/8664524.html