中文词频统计及词云制作 - 走看看

zoukankan html css js c++ java

中文词频统计及词云制作
1.中软国际华南区技术总监曾老师还会来上两次课，同学们希望曾老师讲些什么内容？（认真想一想回答）

希望能讲一些大数据相关内容，深入了解一下。

2.中文分词
1. 下载一中文长篇小说，并转换成UTF-8编码。
3. 使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。
  
  import jieba ff=open('wdqk.txt','r',encoding='utf-8') wdqk=ff.read() for i in ',.""?!，。？！“” ': wdqk=wdqk.replace(i,' ') wdqk=list(jieba.cut(wdqk)) zd={} paichu={'我','是','你','他','她','在','有','的','了','也','这','那',' '} key=set(wdqk)-paichu for i in key: zd[i]=wdqk.count(i) lb=list(zd.items()) lb.sort(key=lambda x:x[1],reverse=True) print('频率最高top10： ') for i in range(10): print(lb[i]) ff.close()
4. **排除一些无意义词、合并同一词。
5. **使用wordcloud库绘制一个词云。
（**两项选做，此次作业要求不能雷同。）
查看全文

相关阅读:
基于sshpass批量实现主机间的key验证脚本
 一键安装mysql5.7.30脚本
 centos8网卡名称修改
 mysql分库备份脚本
 centos一键二进制编译安装mariadb-10.2.31脚本
 chrony时间同步服务简介及配置
 linux基于key验证
 expect 脚本语言中交互处理常用命令
 shell中数值测试和算术表达式比较
 JAVA Math的简单运用

原文地址：https://www.cnblogs.com/bb437601841/p/7590894.html

最新文章
static静态关键字
 String类
 ArrayList类
 Random类
 匿名对象
 Scanner类
 标准类 (Java Bean)
构造方法
 成员变量与局部变量的差异
 String.format 用法

Copyright © 2011-2022 走看看