zoukankan html css js c++ java

中文分词以及词频统计绘图

import jieba
import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']

words=list(jieba.cut('沈杰钊 需求分析 熟悉C++，java，负责软件测试，需求分析,李宗晓 /'
                         '技术担当  熟悉算法、数据挖掘 软件开发,陈锐群 代码测试 python、机器学习、推荐系统，/'
                         '需求分析，软件测试方泽慧 需求分析 前端，ps，ar、pr气氛良好，各有特长,项目介绍：/'
                         '制作一个购票小程序，该小程序可以根据客户曾经的购票历史和评分记录自动推荐用户感兴趣的内容以及热门的热点项目，/'
                         '类似于大数据的推荐系统'))
dic={}
exp={',',' ','。'}
keys=set(words)-exp

for i in keys:
    if len(i)>1:
        dic[i]=words.count(i)
wa=list(dic.items())

wa.sort(key=lambda x:x[1],reverse=True)#排序
print(wa)
wa=dict(wa)
plt.bar(wa.keys(),wa.values())
plt.xticks(rotation=90)
plt.show()

一个关于小组介绍的中文分词词频统计，以及其条形图，代码如上，图片如下：

查看全文

相关阅读:
小程序网络请求封装（三）
上传图片
 struts2导出excel
金额超过一定位数显示异常问题
 限制日期控件最大可选值为当前日期
 substr函数小结
 票号自动生成(按照一定的规则)
Nginx
Cron表达式以及定时任务配置
 HTML Input 表单校验之datatype

原文地址：https://www.cnblogs.com/yiduobaozhiblog1/p/8804321.html