zoukankan      html  css  js  c++  java
  • 中文分词以及词频统计绘图

    import jieba
    import matplotlib.pyplot as plt
    from pylab import *
    mpl.rcParams['font.sans-serif'] = ['SimHei']
    
    words=list(jieba.cut('沈杰钊 需求分析 熟悉C++,java,负责软件测试,需求分析,李宗晓 /'
                             '技术担当  熟悉算法、数据挖掘 软件开发,陈锐群 代码测试 python、机器学习、推荐系统,/'
                             '需求分析,软件测试方泽慧 需求分析 前端,ps,ar、pr气氛良好,各有特长,项目介绍:/'
                             '制作一个购票小程序,该小程序可以根据客户曾经的购票历史和评分记录自动推荐用户感兴趣的内容以及热门的热点项目,/'
                             '类似于大数据的推荐系统'))
    dic={}
    exp={',',' ',''}
    keys=set(words)-exp
    
    for i in keys:
        if len(i)>1:
            dic[i]=words.count(i)
    wa=list(dic.items())
    
    wa.sort(key=lambda x:x[1],reverse=True)#排序
    print(wa)
    wa=dict(wa)
    plt.bar(wa.keys(),wa.values())
    plt.xticks(rotation=90)
    plt.show()

    一个关于小组介绍的中文分词词频统计,以及其条形图,代码如上,图片如下:

  • 相关阅读:
    JAVA CAS原理深度分析
    Java 并发类库AbstractQueuedSynchronizer 分析
    构建高并发高可用的电商平台架构实践
    简单控件 复合控件
    WebFrom基础
    控件m
    控件
    WinForm
    操作数据类m
    数据操作类
  • 原文地址:https://www.cnblogs.com/yiduobaozhiblog1/p/8804321.html
Copyright © 2011-2022 走看看