zoukankan      html  css  js  c++  java
  • 中文词频统计及词云制作

    1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波。

    2.中文分词

    1. 下载一中文长篇小说,并转换成UTF-8编码。
    2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
    3. **排除一些无意义词、合并同一词。
    4. **使用wordcloud库绘制一个词云。
    import jieba
    
    book = "活着.txt"
    txt = open(book,"r",encoding='utf-8').read()
    
    ex = {'有庆','我们','知道','看到','自己','起来'}
    
    ls = []
    words = jieba.lcut(txt)
    counts = {}
    for word in words:
        ls.append(word)
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word,0)+1
    
    for word in ex:
        del(counts[word])
        
    items = list(counts.items())
    items.sort(key = lambda x:x[1], reverse = True)
    for i in range(10):
        word , count = items[i]
        print ("{:<10}{:>5}".format(word,count))
    
    wz = open('ms.txt','w+')
    wz.write(str(ls))
    
    import matplotlib.pyplot as plt
    from wordcloud import WordCloud
    
    wzhz = WordCloud().generate(txt)
    plt.imshow(wzhz)
    plt.show()

    输出结果:

    Building prefix dict from the default dictionary ...
    Loading model from cache C:UsersADMINI~1AppDataLocalTempjieba.cache
    Loading model cost 0.723 seconds.
    Prefix dict has been built succesfully.
    家珍          575
    凤霞          413
    二喜          175
    队长          166
    什么          151
    他们          148
    一个          145
    看着          115
    孩子          114
    没有          113

    词云显示结果:

  • 相关阅读:
    详解用em替换px
    js判断是否为ie浏览器
    nth-child()选择器小结
    HTML5之canvas
    MQTT-SN协议乱翻之消息格式
    MQTT-SN协议乱翻之简要介绍
    MQTT 3.1.1,值得升级的6个新特性
    MQTT 3.1协议非严肃反思录
    MQTT协议笔记之mqtt.io项目HTTP协议支持
    MQTT协议笔记之mqtt.io项目Websocket协议支持
  • 原文地址:https://www.cnblogs.com/xypbk/p/7591109.html
Copyright © 2011-2022 走看看