zoukankan      html  css  js  c++  java
  • 中文词频统计及词云制作

    1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波。

    2.中文分词

    1. 下载一中文长篇小说,并转换成UTF-8编码。
    2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
    3. **排除一些无意义词、合并同一词。
    4. **使用wordcloud库绘制一个词云。
    import jieba
    
    book = "活着.txt"
    txt = open(book,"r",encoding='utf-8').read()
    
    ex = {'有庆','我们','知道','看到','自己','起来'}
    
    ls = []
    words = jieba.lcut(txt)
    counts = {}
    for word in words:
        ls.append(word)
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word,0)+1
    
    for word in ex:
        del(counts[word])
        
    items = list(counts.items())
    items.sort(key = lambda x:x[1], reverse = True)
    for i in range(10):
        word , count = items[i]
        print ("{:<10}{:>5}".format(word,count))
    
    wz = open('ms.txt','w+')
    wz.write(str(ls))
    
    import matplotlib.pyplot as plt
    from wordcloud import WordCloud
    
    wzhz = WordCloud().generate(txt)
    plt.imshow(wzhz)
    plt.show()

    输出结果:

    Building prefix dict from the default dictionary ...
    Loading model from cache C:UsersADMINI~1AppDataLocalTempjieba.cache
    Loading model cost 0.723 seconds.
    Prefix dict has been built succesfully.
    家珍          575
    凤霞          413
    二喜          175
    队长          166
    什么          151
    他们          148
    一个          145
    看着          115
    孩子          114
    没有          113

    词云显示结果:

  • 相关阅读:
    NHibernate介绍
    dwr配置文件dwr.xml详解
    架构设计师与SOA
    SOA是什么
    JDK常用命令
    在WPF的WebBrowser控件中抑制脚本错误
    通过编程计算一个游戏的胜率
    在C#中模拟大数乘法
    解决HttpWebRequest首次连接特别慢的问题
    布隆过滤器(Bloom Filter)
  • 原文地址:https://www.cnblogs.com/xypbk/p/7591109.html
Copyright © 2011-2022 走看看