zoukankan      html  css  js  c++  java
  • Python词云(词频统计,掩膜显示)

    Python2.7 anaconda。安装Wordcloud,网上有许多下载路径,说一下掩模,就是在这个膜的区域才会有东西,当然这个与实际的掩模还有一定区别,这个词频显示是把所有统计的词,显示在这个掩模图片的非白色区域。

     (接下来就不用看着网上那些小软件很羡慕,其实代码就十行左右,你也可以)

    from os import path
    from scipy.misc import imread
    import matplotlib.pyplot as plt
    
    from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
    
    # 获取当前文件路径
    # __file__ 为当前文件, 在ide中运行此行会报错,可改为
    # d = path.dirname('.')
    d = path.dirname(__file__)
    
    # 
    text = open(path.join(d, 't.txt')).read()
    
    # 设置背景图片,也就是掩膜图像,在非白色部分我们的统计好的词频会显示在这里
    alice_coloring = imread(path.join(d, "b.jpg"))
    
    wc = WordCloud(background_color="white", #背景颜色
    #max_words=2000,# 词云显示的最大词数 mask=alice_coloring,#设置背景图片 stopwords=STOPWORDS.add("said"), max_font_size=60, #字体最大值 random_state=50) #上述函数设计了词云格式 # 生成词云, 可以用generate输入全部文本(中文不好分词),也可以我们计算好词频后使用generate_from_frequencies函数 wc.generate(text) #文本词频统计函数,本函数自动统计词的个数,以字典形式内部存储,在显示的时候词频大的,字体也大 # 从背景图片生成颜色值 image_colors = ImageColorGenerator(alice_coloring) # 以下代码显示图片 plt.figure() # recolor wordcloud and show # we could also give color_func=image_colors directly in the constructor plt.imshow(wc.recolor(color_func=image_colors)) plt.axis("off") # 绘制背景图片为颜色的图片


    
    

      示例图像,文本分词是直接用的英文(网上随便粘贴一篇英文文章),它是以空格进行分词的。如果是中文也可以用网上推荐的分词器,或者你是做数据分析的,当然就知道怎么分词了。

    bra................嘿嘿嘿

    图片背景色为白色,分清图片背景,和掩模,和掩模背景色(函数默认的是白色区域)

     词频分析,数据分析挖掘。

    以后再PPT中也可以用啦!!!!!!!!!!!!!!!!!

  • 相关阅读:
    如何评估自己对外界认知是否正确?
    冒泡排序与两数交换的实现与优化
    数据库和ADO
    JavaScript的中类型转换
    UltraEdit注册机原理简单说明
    别让用户发呆—设计中的防呆策略[转]
    Html 5 版 电子时钟
    SQL 优化总结(三) SQL子句
    SQL 优化总结(二) 索引
    Html 5 简介
  • 原文地址:https://www.cnblogs.com/8335IT/p/6567974.html
Copyright © 2011-2022 走看看