zoukankan      html  css  js  c++  java
  • Python3 装逼神器---词云(wordcloud)

    词云 (Word Cloud)是对文本中出现频率较高的词语给予视觉化展示的图形, 是一种常见的文本挖掘的方法。

    实例:

        

     依赖包:

      # pip3 install wordcloud  jieba   matplotlib  imageio

     wordcloud 模块介绍:

    class  wordcloud.WordCloud(
      font_path=None, #(string)字体OTF or TTF路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf'
      width=400,#(int)输出画布的宽度,默认400像素
      height=200,(int) #输出画布的宽度,默认200像素
      margin=2, #(int)画布边缘留白的空隙,默认留白空间是2像素
      ranks_only=None, 
      prefer_horizontal=0.9, #(float)词语水平方向排版出现的频率,默认 0.9 ,所以词语垂直方向排版出现频率为 0.1 
      mask=None, #(nd-array or None) 是否使用mask(蒙板),默认不使用。若使用mask,则需提供一个二值化的mask(即只有0和1的黑白色mask),此时参数width和height会被忽略,单词会出现在mask非白色(#FFFFFF)的位置上。
      scale=1, #(float)在字段width和height乘以的倍数,最终呈现的画布尺寸以这个结果。默认是1,此方法适合需要呈现大尺寸的画布
      color_func=None,#(callable)生成新颜色的函数,默认为空。如果为空,则使用 self.color_func
      max_words=200, #(int)单词最多显示数量,默认200个
      min_font_size=4,  #(int)单词最小尺寸,默认4像素
      stopwords=None,#(set of strings or None)设置需要屏蔽展示的词,如果为空,则使用内置的STOPWORDS。若使用generate_from_frequencies生成方式,则会忽略此参数
      random_state=None, #(int or None)为每个单词返回一个PIL颜色
      background_color='black', #(string)输出画布背景颜色,默认黑色
      max_font_size=None, #(int)单词最大尺寸,默认不限制
      font_step=1,#(int)字体步长,默认1。如果步长大于1,会加快运算但是可能导致结果出现较大的误差(这块确实不知道啥意思)
      mode='RGB', #(string) 颜色显示模式,默认”RGB”。当参数为“RGBA”并且background_color是None时,背景色为透明
      relative_scaling='auto', #(float)词频和字体大小的关联性(倍数)。默认是auto,即为0.5。若为0,只考虑单词的排列顺序;若为1,则单词展现的大小和出现的频率一致;若两者都考虑则可以设置为auto。若参数repeat=True,则此项为0
      regexp=None, #(string or None (optional))把文本切片的通用方法。若为空,则使用正则匹配r"w[w'];若使用generate_from_frequencies生成方式,则忽略此参数
      collocations=True,#(bool) 是否包含两个单词的搭配性,默认包含。若使用generate_from_frequencies生成方式,则忽略此参数
      colormap=None, #(string or matplotlib colormap)给每个单词随机分配颜色或者使用Matplotlib调色板,默认颜色是”viridis”即翠绿色。若使用了参数color_func,则忽略此项
      normalize_plurals=True, #(bool)是否去掉单词末尾的‘s’,默认去掉。若为真,并且单词以‘s’结尾(若以‘ss’结尾则不符合此规则),‘s’会被去除并且去除后的单词出现的频率会被统计。若使用generate_from_frequencies生成方式,则忽略此参数
      contour_width=0, #(float)mask轮廓线宽。若mask不为空且此项值大于0,就绘制出mask轮廓 (default=0)
      contour_color='black', #(color value) Mask轮廓颜色,默认黑色
      repeat=False #(bool)单词是否重复展示,默认不重复
    )

    程序代码:

    import jieba     #jieba分词
    import matplotlib.pyplot as plt   #绘制图形
    from imageio import imread  #处理图像
    from wordcloud import WordCloud,ImageColorGenerator  #词云
    
    #文本获取,利用jieba分词获取文本中的词
    file=open('input.txt',encoding='UTF-8').read()   #注意在指定路径中导入文本文件
    word=' '.join(jieba.cut_for_search(file))
    
    #词云背景图像获取
    image=imread('test.jpg')    # 解析该图片,注意在路径中导入图片
    
    #词云设置
    wc=WordCloud(
        mode='RGBA',    #设置透明底色
        background_color=None,
        mask=image,   #词云形状设置为背景图像
        max_words=100,   #显示的词的最大个数
        #font_path="C:\Windows\Fonts\STFANGSO.ttf",   #设置字体,否则中文可能会出现乱码
        scale=3  #扩大三倍
    )
    
    #生成词云
    image_colors = ImageColorGenerator(image)  # 基于背景颜色设置字体色彩
    wc.generate(word)   #根据文本生成词云
    
    #显示
    plt.imshow(wc)  #显示词云图
    plt.axis("off")  #关闭坐标轴
    plt.show()    #显示窗口
    wc.to_file('test.png')   # 保存图片
    IT运维开发路上的点点滴滴。。。
  • 相关阅读:
    磁盘调度算法
    Maven 的 学习笔记
    文档结构
    变量
    进入SQL*Plus环境 (常用命令)
    PAT甲级 1050 String Subtraction (20分)(当读一行时(gets用不了))
    PAT甲级 1095 Cars on Campus (30分)(map + 排序)
    图书管理系统
    学生成绩管理系统
    磁盘调度算法
  • 原文地址:https://www.cnblogs.com/weijie0717/p/15123673.html
Copyright © 2011-2022 走看看