zoukankan      html  css  js  c++  java
  • python学习笔记之jieba库及词云的使用

    jieba库

    • jieba库一般用于分词

    • 例如: "中华人民共和国是一个伟大的国家"

    • 输出 :['中华人民共和国', '是', '一个', '伟大', '的', '国家']

      # 第一个就是分词分的尽量长,主要掌握这一个
      ret = jieba.lcut("中华人民共和国是一个伟大的国家")
      print(ret)  # 输出 ['中华人民共和国', '是', '一个', '伟大', '的', '国家']
      
      # 第二个就是把第一个的长的单词继续切
      ret = jieba.lcut_for_search("中华人民共和国是一个伟大的国家")
      print(ret)  # 输出 ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
      
      # 第三个就是把所有的可能全部切出来
      ret = jieba.lcut("中华人民共和国是一个伟大的国家", cut_all=True)
      print(ret) # 输出 ['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']
      
      

    词云

    • 慈云需要用到的库

      pip install matplotlib

      pip install wordcloud

      pip install imageio

      # 打开文件
      f = open(r"E:python_Programday06	hreekingdoms.txt","r",encoding="utf8")
      data = f.read() # 读出数据
      
      # 读入图像
      image = imread(r"E:python_Programday06image.png")
      
      # 想要词云识别中文就需要添加该字体的路径
      # 也可以设置生成词云图片的大小
      # 也可以自定义生成词语的图形样式 需要在参数中使用mask,并设置背景色为白色即可看到
      w = wordcloud.WordCloud(font_path=r"C:WindowsFontssimkai.ttf",width=500, height=700,
                              mask=image, background_color="white")
      w.generate(data)    # 通过数据 生成词云
      w.to_file("outfile.png")    # 生成文件
      

    运行结果


  • 相关阅读:
    SpringBoot集成Swagger2中不同环境开关配置
    mysql
    pip 命令汇总
    mysql 时间查询(当天、本周,本月,上一个月的数据)
    MYSQL 常用函数
    java8 array、list操作 汇【6】)- Java8 Lambda表达式增强版Comparator和排序
    解决pip安装超时的问题
    Java对象为空时,将null转换为"" 保存值为空的属性
    mysql -- 模糊查询的四种方法
    Mysql 查询以某个字符开头的语句
  • 原文地址:https://www.cnblogs.com/XuChengNotes/p/11235693.html
Copyright © 2011-2022 走看看