zoukankan      html  css  js  c++  java
  • python学习笔记之jieba库及词云的使用

    jieba库

    • jieba库一般用于分词

    • 例如: "中华人民共和国是一个伟大的国家"

    • 输出 :['中华人民共和国', '是', '一个', '伟大', '的', '国家']

      # 第一个就是分词分的尽量长,主要掌握这一个
      ret = jieba.lcut("中华人民共和国是一个伟大的国家")
      print(ret)  # 输出 ['中华人民共和国', '是', '一个', '伟大', '的', '国家']
      
      # 第二个就是把第一个的长的单词继续切
      ret = jieba.lcut_for_search("中华人民共和国是一个伟大的国家")
      print(ret)  # 输出 ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
      
      # 第三个就是把所有的可能全部切出来
      ret = jieba.lcut("中华人民共和国是一个伟大的国家", cut_all=True)
      print(ret) # 输出 ['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']
      
      

    词云

    • 慈云需要用到的库

      pip install matplotlib

      pip install wordcloud

      pip install imageio

      # 打开文件
      f = open(r"E:python_Programday06	hreekingdoms.txt","r",encoding="utf8")
      data = f.read() # 读出数据
      
      # 读入图像
      image = imread(r"E:python_Programday06image.png")
      
      # 想要词云识别中文就需要添加该字体的路径
      # 也可以设置生成词云图片的大小
      # 也可以自定义生成词语的图形样式 需要在参数中使用mask,并设置背景色为白色即可看到
      w = wordcloud.WordCloud(font_path=r"C:WindowsFontssimkai.ttf",width=500, height=700,
                              mask=image, background_color="white")
      w.generate(data)    # 通过数据 生成词云
      w.to_file("outfile.png")    # 生成文件
      

    运行结果


  • 相关阅读:
    jenkins安装
    HTTP协议客户端是如何向服务器发送请求
    接口概念
    fiddler导出har格式转化成yml格式

    双硬盘双系统装错了记录
    chrome的版本和driver版本对应表
    monkey详解
    adb命令熟悉
    cookie、session、token
  • 原文地址:https://www.cnblogs.com/XuChengNotes/p/11235693.html
Copyright © 2011-2022 走看看