zoukankan      html  css  js  c++  java
  • 中文词频统计及词云制作

    1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

        希望能讲一些大数据相关内容,深入了解一下。

    2.中文分词

    1. 下载一中文长篇小说,并转换成UTF-8编码。
    2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
      import jieba
      ff=open('wdqk.txt','r',encoding='utf-8')
      wdqk=ff.read()
      for i in ',.""?!,。?!“”
      ':
          wdqk=wdqk.replace(i,' ')
      wdqk=list(jieba.cut(wdqk))
      zd={}
      paichu={'','','','','','','','','','','','',' '}
      key=set(wdqk)-paichu
      for i in key:
          zd[i]=wdqk.count(i)
      lb=list(zd.items())
      lb.sort(key=lambda x:x[1],reverse=True)
      print('频率最高top10:
      ')
      for i in range(10):
          print(lb[i])
      ff.close()

    3. **排除一些无意义词、合并同一词。
    4. **使用wordcloud库绘制一个词云。

    (**两项选做,此次作业要求不能雷同。)

  • 相关阅读:
    *洛谷P1858 多人背包
    ZOJ3469 Food Delivery
    Hdu5115 Dire Wolf
    Codevs 2765 隐形的翅膀
    Hdu4055 Number String
    Codevs 1300 文件排版
    洛谷 P1412 经营与开发
    Codevs 4357 不等数列
    codevs 3333 高级打字机
    Bzoj 1086: [SCOI2005]王室联邦
  • 原文地址:https://www.cnblogs.com/bb437601841/p/7590894.html
Copyright © 2011-2022 走看看