zoukankan      html  css  js  c++  java
  • 中文词频统计及词云制作

    1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

        希望能讲一些大数据相关内容,深入了解一下。

    2.中文分词

    1. 下载一中文长篇小说,并转换成UTF-8编码。
    2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
      import jieba
      ff=open('wdqk.txt','r',encoding='utf-8')
      wdqk=ff.read()
      for i in ',.""?!,。?!“”
      ':
          wdqk=wdqk.replace(i,' ')
      wdqk=list(jieba.cut(wdqk))
      zd={}
      paichu={'','','','','','','','','','','','',' '}
      key=set(wdqk)-paichu
      for i in key:
          zd[i]=wdqk.count(i)
      lb=list(zd.items())
      lb.sort(key=lambda x:x[1],reverse=True)
      print('频率最高top10:
      ')
      for i in range(10):
          print(lb[i])
      ff.close()

    3. **排除一些无意义词、合并同一词。
    4. **使用wordcloud库绘制一个词云。

    (**两项选做,此次作业要求不能雷同。)

  • 相关阅读:
    GIT操作远程仓库
    GIT基本使用方式
    Docker网络及私有仓库配置
    Docker容器资源控制
    Docker基本使用方法
    [linux Tcmd] sh source
    hh
    推演论
    智能小车项目计划
    [CATARC_2017S] Week2
  • 原文地址:https://www.cnblogs.com/bb437601841/p/7590894.html
Copyright © 2011-2022 走看看