zoukankan      html  css  js  c++  java
  • 十、中文词频统计

    中文分词

    1. 下载一中文长篇小说,并转换成UTF-8编码。
    2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
    3. 排除一些无意义词、合并同一词。
    4. 对词频统计结果做简单的解读。
      import jieba
      
      stories = open('蜻蜓眼.txt','r',encoding='utf-8').read()
      story=list(jieba.cut(stories))
      
      #不统计单词的集合
      exp = {'一个','一把','一声','一次','一直'}
      
      #键的集合
      keys=set(story)-exp
      
      #写入字典
      dic={}
      
      #单词计数字典
      for s in keys:
          if len(s)>1:
              dic[s]=story.count(s)
      
      #(词组,计数)元组的列表
      sk = list(dic.items())
      
      #列表排序
      sk.sort(key=lambda x:x[1],reverse = True)
      
      #输出TOP20元组
      for i in range(20):
          print(sk[i])

         运行结果如图:

              

    统计结果解读:这一章节奶奶与阿梅的出现次数最多,奶奶对油纸伞的喜爱和阿梅对爷爷奶奶的感情贯穿全文。

  • 相关阅读:
    html----有关图像
    前端开发初学者
    angular js 正序倒叙
    viewpager无线轮播获取网络图片
    angular js 球星
    angular js shopping
    angular js 公告墙
    Android 常用正则表达式
    Android 内存泄漏
    TCP/IP,必知必会的
  • 原文地址:https://www.cnblogs.com/Green-/p/7610334.html
Copyright © 2011-2022 走看看