zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    将代码与运行结果截图发布在博客上。

    import jieba
    
    f=open('hero.txt','r',encoding='utf-8')
    text=f.read()
    notelist=list(jieba.lcut(text))
    
    textDic={}
    for i in set(notelist):   #计算次数
        textDic[i]=notelist.count(i)
    
    delete={'',' ','','', '', '', '', '','','','','','','','
    ','','','"','','','u3000','',
                 '','','','','','','他们','','我们','','','你们','便','','','','',}
    
    for i in delete:  #删除非法词汇
       if i in textDic:
           del textDic[i]
    
    word = sorted(textDic.items(), key=lambda d: d[1], reverse=True)  # 由大到小排序
    for i in  range(10):   # 输出词频Top10
           print(word[i])

    截图

  • 相关阅读:
    迭代模型
    螺旋模型
    瀑布模型
    V模型
    codeforces411div.2
    专题1:记忆化搜索/DAG问题/基础动态规划
    Python
    字符串的相关操作方法
    Python基本数据类型
    编码
  • 原文地址:https://www.cnblogs.com/168-hui/p/8664524.html
Copyright © 2011-2022 走看看