zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    将代码与运行结果截图发布在博客上。

    import jieba
    
    f=open('hero.txt','r',encoding='utf-8')
    text=f.read()
    notelist=list(jieba.lcut(text))
    
    textDic={}
    for i in set(notelist):   #计算次数
        textDic[i]=notelist.count(i)
    
    delete={'',' ','','', '', '', '', '','','','','','','','
    ','','','"','','','u3000','',
                 '','','','','','','他们','','我们','','','你们','便','','','','',}
    
    for i in delete:  #删除非法词汇
       if i in textDic:
           del textDic[i]
    
    word = sorted(textDic.items(), key=lambda d: d[1], reverse=True)  # 由大到小排序
    for i in  range(10):   # 输出词频Top10
           print(word[i])

    截图

  • 相关阅读:
    关于素数的具体问题
    Scala Apply
    Scala内部类
    Scala 类和对象
    Scala Tuple类型
    Scala数组
    sql server 游标
    表变量和临时表详解
    子查询详解
    EXEC 和 SP_EXECUTESQL的区别
  • 原文地址:https://www.cnblogs.com/168-hui/p/8664524.html
Copyright © 2011-2022 走看看