zoukankan      html  css  js  c++  java
  • 中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    将代码与运行结果截图发布在博客上。

    import jieba
    
    f=open('hero.txt','r',encoding='utf-8')
    text=f.read()
    notelist=list(jieba.lcut(text))
    
    textDic={}
    for i in set(notelist):   #计算次数
        textDic[i]=notelist.count(i)
    
    delete={'',' ','','', '', '', '', '','','','','','','','
    ','','','"','','','u3000','',
                 '','','','','','','他们','','我们','','','你们','便','','','','',}
    
    for i in delete:  #删除非法词汇
       if i in textDic:
           del textDic[i]
    
    word = sorted(textDic.items(), key=lambda d: d[1], reverse=True)  # 由大到小排序
    for i in  range(10):   # 输出词频Top10
           print(word[i])

    截图

  • 相关阅读:
    C++字符串以及转换整理
    Chromium 调试其他的进程
    Cstring和wstring互转
    注册表写入
    inno setup需要管理员权限
    C++ 新增的算法
    节选-文件描述符
    原创-docker镜像迁移另外仓库
    2021初赛:毒瘤汇总
    二维计算几何基础
  • 原文地址:https://www.cnblogs.com/168-hui/p/8664524.html
Copyright © 2011-2022 走看看