zoukankan      html  css  js  c++  java
  • 综合练习-词频统计

    1.英文词频统

    下载一首英文的歌词或文章

    将所有,.?!’:等分隔符全部替换为空格

    将所有大写转换为小写

    生成单词列表

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20

    将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。

    file=open('Closer.txt','r')
    news=file.read()
    file.close()
    sep=''',.?!":()'''
    for i in sep:
        news=news.replace(i,                                                                                                            ' ')
    wordList=news.lower().split()
    wordDict={}
    wordSet=set(wordList)
    wordCutSet={'i','we','the','you','of','in','and','that'}
    wordSet=wordSet-wordCutSet
    # #统计词频法一
    # for w in wordList:
    #     wordDict[w]=wordDict.get(w,0)+1
    #统计词频法二
    for w in wordSet:
        wordDict[w]=wordList.count(w)
    sortWord=sorted(wordDict.items(),key=lambda e:e[1],reverse=True)
    save=open('C:/Users/Administrator/PycharmProjects/bd/save.txt','w',encoding='UTF-8')
    save.write("烟鬼Closer歌曲词频统计
    ")
    for w in range(20):
        save.write(str(sortWord[w])+"
    ")
    save.close()

    2.中文词频统计

    下载一长篇中文文章。

    从文件读取待分析文本。

    news = open('gzccnews.txt','r',encoding = 'utf-8')

    安装与使用jieba进行中文分词。

    pip install jieba

    import jieba

    list(jieba.lcut(news))

    生成词频统计

    排序

    排除语法型词汇,代词、冠词、连词

    输出词频最大TOP20(或把结果存放到文件里)

     

    将代码与运行结果截图发布在博客上。

    
    
    import jieba
    text=open('明朝那些事.txt','r',encoding='GBK')
    word=text.read()
    text.close()
    wordDict={}
    wordList=list(jieba.cut(word))
    wordSet=set(wordList)
    wordCutSet={',','','','
    ',' ','','','u3000','','','','一个'}
    wordSet=wordSet-wordCutSet
    for w in wordSet:
        wordDict[w]=wordList.count(w)
    sortWord=sorted(wordDict.items(),key=lambda e:e[1],reverse=True)
    for w in range(20):
        print(sortWord[w])
    
    
    
    
    
  • 相关阅读:
    强大的Resharp插件
    配置SPARK 2.3.0 默认使用 PYTHON3
    python3 数据库操作
    python3 学习中的遇到一些难点
    log4j的一个模板分析
    MYSQL内连接,外连接,左连接,右连接
    rabbitmq实战记录
    领域模型分析
    分布式系统学习笔记
    阿里开发规范 注意事项
  • 原文地址:https://www.cnblogs.com/weixingna/p/8659032.html
Copyright © 2011-2022 走看看