zoukankan      html  css  js  c++  java
  • 综合练习:词频统计

    下载一首英文的歌词或文章

    将所有,.?!’:等分隔符全部替换为空格

    将所有大写转换为小写

    生成单词列表

    f=open('news.txt','r')
    news=f.read()
    f.close()
    sep=''',.'!"?:'''
    for c in sep:
       news=news.replace(c,' ')
       wordList=news.lower().split()
    
    for w in wordList:
          print(w)

    生成词频统计

    f=open('news.txt','r')
    news=f.read()
    f.close()
    sep=''',.'!"?:'''
    for c in sep:
       news=news.replace(c,' ')
       wordList=news.lower().split()
    wordDict={}
    wordSet=set(wordList)
    for w in wordSet:
        wordDict[w]=wordList.count(w)
    for w in wordDict:
          print(w,wordDict[w])

    排除语法型词汇,代词、冠词、连词

    f=open('news.txt','r')
    news=f.read()
    f.close()
    sep=''',.'!"?:'''
    exclude={'be','i','so','over','hearing'}
    for c in sep:
       news=news.replace(c,' ')
       wordList=news.lower().split()
    wordDict={}
    wordSet=set(wordList)-exclude
    for w in wordSet:
        wordDict[w]=wordList.count(w)
    for w in wordDict:
          print(w,wordDict[w])

    排序、输出词频最大TOP20

    f=open('news.txt','r')
    news=f.read()
    f.close()
    sep=''',.'!"?:'''
    exclude={'be','i','so','over','hearing'}
    for c in sep:
    news=news.replace(c,' ')
    wordList=news.lower().split()
    wordDict={}
    wordSet=set(wordList)-exclude
    for w in wordSet:
    wordDict[w]=wordList.count(w)

    dic=sorted(wordDict.items(),key=lambda d:d[1],reverse=True)
    print(dic)
    for i in range(20):
    print(dic[i])

    将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。

    f=open('news.txt','r')
    text=f.read()
    f.close()
    print(text)

    
    

     

  • 相关阅读:
    VS2010中使用JSONCPP方法
    VC获取外网IP
    JSON样例
    JSON详解
    vc获取本地IP
    Java中创建对称密钥的代码
    密和解密程序的一些概念
    在ireport报错 报 jdk5找不到的解决办法
    Java中创建对称密钥的步骤
    比较好用的一个jaspereport模板 生成html页面模板
  • 原文地址:https://www.cnblogs.com/qq8675/p/8653829.html
Copyright © 2011-2022 走看看