zoukankan      html  css  js  c++  java
  • 九、文件方式实现完整的英文词频统计实例

    可以下载一长篇的英文小说,进行词频的分析。

    1.读入待分析的字符串

    2.分解提取单词 

    3.计数字典

    4.排除语法型词汇

    5.排序

    6.输出TOP(20)

    7.对输出结果的简要说明。

    fo=open('test.txt','r')
    w=fo.read()
    fo.close()
    #字符串处理
    w = w.lower()
    for i in ',.':
        w=w.replace(i,' ')
    
    #单词列表
    songs=w.split(' ')
    
    #不统计单词的集合
    exp = {'','a','the','in','be','as','and','on','it','with','has','of','to','is','are'}
    
    dic={}
    
    #键的集合
    keys=set(songs)-exp
    
    #单词计数字典
    for k in keys:
        dic[k] = songs.count(k)
        
    #(单词,计数)元祖的列表
    sk=list(dic.items())
    
    #列表排序
    sk.sort(key= lambda x:x[1],reverse=True)
    
    #输出top20元祖
    for i in range(20):
        print(sk[i])
    
    fo.close()

    结论:不实报道带来的影响

  • 相关阅读:
    使用 PyCharm 远程调试 Django 项目
    (坑集)Python环境配置
    字典的使用
    列表的使用
    字符串的魔法
    php 文件函数
    php 时间函数
    php xajax库基本知识
    php header函数
    c++注释
  • 原文地址:https://www.cnblogs.com/Green-/p/7602420.html
Copyright © 2011-2022 走看看