zoukankan      html  css  js  c++  java
  • 词频统计

    此作业的要求参见 https://edu.cnblogs.com/campus/nenu/2018fall/homework/2126

    此作业的代码地址 https://git.coding.net/yanglei749/wordcount1.git

    需求分析:

                   1、小文件输入。在控制台下输入命令,统计结果total项中相同单词不重复计数

                      2、支持命令行输入英文作品的文件名,统计每个单词出现的次数以及不同单词总数

                      3、支持命令行输入存储有英文作品文件的目录名,批量统计,并且列出出现次数最多的10个单词

                      4、从控制台读入英文单篇作品,进行重定向

    功能实现:

    1、此项目采用python语言进行编码,对文件进行读入操作,运用open方法

    if __name__ == '__main__':
        filename = sys.argv[1]
        with open(filename, 'w+') as f:
            f.writelines(input())

    2、对文件进行读取功能,提取文件中的每个单词,不包括如“,”等的特殊符号以及空格,这也是此功能的难点,尤其是在处理单引号和双引号这两个特殊符号时,最后我选择了用replace方法将单、双引号用空格代替去除,统计各种单词出现的频数以及不同单词的总数,从控制台读取目录名进行批量统计,按照出现的频数高低对单词进行排序,只列出出现次数最多的前十个单词

    def wf(filename):
        with open(filename,encoding='utf8') as f:
            lines = f.readlines()
            d = {}
            for line in lines:
                line = re.split('[ "",$.?!;*#:-]', line.lower().replace("'",' ').replace('"',' ').replace("/",' ').replace("(",' ').replace(")",' ').strip('
    '))
                for word in line:
                    if word == '':
                        continue
                    if word not in d:
                        d[word] = 1
                    else:
                        d[word] += 1
            d_sorted = sorted(d.items(), key=lambda x: x[1], reverse=True)
            print('total', len(d_sorted), 'words')
            for i in range(min(len(d_sorted), 10)):
                print(d_sorted[i][0], d_sorted[i][1])
    
    if __name__ == '__main__':
        if os.path.isfile(sys.argv[1]):
            wf(sys.argv[1])
        elif os.path.isdir(sys.argv[1]):
            path = sys.argv[1]
            for file in os.listdir(sys.argv[1]):
                print(file)
                wf(os.path.join(path, file))
                print('--------------------')
        else:
            print(sys.argv[1], 'is not a file or path')

    功能测试效果截图:

    1、小文件输入

    2、命令行输入英文作品的文件名

     

    3、命令行输入存储有英文作品文件的目录名,批量统计,并且列出出现次数最多的10个单词

     

    PSP表格:

  • 相关阅读:
    最强PostMan使用教程
    Fiddler模拟post四种请求数据
    关于Spring集成Quartz的concurrent属性
    数据事务四种隔离机制和七种传播行为
    eclipse properties 文件查看和编辑插件
    RabbitMq的整理 exchange、route、queue关系
    MySQL关闭查询缓存(QC)的两种方法
    Map集合的四种遍历方式
    springBoot使用外部Tomcat启动项目
    解决tomcat闪退问题
  • 原文地址:https://www.cnblogs.com/yangl794/p/9696697.html
Copyright © 2011-2022 走看看