zoukankan      html  css  js  c++  java
  • python练习册 每天一个小程序 第0006题

     1 # -*-coding:utf-8-*-
     2 __author__ = 'Deen'
     3 '''
     4 题目描述:
     5     你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
     6 
     7 
     8 思路:
     9     获取目录下所有txt文件,逐个打开,进行词频统计,选出出现次数最多的那个
    10 '''
    11 import os
    12 import re
    13 
    14 
    15 def list_files(dir, wirldcard, recursion):
    16     files_text = list()
    17     exts = wirldcard.split(" ")
    18     files = os.listdir(dir)
    19     for name in files:
    20         fullname = os.path.join(dir, name)
    21         if (os.path.isdir(fullname) & recursion):
    22             list_files(fullname, wirldcard, recursion)
    23         else:
    24             for ext in exts:
    25                 if (name.endswith(ext)):
    26                     files_text.append(fullname)
    27                     break
    28     # print files_text
    29     return files_text
    30 
    31 
    32 if __name__ == '__main__':
    33     txt_files = list_files()

    这个感觉有点麻烦,应该需要一个词频统计,然后是过滤,再选择出现次数最多的关键词

  • 相关阅读:
    PHP
    PHP
    密码修改机制
    PHP
    PHP
    PHP
    PHP
    Java并发编程:进程和线程的由来(转)
    Java获取文件大小的正确方法(转)
    J2EE开发中常用的缓存策略
  • 原文地址:https://www.cnblogs.com/deen-/p/7155920.html
Copyright © 2011-2022 走看看