1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。 6 7 8 思路: 9 获取目录下所有txt文件,逐个打开,进行词频统计,选出出现次数最多的那个 10 ''' 11 import os 12 import re 13 14 15 def list_files(dir, wirldcard, recursion): 16 files_text = list() 17 exts = wirldcard.split(" ") 18 files = os.listdir(dir) 19 for name in files: 20 fullname = os.path.join(dir, name) 21 if (os.path.isdir(fullname) & recursion): 22 list_files(fullname, wirldcard, recursion) 23 else: 24 for ext in exts: 25 if (name.endswith(ext)): 26 files_text.append(fullname) 27 break 28 # print files_text 29 return files_text 30 31 32 if __name__ == '__main__': 33 txt_files = list_files()
这个感觉有点麻烦,应该需要一个词频统计,然后是过滤,再选择出现次数最多的关键词