zoukankan      html  css  js  c++  java
  • python练习册 每天一个小程序 第0006题

     1 # -*-coding:utf-8-*-
     2 __author__ = 'Deen'
     3 '''
     4 题目描述:
     5     你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
     6 
     7 
     8 思路:
     9     获取目录下所有txt文件,逐个打开,进行词频统计,选出出现次数最多的那个
    10 '''
    11 import os
    12 import re
    13 
    14 
    15 def list_files(dir, wirldcard, recursion):
    16     files_text = list()
    17     exts = wirldcard.split(" ")
    18     files = os.listdir(dir)
    19     for name in files:
    20         fullname = os.path.join(dir, name)
    21         if (os.path.isdir(fullname) & recursion):
    22             list_files(fullname, wirldcard, recursion)
    23         else:
    24             for ext in exts:
    25                 if (name.endswith(ext)):
    26                     files_text.append(fullname)
    27                     break
    28     # print files_text
    29     return files_text
    30 
    31 
    32 if __name__ == '__main__':
    33     txt_files = list_files()

    这个感觉有点麻烦,应该需要一个词频统计,然后是过滤,再选择出现次数最多的关键词

  • 相关阅读:
    Mahout推荐算法ItemBased
    ALSA安装编程指南
    windbg更改cmd的token提升其特权
    至尊问题
    什么是“Bash”破绽?
    hdu 1548 A strange lift
    C 循环链表
    C++ 链表
    C_数据结构_链表的链式实现
    C _数据结构 _线性表的顺序存储
  • 原文地址:https://www.cnblogs.com/deen-/p/7155920.html
Copyright © 2011-2022 走看看