用Python实现统计一篇英文文章内每个单词出现频率

def get_file_words(path, num):
    """
        用Python实现统计一篇英文文章内每个单词出现频率，并返回出现频率最高的10个单词及其出现次数，并解答以下问题
        1)创建文件对象f后，解释f的readlines和xreadlines方法的区别？
        2)追加需求，引号内元素需要算作一个单词，如何实现？

    :return:
    """
    list_words = []

    obj_file = open(path, "r")
    text = obj_file.read()
    obj_file.close()

    # 引号内元素需要算作一个单词,先用引号切分，偶数再划分单词，奇数直接算作一个单词加入列表
    list_text = text.split('"')
    for i in range(0, len(list_text), 2):
        #
        list_words += re.split("[0-9W]+", list_text[i])
        if i+1 < len(list_text):
            list_words.append(list_text[i+1])

    obj_count = Counter(list_words)
    result = obj_count.most_common(num)
    #print(list_words)

    return result

if __name__ == '__main__':
    print(get_file_words("aa.txt", 10))

查看全文

相关阅读:
C++成员函数在内存中的存储方式
 C++重写（覆盖）、重载、重定义、
C++中的覆盖与隐藏（详细讲解）
c++中被忽视的隐藏
 C++对象的内存分布和虚函数表
 C++ explicit关键字详解
 命名空间 extern的用法 static全局变量
 extern和include的作用
 extern用法总结
 KMP算法

原文地址：https://www.cnblogs.com/hxiaoli/p/8393002.html