zoukankan      html  css  js  c++  java
  • 利用Python 统计txt 文档词频 次数

    -- coding:utf-8 --

    import jieba

    读取文件

    f=open(r'E:Chrome_download ieba.txt',encoding='utf-8')
    txt =f.read()

    print(txt)

    分词

    words = jieba.lcut(txt)
    string = ' '.join(words)

    print(words)

    print(f"输出词数量:{len(words)}") # 词数量
    print(f"不重复词数量{len(set(words))}") # 不重复词数量

    构造词频字典

    counts ={}
    for word in words:
    if len(word)==1:
    continue
    else:
    counts[word]=counts.get(word,0)+1 # 这个语法需要理解下

        # dict.get(key,default=None)
        # key -- 字典中要查找的键
        # default 指定key不存在时,返回值。
        #
    

    print(counts) # 输出构造好的字典

    转列表

    items = list(counts.items()) #返回可遍历的(键, 值) 元组数组。

    print(items)

    排序

    items.sort(key=lambda x:x[1],reverse=True)

    print(items)

    输出前15个

    for i in range(15):
    word ,count = items[i]
    print(f"{word}--出现了--{count}-次")

  • 相关阅读:
    网址
    oracle一些笔记
    GLOBAL_NAMES参数研究
    创建 dblink
    解析grant connect, resource to user语句
    授权
    Bootstrap(转)
    C#操作XML小结(转)
    使用backbone.js、zepto.js和trigger.io开发HTML5 App
    SQLSERVER存储过程基本语法
  • 原文地址:https://www.cnblogs.com/chenfei2928/p/13863712.html
Copyright © 2011-2022 走看看