zoukankan      html  css  js  c++  java
  • 9.29中文词频统计

    import jieba
    fo = open('gg.txt','r',encoding='utf-8')
    txt=fo.read()
    
    words = list(jieba.cut(txt))
    #print(words)
    exc={'','','','','"','','','','','','','','
    '}
    dt={}
    
    for i in words:
        if len(i)==1:
            continue
        else:
            dt[i]=dt.get(i,0)+1
    #print(dt)
    
    wc=list(dt.items())
    wc.sort(key=lambda x:x[1],reverse=True)
    
    for i in range(20):
        print(wc[i])

    下载一中文长篇小说,并转换成UTF-8编码。

    使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

    排除一些无意义词、合并同一词。

    对词频统计结果做简单的解读。

    根据词频统计可以得出,这本书主要讲的是投资者、公司和股票,根据市场的价格对股票投资进行分析。
    这本书是以假设的形式进行分析,如果投资者购买证券,债券,普通股,它们对市场的影响,还有投资者的收益如何。
  • 相关阅读:
    js history对象 手机物理返回键
    正则表达式学习整理
    js获得时间new Date()整理
    币值转换
    打印沙漏
    秋季总结
    对我影响最大的三位老师
    我就是我
    秋季学期学习总结
    自我介绍
  • 原文地址:https://www.cnblogs.com/liminghui3/p/7610323.html
Copyright © 2011-2022 走看看