zoukankan      html  css  js  c++  java
  • 中文词频统计

     .中文分词

    1. 下载一中文长篇小说,并转换成UTF-8编码。
    2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

     代码如下:

    import jieba
    
    day=open('text.txt','r',encoding='utf-8').read()
    
    
    for i in '
    ,.()。,123"?':
        day=day.replace(i,' ')
    
    gushi=jieba.cut(day)
    k=list(gushi)
    #print(k)
    
    exc={' ','','','','','','','','', '', '','','','','','','',''}
    dict={}
    keys=set(k)
    keys=keys-exc
    
    print(keys)
    
    for i in keys:
        
        dict[i]=k.count(i)
    #print(dict)
    wc=list(dict.items())
    wc.sort(key=lambda x:x[1],reverse=True)
    print(wc)
    for i in range(20):
        print(wc[i])

     运行结果:

     

    3.排除一些无意义词、合并同一词。

    代码如下:

    import jieba
    
    day=open('text.txt','r',encoding='utf-8').read()
    
    
    for i in '
    ,.()。,123"?':
        day=day.replace(i,' ')
    
    gushi=list(jieba.cut(day))
    
    #print(k)
    
    dict={}
    
    for k in gushi:
        if len(k)==1:
            continue
        else:
            dict[k]=dict.get(k,0)+1
    
    wc=list(dict.items())
    wc.sort(key=lambda x:x[1],reverse=True)
    print(wc)
    for i in range(20):
        print(wc[i])

    运行结果:

  • 相关阅读:
    保险
    cron表达式的用法
    Hive 学习记录
    股票的五种估值方法
    AtCoder Beginner Contest 113 A
    ZOJ 4070 Function and Function
    银行业务队列简单模拟 (数据结构题目)
    算法3-7:银行排队
    算法3-5:n阶Hanoi塔问题
    算法3-1:八进制数
  • 原文地址:https://www.cnblogs.com/decadeyu/p/7609667.html
Copyright © 2011-2022 走看看