zoukankan      html  css  js  c++  java
  • 中文词频统计

    中文词频统计

    1. 下载一长篇中文小说。

    2. 从文件读取待分析文本。

    3. 安装并使用jieba进行中文分词。

    pip install jieba

    import jieba

    ljieba.lcut(text)

    4. 更新词库,加入所分析对象的专业词汇。

    jieba.add_word('天罡北斗阵')  #逐个添加

    jieba.load_userdict(word_dict)  #词库文本文件

    参考词库下载地址:https://pinyin.sogou.com/dict/

    转换代码:scel_to_text

    5. 生成词频统计

    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    import jieba
    txt=open(r'hhh.txt','r',encoding='utf-8').read()
     
    s=[line.strip() for line in open('stops_chinese.txt',encoding='utf-8').readlines()]
    jieba.load_userdict(s)
     
     
    wordcut = jieba.lcut(txt)
     
    wdict = {}
     
    for word in wordcut:
       if word not in s:
            if len(word)==1:
                continue
            else:
                wdict[word]=wdict.get(word,0)+1
                 
    wc=list(wdict.items())
    wc.sort(key=lambda x:x[1], reverse=True)
     
    for i in range(25):
           print(wc[i])
     
    cut_text = " ".join(wordcut)
    'print(cut_text)'
     
    mywc = WordCloud().generate(cut_text)
    plt.imshow(mywc)
    plt.axis("off")
    plt.show()


     

     

  • 相关阅读:
    EL表达式 (详解)
    宜信面试整理
    Java 合并两个排序数组
    动态规划初识(爬楼梯问题)
    二叉树的最小深度
    ElasticSearch 单字符串多字段查询评分问题
    ES 分词
    汽车之家 面试总结
    浪潮之巅读书笔记
    闲徕互娱 面试总结
  • 原文地址:https://www.cnblogs.com/shang1680/p/10553690.html
Copyright © 2011-2022 走看看