zoukankan html css js c++ java

中文词频统计

一.下载一篇中文长篇小说并从文件中读取待分析文本

f = open('xiaoshuo.txt', 'r', encoding='utf-8')
# 通过文件读取字符串 str
str = f.read()
f.close()
print(str)

二.安装jieba

三.

(1)更新词库，加入所分析对象的专业词汇。

(2)生成词频统计

(3)排序

(4)排除语法型词汇，代词、冠词、连词等停用词。

(5)输出词频最大TOP20，把结果存放到文件里

import jieba
f=open('白夜行.txt','r',encoding='utf-8')
lines=f.read()
f.close()

sep = '，。？！；：“”‘’-——<_/>'
for en in sep:
    lines=lines.replace(en, '')

lines = list(jieba.cut_for_search(lines))

strSet = set(lines)
    #print(len(strSet), strSet)

strDict = dict()
for word in strSet:
    strDict[word] = lines.count(word)
        #print(len(strDict), strDict)

wcList = list(strDict.items())
#print(wcList)
wcList.sort(key=lambda x: x[1], reverse=True)
#print(wcList)

for i in range(20):
    print(wcList[i])

四.生成词云

查看全文

相关阅读:
Python_Crawler_Foundation1-2_MYSQL_Regular Expression
Linux_Best Practice_01_Ubuntu_set prox_set Repositories
python_Note_Preview_01
Python_Note_Day 10_Coroutine
Python_Note_Day 9_threading.Thread_multiprocessing.Process_Queue
Linux_学习_Day4_user/group/permission
Linux_学习_Day3_bash
Linux_学习_Day2~3
Python_Note_Day 8_socket
Python_Note_Day 7_Advanced Class

原文地址：https://www.cnblogs.com/moon2/p/10555276.html