下载一长篇中文文章。
从文件读取待分析文本。
news = open('gzccnews.txt','r',encoding = 'utf-8')
安装与使用jieba进行中文分词。
pip install jieba
import jieba
list(jieba.lcut(news))
生成词频统计
排序
排除语法型词汇,代词、冠词、连词
输出词频最大TOP20
将代码与运行结果截图发布在博客上。
import jieba f=open('hero.txt','r',encoding='utf-8') text=f.read() notelist=list(jieba.lcut(text)) textDic={} for i in set(notelist): #计算次数 textDic[i]=notelist.count(i) delete={'。',' ','他',';', '的', '说', '道', '你','了',',','.',':','也','是',' ','”','“','"','我','又','u3000','?', '去','都','来','有','这','人','他们','不','我们','在','着','你们','便','就','还','们','那',} for i in delete: #删除非法词汇 if i in textDic: del textDic[i] word = sorted(textDic.items(), key=lambda d: d[1], reverse=True) # 由大到小排序 for i in range(10): # 输出词频Top10 print(word[i])
截图