.中文分词
- 下载一中文长篇小说,并转换成UTF-8编码。
- 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
代码如下:
import jieba day=open('text.txt','r',encoding='utf-8').read() for i in ' ,.()。,123"?': day=day.replace(i,' ') gushi=jieba.cut(day) k=list(gushi) #print(k) exc={' ','我','你','的','了','他','它','也','是', '着', '在','她','(','…','就','会',')','地'} dict={} keys=set(k) keys=keys-exc print(keys) for i in keys: dict[i]=k.count(i) #print(dict) wc=list(dict.items()) wc.sort(key=lambda x:x[1],reverse=True) print(wc) for i in range(20): print(wc[i])
运行结果:
3.排除一些无意义词、合并同一词。
代码如下:
import jieba day=open('text.txt','r',encoding='utf-8').read() for i in ' ,.()。,123"?': day=day.replace(i,' ') gushi=list(jieba.cut(day)) #print(k) dict={} for k in gushi: if len(k)==1: continue else: dict[k]=dict.get(k,0)+1 wc=list(dict.items()) wc.sort(key=lambda x:x[1],reverse=True) print(wc) for i in range(20): print(wc[i])
运行结果: