zoukankan html css js c++ java

中文词频统计

.中文分词

下载一中文长篇小说，并转换成UTF-8编码。
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

代码如下：

import jieba

day=open('text.txt','r',encoding='utf-8').read()


for i in '
,.()。，123"？':
    day=day.replace(i,' ')

gushi=jieba.cut(day)
k=list(gushi)
#print(k)

exc={' ','我','你','的','了','他','它','也','是', '着', '在','她','（','…','就','会','）','地'}
dict={}
keys=set(k)
keys=keys-exc

print(keys)

for i in keys:
    
    dict[i]=k.count(i)
#print(dict)
wc=list(dict.items())
wc.sort(key=lambda x:x[1],reverse=True)
print(wc)
for i in range(20):
    print(wc[i])

运行结果：

3.排除一些无意义词、合并同一词。

代码如下：

import jieba

day=open('text.txt','r',encoding='utf-8').read()


for i in '
,.()。，123"？':
    day=day.replace(i,' ')

gushi=list(jieba.cut(day))

#print(k)

dict={}

for k in gushi:
    if len(k)==1:
        continue
    else:
        dict[k]=dict.get(k,0)+1

wc=list(dict.items())
wc.sort(key=lambda x:x[1],reverse=True)
print(wc)
for i in range(20):
    print(wc[i])

运行结果：

查看全文

相关阅读:
2：编写虚幻引擎中的UC和C++代码
 1：编写虚幻引擎中的UC和C++代码
 0：编写虚幻引擎中的UC和C++代码
 4：虚幻引擎网络架构：技术要点总结篇
 3：虚幻引擎网络架构:GameInfo，PlayerMove
2：虚幻引擎网络架构:Replication
1:虚幻引擎网络架构:Actors
R12-表详解-总帐
 clob 类型
 成本更新和算法

原文地址：https://www.cnblogs.com/decadeyu/p/7609667.html