zoukankan html css js c++ java

中文词频统计

下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20

将代码与运行结果截图发布在博客上。

# -*- coding : UTF-8 -*-
# -*- author : onexiaofeng -*-
import jieba
jieba.add_word('路明非')
news=open('longzu.txt','r',encoding='utf-8')
notes=news.read()
notelist=list(jieba.lcut(notes))

Word={}
for i in set(notelist):    
    Word[i]=notelist.count(i)

delete_word={'我',' ','得','；', '你', '的', '他', '她', '它', '的', '着', '呀','，','。','：','“','”','也','吗','?','被','说',
           '是','使','与','不','是','、','而','又','！', '
','…','？','了','有','在','来','嗯','去','于','人','中','想','却',
             '到','此','叫','便','把','但','若','以','龙','人','已','可','出','被','使','却','都','就','和','上','地','里','们','那','一个','还','很','么','就是'}

for i in delete_word:        
    if i in Word:
        del Word[i]

sort_word = sorted(Word.items(), key= lambda d:d[1], reverse = True)  
for i in range(20):  
    print(sort_word[i])

截图：

查看全文

相关阅读:
算法复杂度
 购物网站简介
 算法的基本概念
 Visual Basic的启动与退出
 SQL Server 日志数据库清理办法
 jquery操作select详解(取值,设置选中)
使用HttpClient连接WebAPI 转送JSON实体数据
 JQ 限制文本框数字小数字母
 禁止调整自定义控件的尺寸
 C#异步编程（二）：异步基础补充

原文地址：https://www.cnblogs.com/170he/p/8665316.html