zoukankan html css js c++ java

综合练习：词频统计

#-*- coding: UTF-8 -*-
fo = open("D:/PycharmProjects/speaking.txt","r")
news=fo.read()
fo.close()
print(news)

# 将分隔符替换为空格
sep = """,."? ! : ; '"""
for c in sep:
    news = news.replace(c, " ")

# 将所有大写转换为小写
# 生成单词列表

wordList = news.lower().split()

print(wordList)

#生成词频统计
wordDict = {}
wordSet = set(wordList)
for w in wordSet:
    wordDict[w] = wordList.count(w)
for w in wordList:
    wordDict[w] = wordDict.get(w,0)+1

#排除语法型词汇，代词、冠词、连词
str1=['a','an','more','for','is','of','to','from','or','that','if','the','were','in','s','not','can','get','could','might','up','and','this','t']
for i in str1:
    del wordDict[i]

# 排序
dictList = list(wordDict.items())
dictList.sort(key= lambda x:x[1],reverse=True)
#输出词频最大TOP20
for i in range(20):
    print(wordList[i])

综合练习

词频统计预处理

下载一首英文的歌词或文章

将所有,.？！’:等分隔符全部替换为空格

将所有大写转换为小写

生成单词列表

生成词频统计

排序

排除语法型词汇，代词、冠词、连词

输出词频最大TOP20

将分析对象存为utf-8编码的文件，通过文件读取的方式获得词频分析内容。

查看全文

相关阅读:
解决：安装SQl 2008为SQL Server代理服务提供的凭据无效
 jquery 瀑布流效果
 设置swfupload 一次只上传一个文件
 设置swfupload选择文件后不自动上传
 Sublime Text3 & MinGW & LLVM CLang 安装配置CC++编译环境
 在WINDOWS中安装使用SIGPACK（MinGW64+Sublime Text3 &Visual Studio）
关于ThinkPHP_5 的入口文件
 centos7安装lamp环境
 ThinPHP_5的请求和响应
 MySQL的字段长度和显示宽度

原文地址：https://www.cnblogs.com/cs007/p/8653557.html