自然语言处理之 nltk 英文分句、分词、统计词频的工具 - 走看看

zoukankan html css js c++ java

自然语言处理之 nltk 英文分句、分词、统计词频的工具
自然语言处理之 nltk 英文分句、分词、统计词频的工具：

需要引入包：
from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer from nltk.tokenize import word_tokenize from gensim import corpora, models import gensim
1、nltk 英文分句：sentences = sen_tokenizer.tokenize(paragraph)

2、nltk 英文分词：word_list = nltk.word_tokenize(paragraph)

3、统计词频：freq_dist = nltk.FreqDist(words) #nltk.FreqDist返回一个词典，key是不同的词，value是词出现的次数
查看全文

相关阅读:
App如何选择移动广告平台，开发者2
mouseover与mouseenter与mousemove差额mouseout与mouseleave差额
 JFinal 的源代码超具体的分析DB+ActiveRecord
Vim经常使用技巧总结1
2015第4周四网摘
 Java任务调度
 2015第4周二网摘
 2015第4周一
 2015第三周日
 转SpringSided代码规范遵循

原文地址：https://www.cnblogs.com/shenxiaolin/p/12532464.html

Copyright © 2011-2022 走看看