黄聪：Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate） - 走看看

zoukankan html css js c++ java

黄聪：Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate）
一、similar

用来识别文章中和搜索词相似的词语，可以用在搜索引擎中的相关度识别功能中。
text1.similar("monstrous")
查询出了text1中与monstrous相关的所有词语：

二、common_contexts

用来识别2个关键词相似的词语。
text2.common_contexts(["monstrous","very"])
三、generate

用来自动生成文章。
text3.generate()
四、len

可以用于判断重复词密度
from __future__ import division
len(text3) / len(set(text3))
图中显示正文字数/不重复词语字数 = 16，说明有15/16是无效字符。

五、count

可以用于判断关键词密度。
text3.count('smote') / len(text3)
作者：黄聪
出处：http://www.cnblogs.com/huangcong/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
查看全文

相关阅读:
《Java算法》Java贪心算法
 《Java知识应用》Java下Linux系统下word转PDF
《MySQL数据库》MySQL常用语法（二）
《MySQL数据库》MySQL常用语法（一）
《Java算法》Java判重算法-整数判重
 《Java算法》Java排序算法-快速排序
 POJ 1113：Wall
POJ 1584：A Round Peg in a Ground Hole
51nod 1035：最长的循环节
 51nod 1022 石子归并环形+四边形优化

原文地址：https://www.cnblogs.com/huangcong/p/2158054.html

Copyright © 2011-2022 走看看