关键词提取
关键词的定义:仁者见仁,智者见智的问题。
一:词频统计
通过统计文章中反复出现的词语。
词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn))
缺点:高频词并不等价于关键词。
二:使用TF-IDF(词频-倒排文档频次)
在TF-IDF算法中,词的重要程度不光正比于他在文档中的频次,还反比于有多少文档包含他。
t代表单词,d代表文档,TF(t,d)代表t在d中的出现频次,DF(t)代表多少篇文档包含t。
三:实战测试
数据来源:10000条用户关于套餐内容的投诉信息。包括时间、地址、账号、订单号、英文类型等无关内容。
需求:提取前关键词,生成词云图。
实战结果:
IO次数过高。程序运行直接暂停了
解决方案为:
https://www.jianshu.com/p/352d1cdff534
使用了sklearn的TfidfVectorizer算法包,但是想根据tfidf值作为词频生成词云图,但生成的是空白页面。
最终结果: