第一篇,介绍TF-IDF的基本概念,和求法。注意,我的实现里面,把 Y部分都归一化了,提高计算。
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
第二篇,介绍使用TF-IDF,来找出相似文章。使用了余弦相似性,其实就是两个向量的点乘/两个向量的模的乘积。
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
第三篇,讲了怎么利用TF-IDF,来找出自动摘要。其实就是包含关键词最多的句子。里面关键词应该就是用TF-IDF来计算出来的最重要的词。
http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html