这篇论文比较短,正如题目所说,主要还是简单地介绍了一下推荐系统的一些算法以及评估的方法。
推荐系统之前是基于关键字信息的过滤系统,后来发展成为协同过滤系统,解决了两个问题:1、通过人工审核去评价那些具有大量关键字的文档;2、基于人们的品味去过滤一些非文本文件,如音乐。
之后,推荐系统研究领域出现了分叉。一方面,关注实际问题中的商业价值;另一方面,一些机器学习者应用大量技术在推荐系统。
正是这种分叉,推动了推荐系统的发展,许多推荐系统的研究者们都意识到了忽略了两个关键点:
1.在不同类型的推荐系统下,提供一种单一的推荐;
2.从广义上去评估推荐系统,鼓励研究者能够从不同的方面去创造出可比较的结果;
这个领域的一些较为著名的论文:
Herlocker的论文:如何正确地去评价新的推荐算法和推荐系统。
1.是否值得花时间去研究推荐算法;
2.是否所有的算法都同样地好;
针对以上两个问题:
1.通过评估实验得出:并不是所有的度量得出的推荐结果都相同,而且度量的正确分组很可能会影响到推荐的准确度;
2.根据用户目的,评价出哪个预测方案,最直接地反映了关于一个具有特定目的推荐系统的适用性。
Middleton的论文:用户实体的个人资料非常有利于基于内容的技术应用在推荐系统中。
Middleton的论文出名的三个原因:
1.它展示了一种能够推广到其他领域(如存在一个实体,且推荐系统能有效地引导用户兴趣空间);
2.它展示了一个实际存在的外部实体如何在推荐系统中处理冷启动问题(如纯粹基于系统过滤的推荐系统无法提供太多的价值给他们早期的客户,事实上,在新用户填入他们的个人资料之前,推荐系统也无法提供太多有价值的推荐);
3.这项工作需要对推荐系统中个体资料的有效性进行非常细致的业务评估。
Hoffman的论文:在潜在语义模型中,一种基于模型的协同过滤算法,其中利用了潜在概率语义分析和最大期望值算法来构建一个简洁而又精确的降维模型。这个模型背后潜意识地假定了用户的偏好作为一种向量的权重分布在一些潜在的因素上。此外,他们的实验还表明了他们的算法是十分精确的,而且时间复杂度也低。
Huang的论文:采用一种不同的方法去处理推荐系统中稀疏性的问题——关联检索(associate retrieval)。
利用中国在线图书馆的数据,他们探索一个扩散激活算法(spreading-activation)如何能够提高推荐系统关于帮助用户挖掘传递关联的质量。如果两个用户都阅读或喜爱相似的书籍,但不是同一本,那么他们之间的关联就会丢失。而Huang的论文里面就展示了利用一种扩散激活的算法能够帮助推荐系统,尤其是新用户给出恰当的推荐。
Deshpande & Karypi的论文:基于条目的推荐系统,用于解决推荐榜单的topN问题,而不是针对所有。
他们的论文展示了在促销团购的活动,物品条目之间或物品集之间的相似度,以此提供有效的推荐。此外,为了评估这两种关键技术,论文非常有效地利用了多种数据集对结果进行了验证。