One Class Collaborative Filtering 单类协同过滤

zoukankan html css js c++ java

One Class Collaborative Filtering 单类协同过滤

转自：http://www.resyschina.com/2011/04/one-class-collaborative-filtering.html 发表于：2011年04月13日

YangQiang教授指导的这篇ICDM2008的文章我2年前就拜读过，但当初对上面的方法不是特别感冒，所以也就没有记得特别清楚。最近，KDD Cup的第二个track的问题和这篇Paper的研究问题很像，同时我在做KDD Cup时也设计了一个算法，感觉效果非常好，我准备把他称作基于采样的binarySVD算法。然后我准备研究一下这个算法是不是已经有人提出来了，因为我隐约记得是看过类似的方法。结果我一查，发现果然是，标题里的那篇论文就是用的类似的方法，既然这个方法已经有人提出来了，我也就写篇博客再公开一下，让更多人知道，哈哈。

废话不多说了。早期的推荐系统研究的问题就是评分预测，用户有一堆评分，然后弄出个模型，预测给定用户对给定item的评分。不过评分预测问题的解决无法实际应用。有2个原因：
1. 评分预测问题是说，我知道这个用户要对这个物品评分，然后问你他会评多少分。而实际系统的问题大多是，这个用户会对哪些物品评分？
2. 评分预测问题过度依赖评分数据，而很多网站记录的往往是用户的访问日志，比如视频网站中最多的数据是用户看了什么视频，而用户对视频打分的数据却非常少。

所以，实际系统中最重要的问题就是基于隐反馈的评分预测问题。所谓隐反馈，往往就是只有正样本。我们就拿视频网站说事，比如我们的数据就是，用户看了什么视频，然后让你预测用户还会看什么视频。

这个时候我们遇到一个问题，对于一个用户，我们有很样本是关于他看了什么视频，除了这些视频，剩下的视频是missing value，也就是说我们不知道他有没有看。不知道不代表用户没有看，也许用户在别的网站看了，也许用户在电视上看了。那么，这个时候对于我们在 Netflix比赛中很NB的SVD算法来说就出现了一个问题，没有负样本了。

没有负样本不代表不能做推荐，基于邻域的算法，比如基于Item的协同过滤(ItemCF)就可以在只有正样本的数据集上推荐。因为他的基本思想是在正样本集合外画个比正样本集合稍微大一点的圈，然后推荐给用户那些和他们看过的视频相似的视频。但没有负样本却代表学习算法基本不work了，因为学习算法大多是在正样本和负样本中间画一个分类面，那么没有负样本，自然也就没有分类面了。

所以，One Class Collaborative Filtering(OCCF)的思想就是我们要构造负样本。

如何构造负样本是一个重点，这里我只介绍这篇文章中的方法，不谈也许更好的方法（等KDD Cup结束了可以谈，哈哈）。
1. 所有的missing value都是负样本（AMAU）
这是最自然想到的一个方法，不过这也是最烂的一个方法（这也是这篇文章中试图打败，并最终成功打败的一个算法）。这个方法有三点烂的。第一，因为 missing value非常多，造成数据规模非常大，因为我们知道一般推荐系统的数据集99%都是missing value。这样带来了无比高的复杂度，基本在大数据集上是不work的。第二，还是因为missing value非常多，造成负样本非常多，从而正负样本不平衡，这对学习算法也是很不利的因素。第三，missing value中有很多其实是正样本，只是我们不知道他们是正样本，如果把它们都归为负样本，会对精度带来负面影响。所以，这个算法理所当然的败下阵来，不过这个算法是个不错的baseline算法，如果连这个方法都不如，就不要干了。

2. 采样负样本
终于到了本文的重点了。前面提到，AMAU的最大问题就是负样本太多了，造成复杂度太高。所以我们的一个想法就是，我们从missing value中采样出一个和正样本差不多大的集合作为负样本，就OK了。这个想法很朴素，但正是这个朴素的想法让SVD算法终于可以在OCCF的问题上和 ItemCF想媲美了。

但是missing value太多了，怎么采样呢，这篇文章介绍了3种方法
1. 均匀采样：这个想法最自然呢
2. 偏重用户采样：就是活跃度用户负样本也要多一点
3. 偏重item采样：不热门的item的负样本要多一点

最终文章的实验说，这三种采样策略，2好于1好于3。

得到负样本还没完，得到负样本之后我们可以构造出一个矩阵，里面有些元素是1，有些是-1，还有一些不知道。这个时候我们就可以用SVD来做预测了。这里还有一个重点，就是SVD是需要迭代的，那么我们需要在每次迭代的时候都进行重新采样。文中把这个称为bagging。

好了，就说到这儿了，其实上面的三种采样方法都不是最好的，将来再讨论更好的采样策略和优化策略。

查看全文

相关阅读:
Python+selenium之调用JavaScript
Python+selenium 之操作Cookie
Python+selenium整合自动发邮件功能
 Python之查询最新的文件
 jQuery之回调对象
 jQuery之XML的加载和解析
 jQuery之DOM属性
 jQuery之Ajax--快捷方法
 jQuery之Ajax--底层接口
 jQuery之Ajax--辅助函数

原文地址：https://www.cnblogs.com/paulbai/p/2449026.html