zoukankan      html  css  js  c++  java
  • One Class Collaborative Filtering 单类协同过滤

    转自:http://www.resyschina.com/2011/04/one-class-collaborative-filtering.html             发表于:2011年04月13日 

    YangQiang教授指导的这篇ICDM2008的文章我2年前就拜读过,但当初对上面的方法不是特别感冒,所以也就没有记得特别清楚。最 近,KDD Cup的第二个track的问题和这篇Paper的研究问题很像,同时我在做KDD Cup时也设计了一个算法,感觉效果非常好,我准备把他称作基于采样的binarySVD算法。然后我准备研究一下这个算法是不是已经有人提出来了,因为 我隐约记得是看过类似的方法。结果我一查,发现果然是,标题里的那篇论文就是用的类似的方法,既然这个方法已经有人提出来了,我也就写篇博客再公开一下, 让更多人知道,哈哈。

    废话不多说了。早期的推荐系统研究的问题就是评分预测,用户有一堆评分,然后弄出个模型,预测给定用户对给定item的评分。不过评分预测问题的解决无法实际应用。有2个原因:
    1. 评分预测问题是说,我知道这个用户要对这个物品评分,然后问你他会评多少分。而实际系统的问题大多是,这个用户会对哪些物品评分?
    2. 评分预测问题过度依赖评分数据,而很多网站记录的往往是用户的访问日志,比如视频网站中最多的数据是用户看了什么视频,而用户对视频打分的数据却非常少。

    所以,实际系统中最重要的问题就是基于隐反馈的评分预测问题。所谓隐反馈,往往就是只有正样本。我们就拿视频网站说事,比如我们的数据就是,用户看了什么视频,然后让你预测用户还会看什么视频。

    这个时候我们遇到一个问题,对于一个用户,我们有很样本是关于他看了什么视频,除了这些视频,剩下的视频是missing value,也就是说我们不知道他有没有看。不知道不代表用户没有看,也许用户在别的网站看了,也许用户在电视上看了。那么,这个时候对于我们在 Netflix比赛中很NB的SVD算法来说就出现了一个问题,没有负样本了。

    没有负样本不代表不能做推荐,基于邻域的算法,比如基于Item的协同过滤(ItemCF)就可以在只有正样本的数据集上推荐。因为他的基本思想是 在正样本集合外画个比正样本集合稍微大一点的圈,然后推荐给用户那些和他们看过的视频相似的视频。但没有负样本却代表学习算法基本不work了,因为学习 算法大多是在正样本和负样本中间画一个分类面,那么没有负样本,自然也就没有分类面了。

    所以,One Class Collaborative Filtering(OCCF)的思想就是我们要构造负样本

    如何构造负样本是一个重点,这里我只介绍这篇文章中的方法,不谈也许更好的方法(等KDD Cup结束了可以谈,哈哈)。
    1. 所有的missing value都是负样本(AMAU)
    这是最自然想到的一个方法,不过这也是最烂的一个方法(这也是这篇文章中试图打败,并最终成功打败的一个算法)。这个方法有三点烂的。第一,因为 missing value非常多,造成数据规模非常大,因为我们知道一般推荐系统的数据集99%都是missing value。这样带来了无比高的复杂度,基本在大数据集上是不work的。第二,还是因为missing value非常多,造成负样本非常多,从而正负样本不平衡,这对学习算法也是很不利的因素。第三,missing value中有很多其实是正样本,只是我们不知道他们是正样本,如果把它们都归为负样本,会对精度带来负面影响。所以,这个算法理所当然的败下阵来,不过 这个算法是个不错的baseline算法,如果连这个方法都不如,就不要干了。

    2. 采样负样本
    终于到了本文的重点了。前面提到,AMAU的最大问题就是负样本太多了,造成复杂度太高。所以我们的一个想法就是,我们从missing value中采样出一个和正样本差不多大的集合作为负样本,就OK了。这个想法很朴素,但正是这个朴素的想法让SVD算法终于可以在OCCF的问题上和 ItemCF想媲美了。

    但是missing value太多了,怎么采样呢,这篇文章介绍了3种方法
    1. 均匀采样:这个想法最自然呢
    2. 偏重用户采样:就是活跃度用户负样本也要多一点
    3. 偏重item采样:不热门的item的负样本要多一点

    最终文章的实验说,这三种采样策略,2好于1好于3。

    得到负样本还没完,得到负样本之后我们可以构造出一个矩阵,里面有些元素是1,有些是-1,还有一些不知道。这个时候我们就可以用SVD来做预测了。这里还有一个重点,就是SVD是需要迭代的,那么我们需要在每次迭代的时候都进行重新采样。文中把这个称为bagging。

    好了,就说到这儿了,其实上面的三种采样方法都不是最好的,将来再讨论更好的采样策略和优化策略。

  • 相关阅读:
    2015年秋季个人阅读计划
    MFC Cstring转化为string
    虚拟机无法共享文件夹解决
    YCM编译安装
    windows 下mysql loadfile 返回NULL的解决
    读“单例写出花来”瞎想
    Spark Scheduler内部原理剖析
    go 获取函数被调用的文件即行数
    spark 获取applicationID
    spark job, stage ,task介绍。
  • 原文地址:https://www.cnblogs.com/paulbai/p/2449026.html
Copyright © 2011-2022 走看看