基于矩阵分解的隐因子模型

zoukankan html css js c++ java

基于矩阵分解的隐因子模型

推荐系统是现今广泛运用的一种数据分析方法。常见的如，“你关注的人也关注他”，“喜欢这个物品的用户还喜欢。。”“你也许会喜欢”等等。

常见的推荐系统分为基于内容的推荐与基于历史记录的推荐。

基于内容的推荐，关键在于提取到有用的用户，物品信息，以此为特征向量来进行分类，回归。

基于历史记录的推荐，记录用户的评分，点击，收藏等等行为，以此来判断。

基于内容的推荐对于用户物品的信息收集度要求比较高，而许多情况下很难得到那么多的有用信息。而基于历史记录的方法，则利用一些常见的历史记录，相比与基于内容的方法，数据的收集比较容易。

协同过滤广泛运用在推荐系统中。一般的方式是通过相似性度量，得到相似的用户集合，或者相似的物品集合，然后据此来进行推荐。

Amazon的图书推荐系统就是使用的基于物品相似性的推荐，“我猜你还喜欢**物品”。

不过，简单的协同过滤效果不是很好，我们或考虑用户聚类，得到基于用户的协同过滤；或只考虑物品聚类，得到基于物品的协同过滤。

有人提出了基于矩阵分解（SVD）的隐因子模型（Latent Factor Model）。

隐因子模型通过假设一个隐因子空间，分别得到用户，物品的类别矩阵，然后通过矩阵相乘得到最后的结果。在实践中，LFM的效果会高于一般的协同过滤算法。

1.      LFM基本方法

我们用user1,2,3表示用户，item 1,2,3表示物品，Rij表示用户i对于物品j的评分，也就是喜好度。那么我们需要得到一个关于用户-物品的二维矩阵，如下面的R。

常见的系统中，R是一个非常稀疏的矩阵，因为我们不可能得到所有用户对于所有物品的评分。于是利用稀疏的R，填充得到一个满矩阵R’就是我们的目的。

在协同过滤中，我们通常会假设一些用户，或者一些物品属于一个类型，通过类型来推荐。这这里，我们也可以假设类（class），或者说是因子（factor）。我们假设用户对于特定的因子有一定的喜好度，并且物品对于特定的因子有一定的包含度。

比如，用户对于喜剧，武打的喜好度为1,5；而物品对于喜剧，武打的包含度为5,1；那么我们可以大概地判断用户不会喜欢这部电影。

也就是我们人为地抽象出一个隐形因子空间，然后把用户和物品分别投影到这个空间上，来直接寻找用户-物品的喜好度。

一个简单的二维隐因子空间示意图如下：

上图以男-女；轻松-严肃；两个维度作为隐因子，把用户和电影投影到这个二维空间上。

上面的问题，我们用数学的方法描述，就是写成如下的矩阵：

P表示用户对于某个隐因子的喜好度；Q表示物品对于某个隐因子的包含度。我们使用矩阵相乘得到用户-物品喜好度。

正如上面所说，R是一个稀疏的矩阵，我们通过R中的已知值，得到P,Q后，再相乘，反过来填充R矩阵，最后得到一个满的R矩阵。

于是隐因子模型转化为矩阵分解问题，常见的有SVD，以及下面的一些方法。

下面介绍具体的方法

2.      Batch learning of SVD

设已知评分矩阵V，I为索引矩阵，I（I,j）=1表示V中的对应元素为已知。U，M分别表示用户-factor，物品-factor矩阵。

于是，我们先用V分解为U*M，目标函数如下：

第一项为最小二乘误差，P可以简单理解为点乘；

第二项，第三项为防止过拟合的正则化项。

求解上述的优化问题，可以用梯度下降法。计算得负梯度方向如下：

我们每次迭代，先计算得到U，M的负梯度方向，然后更新U,M；多次迭代，直至收敛。

这种方法的缺点是对于大的稀疏矩阵来说，有很大的方差，要很小的收敛速度才能保证收敛。

改进：可以考虑加入一个动量因子，来加速其收敛速度：

3.      Incomplete incremental learning of SVD

上述的方法对于大的稀疏矩阵来说，不是很好的方法。

于是，我们细化求解过程。

改进后的最优化目标函数如下：

也就是，我们以V的行为单位，每次最优化每一行，从而降低batch learning的方差。

负梯度方向：

4.      Complete incremental learning of SVD

同样的，根据incrementlearning的减少方差的思想，我们可以再次细化求解过程。

以V的已知元素为单位，求解。

最优化目标函数如下：

每次迭代，我们遍历每个V中的已知元素，求得一个负梯度方向，更行U,M;

另两个改进的SVD-bias SVD 和constraint SVD。

bias-SVD

一般的SVD的最优化目标函数如下：

其中第一项为最小二乘项，后两项为正则化约束，防止过拟合。

第一项中的P，可以简单定义为点乘，如下：

P=Ui’*Mj;

我们知道，每个用户都有不同的打分习惯。比如，A,B两个用户对于电影C都是同样的喜好层度，为3。不过A是一个严格的打分者，他一般倾向于保守打分，于是A给电影C的打分为3-0.5=2.5；而B是一个宽松的打分者，他的分数便为3+0.5=4；

如果我们不考虑上面的因素，就会简单地判断B更喜欢电影C。

于是，我们希望引入一个无偏的喜好度U和M，以及额外的bias偏差变量alfa,beta。用U,M来描述无偏喜好，alfa，beta描述打分宽松度。这样，我们的P函数就可以写成：

如果在加入一个基本分a,公式最终可以写成：

目标函数：

上述为四个变量的凸优化过程，其中关于Ui,Mj的负梯度同completeincremental SVD，而关于alfa，beta的求解如下：

负梯度：

于是我们遍历整个V矩阵，对于已知元素，更新上面四个值；迭代计算，直至收敛。

Constraint SVD

SVD是矩阵乘法的方式，得到用户-物品可能喜好度。从数学形式上我们可以看出，隐因子模型同时考虑了用户聚类，物品聚类，用类似聚类的信息填充了这些Miss value。如果某个用户的U-M行过于稀疏，而某个物品M-U不稀疏，（这种情况是常见的）。那么Miss value的填充很大程度上取决于这个物品的属性，最后得到近似于这个物品的平均值。

也就是，在用户，物品信息不平衡的情况下，我们容易减少用户对于喜好的影响程度。如下的contraint SVD一定程度上解决了这个问题。

我们重新定义U矩阵，如下：

其中Y表示用户的无偏喜好，I为已知元素的索引，W为一个大小=物品矩阵M-factor的矩阵。

我们可以看出，对于不同的用户，只要他们购买相同的物品，那么后一项就会完全一样。以此来进一步刻画用户特征。

对于稀疏的用户行为，后一项相当于预先填充了用户矩阵。

目标函数：

其中

负梯度方向：

算法优化：

上面的负梯度中，我们可以看出，每次计算时，对于同一用户来说，这一行的目标值，都具有相同的一项，于是我们可以考虑以行为单位，记录中间重复计算的项，以此简化计算。

参考文献：A Guide to Singular Value Decomposition for Collaborative Filtering

查看全文

相关阅读:
中文短文本分类
 词袋和词向量模型
 【NLP-2017-SA】翻译-Recurrent Attention Network on Memory for Aspect Sentiment Analysis（2017emnlp）
过拟合和欠拟合问题总结
 【Docker-6】-Docker删除运行过的镜像
 【Docker-5】-Docker运行自己的镜像
 【Docker-3】-Docker入门命令解读
 【Docker-4】-Docker启动nginx
【Docker-2】windows下安装docker
【Docker-1】docker简介

原文地址：https://www.cnblogs.com/yangxiao99/p/4864350.html

基于矩阵分解的隐因子模型

1. LFM基本方法

2. Batch learning of SVD

3. Incomplete incremental learning of SVD

4. Complete incremental learning of SVD

bias-SVD

目标函数：

负梯度：

Constraint SVD

目标函数：

负梯度方向：