zoukankan      html  css  js  c++  java
  • 浅谈隐语义模型和非负矩阵分解NMF

    本文从基础介绍隐语义模型和NMF.

    隐语义模型

    ”隐语义模型“常常在推荐系统和文本分类中遇到,最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解。

    向用户推荐物品

    在推荐系统中,可以通过隐含语义模型将用户(user)和物品(item)自动分类,这些类别是自动生成的。这些类别也可以叫做“隐含的分类”,也许看不懂。每个用户或者物品会被分到多个类别中,属于某个类别的权重会被计算出来。

    假设现在有一个大小为m×n的评分矩阵V,包含了m个用户对n个物品的评分,评分从0到5,值越大代表越喜欢,0代表没有打分。设定共有r个隐含的分类。通过一些方法,将V展开为两个相乘的矩阵:

    V = W*H
    

    其中,W的大小为m×r,H的大小为r×n。在隐语义模型中,W(i,j)被解释为用户i属于类别j的权重,H(a,b)被解释为物品b属于类别a的的权重。

    如果用户u对物品i没有评分,可以将这个评分r(u,i)预测为:

    r(u,i) = sum(W(i, :) .* H(:, i))  

    据此可以构建一个推荐系统。

    网易云音乐的推荐算法,应该如此。

    文本分类

    类似上面的推荐系统。词袋模型与文档-词矩阵中介绍过文档-词矩阵。将数据集中的一堆文本构造成文档-词矩阵V,如果共有m个文本,n个单词,那么V的大小为m×n。V(i,j)表示文档i中出现单词j的次数。

    设定共有r个隐含的分类。通过一些方法,将V展开为两个相乘的矩阵:

    V = W*H

    其中,W的大小为m×r,H的大小为r×n。在隐语义模型中,W(i,j)被解释为文档i属于类别j的权重,H(a,b)被解释为单词b属于类别a的的权重。

    对于一个文档,其权重最大的类别被看作是该文档的类别。由于设定共有r个隐含的分类,分类结果也是r个份分类。

    NMF

    NMF,全称为non-negative matrix factorization,翻译为“非负矩阵分解”,可以用于隐语义模型。非负矩阵,就是矩阵中的每个元素都是非负的。将非负矩阵V分解为两个非负矩阵W和H的乘,叫做非负矩阵分解。那么,该怎么分解呢?在下面的这篇论文里,给出了两个方法并给出了具体证明。

    http://papers.nips.cc/paper/1861-algorithms-for-non-negative-matrix-factorization.pdf

  • 相关阅读:
    我读过的书 编程爱好者
    HarmonyOS ListContainer基础用法
    HarmonyOS ListContainer 读取网络json数组
    HarmonyOS Activity页面跳转
    HarmonyOS ListContainer 图文并排
    HarmonyOS 线性布局练习一 登录页面
    jsonserver 环境搭建及使用方法
    HarmonyOS 真机调试
    在win下设置C语言环境变量
    使用 Eclipse 调试 Java 程序的 10 个技巧
  • 原文地址:https://www.cnblogs.com/AngelaSunny/p/5231964.html
Copyright © 2011-2022 走看看