zoukankan      html  css  js  c++  java
  • 推荐系统中的相似度度量

    相似度计算是数据挖掘,推荐引擎中的最基本问题,例如在推荐系统(Recommender Systems,简称RSs)中计算带推荐物品(Item)相似度,或是用户(User)之间的相似度以期获得兴趣口味(Taste)相似的用户时,均需要使用到相似度计算技术。经常使用的相似度计算方式较多,且各有特点, 以下就列出常用的相似度计算方式,原理,以及其优缺点。

    相似度计算和距离计算是类似问题,之前粗略看了下Mahout(apache分布式数据挖掘项目)中的实现对各计算方式进行分析。结合在实际项目中的应用,介绍几类常用的距离计算公式。

    Cosine

    最常使用的相似度计算方法,而且总体效果较好,可以说是简单实用。数学描述如下:

    cosine_define

    其中 是X的模。

    例如,在推荐引擎中,使用 r_ui表示User u对Item i的打分,则可以使用u对各Item打的分数的向量作为User u的兴趣爱好,则User u和User v之间的cosine相似度计算方式为:

    cosine_define1

    其中 I_ui 表示User u,v均投票了的item。

    Cosine的几何意义为向量空间中,将待计算相似度的向量均归一化为长度为1的向量, 所有被归一化后的向量  ov的v点坐标均落在以向量0为球心,半径为1的球面上,使用二向量的夹角度量二者相似度,夹角越小,相似程度越高。

    在文本处理过程中,cosine度量方式表现效果都会比较好。

    Mahout中参见CosineDistanceMeasure.java

    Pearson Correlation

    用于度量线性关系最常用的方法, 定义 为协方差,σ为标准差, 则Pearson相关系数为:

    Pearson_num

    例如,使用 表示User u对Item的打分,则User u,v之间的相似度计算方式为:

    Pearson_num_2

    其中 表示User u,v均投票了的item,与COS的区别是考虑了投票的均值, 且分母考虑的是User u,v共同投票的Item。

    很多时候,针对User的PC要比针对Item的PC效果较好,因为针对User的PC相当于对各个用户的投票Scales做了一个中心化,避免各用户对相同Item投票时,因为投票习惯不一样而导致的差异。例如:投票分值分[1,5]档,有些人投4表示非常喜欢, 而有些人会投5表述相同的喜好程度。

    PC的缺点如下:

    1. 如任意User仅投票了一个元素, 则无法使用该公式计算。
    2. 如任意User的每个投票分值均一样, 则无法使用该公式计算。
    3. 计算时没有考虑投票的总数量, 例如User u投票了200 Items,而v仅投票了2Items,则最后有可能还是v与待比较User近似。

    另外PC也经常用作序列趋势的相近程度度量。在检索,推荐系统中经常需要考虑检索结果及推荐商品的季节因素,例如根据往年某一商品的季节特征,预测类似产品的接下来的流行程度。 下图分别为检索词‘吴莫愁’,‘梁博’,‘滑雪’在过去3个月的搜索PV,使用PC度量,很容易得到检索词‘吴莫愁’与‘梁博’的相似度远远大于‘梁博’与‘滑雪’的相似度。

    tread_liangbo_wumochou

    Mahout中参见PearsonCorrleationSimilarity.java

    Spearman Rank Correlation(SRC)

    Spearman Rank Correlation和Pearson Correlation非常类似, 只是SRC没有考虑对User对某具体Item的投票,而是考虑Item 在User所有投票中的相对Ranking。其数学表示为:

    SRC

    其中 k_ui表示User u对Item的投票值在User u所有投票中的Ranking。

    SRC的优点是能够避免每个用户因投票习惯不一致带来的误差, 缺点是计算开销较大(每次计算都需要进行排序)

    Mahout中参见SpearmanCorreleationSimilarity.java。计算复杂度较高。

    Simple Matching Coefficient

    imple Matching Coefficient

    仅考虑数据为二值的情况(0,1)。 如果数据非二值, 则将数据转化为为二值。定义M01为u中属性为0,但v中属性为1的数量,M00表示u,v中属性均为0的数量,M10,M11同理。则SMC定义如下:

    SMC

    例如u=[1,1,0,0],v=[0,1,1,0],则SMC=2/4=0.5

    Jaccard Coefficient

    与SMC计算方式类似,但具体运算公式如下:

    JC

    即仅考虑两个向量中,同一维度上值均为1的数量。该相似度度量公式在文本匹配中也较为常用, 比如在计算两个短字串的相似度时,首先将字符串切词,找到更细粒度的切词结果term,之后以不同的term作为不同维度的属性,使用JC计算相似度。

    Extented Jaccard(Tanimoto)

    extend_JC

    距离度量方式

    该度量方式是最直观的度量方式,一般使用曼哈顿,欧几里得距离度量,而更为广义的是闵科夫斯基度量方式。以Euclidean Distance为例:

    欧几里得距离计算公式

    可简单转化为相似度则表示为:

    欧氏距离转相似度

  • 相关阅读:
    生成括号问题(22)
    Starting Jetty: Exception in thread "main" java.lang.UnsupportedClassVersionError: org/eclipse/jetty/start/Main : Unsupported major.minor version 52.0
    Oracle 使用Nid 修改数据库的DBID 和 Database Name
    Oracle SCN与时间的相互转换
    Oracle 启动 停止JOB
    Apache 负载均衡 端口转发 配置
    Oracle 将 A 用户下所有表的增删改查 赋予 B 用户
    更改表空间及数据文件的名称
    Oracle 缓存命中率问题一则(里面有个问题咨询大佬们)
    更改python版本
  • 原文地址:https://www.cnblogs.com/downtjs/p/3820129.html
Copyright © 2011-2022 走看看