zoukankan      html  css  js  c++  java
  • 皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

    之前《皮尔逊相关系数(Pearson Correlation Coefficient, Pearson's r)》一文介绍了皮尔逊相关系数。那么,皮尔逊相关系数(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)之间有什么关联呢?

    首先,我们来看一下什么是余弦相似度。说到余弦相似度,就要用到余弦定理(Law of Cosine)

    假设两个向量之间的夹角为向量的长度分别是对应的边长为向量减去向量的长度,也就是

    根据余弦定理:

    对上式进行推导:

    这样最终可以得到:

    就是余弦相似度,取值在-1和1之间。如果两个向量方向相反,那么等于-1;如果两个向量方向相同,那么等于1。可以看出,两个向量之间的夹角越小,其夹角余弦越大(越相似)。因此余弦相似度可以用来度量两个变量之间的相似程度。

    上面针对的是二维空间,(x1,y1),(x2,y2)两个向量之间的夹角余弦为:

    扩展到n维空间,(x1,x2,...,xn),(y1,y2,...,yn)两个向量之间的夹角余弦就是:

    如果对上式数据做标准化处理:

    夹角余弦公式就会变为:

    对比皮尔逊相关系数的公式:

    这两者不是完全一样吗?

    因此,我们得到结论:皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦。

  • 相关阅读:
    final有什么用?
    数组的定义
    作业
    List 、Set数据结构
    报表工具实现单据套打
    动态格报表的制作
    图形钻取
    报表工具轻松搞定卡片式报表
    列表钻取
    报表中如何实现不规则布局
  • 原文地址:https://www.cnblogs.com/HuZihu/p/10188595.html
Copyright © 2011-2022 走看看