zoukankan      html  css  js  c++  java
  • 度量线性相关性之协方差与相关系数

    一、协方差

    可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?(你变大,同时我也变大,说明两个变量是同向变化的)

    协方差定义:Cov(X,Y)=E[(X-E(X))(Y-E(Y))]

    公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(这里求“期望”简单认为就是求均值了)。

    如果X、Y变化方向相同,即当X大于其均值时,Y也大于其均值,当X小于其均值时,Y也小于其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,X变大的时候,Y也变大,X变小的时候,Y也变小,则协方差为正;

    如果X、Y变化方向一直相反,则协方差为负;

    如果X、Y变化方向之间相互无规律,则可能某一时刻(X-E(X))(Y-E(Y))为正,而另一时刻的(X-E(X))(Y-E(Y))为负,累计以后正负项抵消,最后求出的平均值就是协方差,通过协方差的大小,就可以判断两个变量变化同向或者反向的程度了。

    总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

    二、相关系数

    公式翻译一下:相关系数就是用X、Y的协方差除以X的标准差和Y的标准差。(标准差是方差的算术平方根)

    所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

    既然是一种特殊的协方差,那它:

    1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

    2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

    总结一下,对于两个变量X、Y,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。

     
    相关系数只能用来衡量线性相关程度

    参考链接:http://www.mathsisfun.com/data/correlation.html

    一般我们讲的相关系数,其实叫皮尔逊相关系数(Pearson correlation coefficient),wiki关于这个系数的解释是:

    The correlation coefficient ranges from −1 to 1. A value of 1 implies that a linear equation describes the relationship between X and Y perfectly, with all data points lying on a line for which Y increases as X increases. A value of −1 implies that all data points lie on a line for which Y decreases as X increases. A value of 0 implies that there is no linear correlation between the variables.

    case 1:
     
    Four sets of data with the same correlation of 0.816


    如图(右上)所示,非线性相关也会导致线性相关系数很大;
    好吧,你退一步,转而问:如果两个变量的相关系数很大(0.816),那能不能说两者相关呢? 答案还是不能,为什么? 因为如图(右下)所示,很可能是一个离群点(outlier)导致了相关系数变得很大。
    这也不能那也不能,那怎么办?(你一定要画出图来看才行,后面会深入解释)

     
    case 2:
     
     

    上图的相关系数计算结果为0,但你能说冰激凌的销量和温度不相关吗?
    所以, pearson correlation coefficient = 0只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)

    总结:如果两个变量本身就是线性的关系,那么皮尔逊相关系数ok没问题,绝对值大的就是相关性强,小的就是相关性弱;
    但在你不知道这两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,你一定要画出图来看才行,这就是为什么我们说眼见为实和数据可视化的重要性。

    参考链接:

    http://blog.csdn.net/witforeveryang/article/details/42585791

    https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

    理解:在不存在离群点的情况下,相关系数反应的是两个变量之间的线性相关程度,线性相关程度高低与变量之间有没有其他非线性相关性无关。

  • 相关阅读:
    为什么一个字节可以表示的有符号整数的范围是-128~+127?
    redis入门指南(一) ——简介及入门相关
    C Primer Plus(二)
    lua程序设计(一)
    证明:S = 1 + 1/2 + 1/4 + 1/8 + 1/16 + ·······,求证 S = 2
    C Primer Plus (一)
    C语言打印年历
    Spring IoC 自定义标签解析
    CentOS 7 Nacos 集群搭建
    CentOS 7 Zookeeper 和 Kafka 集群搭建
  • 原文地址:https://www.cnblogs.com/guo-xiang/p/7295301.html
Copyright © 2011-2022 走看看