zoukankan      html  css  js  c++  java
  • 【机器学习】相关分析与回归分析基础

    基础知识

    变量定义

    在研究变量关系的过程中,通常对于被研究的变量,称为因变量,也称为被解释变量,一般用Y表示。其它用来说明或解释因变量变化的变量称为自变量,也称为解释变量,用X表示。自变量可以有一个,也可以有多个。例如,如果我们想预测销售收入,则销售收入就是我们这次研究的因变量,如果我们是通过广告费的支出来预测销售收入,则广告费支出就是自变量。如果预测销售收入时,还要考虑销售价格或销售人员的数量的影响,那么,销售价格或销售人员的数量这两个因素也都称为自变量,即有两个自变量。

    变量之间的关系

    在统计学中,依据变量与变量之间的联系或依存的类型不同,一般将变量之间的关系划分为函数关系和相关关系两种。

    1.相关关系
    所谓相关关系,是指变量的数值之间存在着非严格的依存关系。就是说,当一个变量或几个变量取定一个数值时,另一个对应变量的数值是不确定的。但是,该变量的数值却是随着前述变量的所取数值而发生一定的变化规律。例如,人的身高与体重之间的关系就属于相关关系。就全社会而言,对于具有同样身高的人,体重的数值未必相同。也就是说,同样的身高数值对应的体重数值是不确定的。但是体重数值却是随着“身高越高,体重越重”这个一般的规律而变化。因此两者是一种相关关系。当给定一个房屋面积时,房屋的出租价格是不确定的。但是,出租价格却是依据房屋面积的大小而变化。

    如果变量之间存在相关关系,可能包含以下几种情况:
    1、变量之间存在着因果关系。例如,产量与单位成本的相关关系就是一种因果关系,其中产量变动在前是原因,单位成本的变动在后是结果。粮食的产量与施肥量的关系也是一种因果关系,施肥量是原因,产量是结果。
    2、变量之间存在着相互依存的关系。例如,一个城市的货运量与该城市的国内生产总值具有相关关系,但在货运量与国内生产总值的变动中,很难确定哪一个是原因哪一个是结果,两个变量之间是相互依存的关系。
    3、变量之间只是存在着数值的统计关系,或者说是虚假关系。例如,有人将某段时间的香烟销售量与人口的期望寿命数据进行计算,发现两个变量之间具有正的相关关系:香烟销售量越来越多,人口的期望寿命也越来越高。这种相关关系就是典型的虚假相关。首先要定性分析,只有在科学理论上能够解释变量之间确实有联系,才能认为变量的数值之间存在着相关关系。否则,不能使用这种虚假的相关关系作任何的推测或预测。

    在客观现实中,许多现象之间都存在着某种相互联系或相互依存的关系。例如,降雨量与云层厚度之间的关系,居民收入增长率与物价指数的关系,人的身高和体重的关系,汽车行使速度与行使里程之间的关系,圆的面积与圆的半径之间的关系等。现象与现象之间的关系如果使用数量来描述,就形成变量与变量之间的关系。2.

    2.函数关系
    所谓函数关系,是指各变量之间的数值依一定的函数形式所形成的一一对应关系。也就是说,当一个变量或几个变量取一定的值时,另一个变量有一个确定的值与之相对应。例如,当给出圆的半径r时,就可以根据S=πr2,计算出圆面积S;反之,给定圆的面积S,同样根据S=πr2,可以计算出圆的半径r。因此说,圆面积S与圆半径r是函数关系。类似地,当某种商品的销售价格保持不变时,销售额与销售量也可以看作是函数关系。给定销售量就可以知道销售额,有了销售额就可以知道销售量。变量之间的函数关系在自然科学中是普遍存在的。在数学、物理学和化学中有许多严格的定理和公式,这些定理和公式揭示了变量之间存在的相互关系,冥王星的发现就是万有引力定律的最好应用。

    在分析多组数据之间的关系时,首先需要通过相关分析确定数据之间的相关关系,然后再通过回归分析确定数据之间的函数关系。这就引出了相关分析与回归分析。

    相关与回归分析关系

    在研究因变量时,一方面需要研究哪些变量与因变量相关以及关联程度的强弱,这种研究可以称为相关分析。另一方面需要研究因变量与自变量之间是否具有某种数量关系,确定因变量与自变量之间的数学模型,这种研究称为回归分析。

    相关分析与回归分析有着密切的联系,它们不仅具有共同的研究对象,而且基础理论也具有一致性。在对变量研究时经常需要它们相互补充。相关分析要为变量之间建立回归模型提供依据;回归分析揭示出变量相关的具体形式。只有当变量之间存在着高度相关时,进行回归分析才可能是正确的。同理,只有通过回归模型掌握了变量之间关联的具体形式,相关分析才有意义。

    虽然相关分析与回归分析经常同时使用,但是,它们在研究目的和方法上还是有着明显区别的。首先,在研究目的上不同。进行相关分析是为了得到变量间的关联程度;二回归分析是为了得到因变量与自变量的关系模型。其次,在进行相关分析时,一般不需要区别因变量和自变量,且两种变量都属于随机变量;而建立回归模型却必须去边因变量和自变量,并且因变量是随机变量,自变量被看作是确定性变量。

    那么如何量化变量之间的相关程度?两个变量间线性关系的程度。用相关系数r(-1 ——  1)来描述。

    • 正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;
    • 负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
    • 无线性相关:r=0。

    相关程度根

    ·|r|>0.95 存在显著性相关;

    ·|r|≥0.8 高度相关;

    ·0.5≤|r|<0.8 中度相关;

    ·0.3≤|r|<0.5 低度相关;

    ·|r|<0.3 关系极弱,认为不相关。

    python1如何计算相关系数

    回归分析

    回归分析(regression analysis)通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的工具,可以确定两种或两种以上变量间相互依赖的定量关系的一种方法,在机器学习中是重要的一个模块,在sklearn机器学习库中有广泛的算法实现,如OLS,脊回归等,回归分析的研究范围:

    回归分析分类

    按变量的多少划分:
    如果只研究两个变量之间的相关关系则称为单相关,对这两个变量所做的回归分析叫一元回归,也称为简单回归。其中一个变量是因变量,另一个变量是自变量。当所研究的是一个变量与两个或两个以上变量的相关关系时,称为复相关。对这些变量所作的回归分析就称为多元回归,其中一个变量是因变量,其它变量是自变量。

    按相关与回归的形式划分:
    当变量之间的关系可以通过线性方程表达时,它们的关系就是线性相关,对此进行的回归分析称为线性回归。反之,称为非线性相关,相应的回归分析称为非线性回归。在只有两个变量时,线性关系体现为直线关系,非线性关系体现为曲线关系。通过散点图可以直接观察变量之间是否具有线性关系。

    多重线性回归:

    如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关性,此时称为多重线性回归分析。

    如果我们要预测的数据模型中,自变量之间存在多重共线性时,那么再使用最小二乘法进行权重参数求解不会准确,消除多重共线性的参数改进估计方法主要有岭回归和主成分回归。

     注意:线性回归的入手一般会根据最小二乘法,但是如果结果不好的话,要考虑多变量之间是否存在多重线性相关性。

    常见的回归模型:

     

    参考:

    相关与回归分析基础

    Python数据分析与挖掘实战

  • 相关阅读:
    VysorPro助手
    Play 2D games on Pixel running Android Nougat (N7.1.2) with Daydream View VR headset
    Play 2D games on Nexus 6P running Android N7.1.1 with Daydream View VR headset
    Native SBS for Android
    ADB和Fastboot最新版的谷歌官方下载链接
    How do I install Daydream on my phone?
    Daydream Controller手柄数据的解析
    蓝牙BLE传输性能及延迟分析
    VR(虚拟现实)开发资源汇总
    Android(Java)控制GPIO的方法及耗时分析
  • 原文地址:https://www.cnblogs.com/-wenli/p/12863166.html
Copyright © 2011-2022 走看看