线性模型形式简单,易于建模,但却蕴含着机器学习中一些重要的基本思想,许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。
一、线性回归
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在小数据中运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
二、分类学习
现实中常遇到多分类学习任务,有些二分类学习方法可直接推广到多分类,但在更多情形下,我们是基于一些基本策略,利用二分类学习器来解决多分类问题。
线性回归分析
一、 背景和意义
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在小数据中运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
二、模型理论
1.模型的一般表达式
回归分析通过寻找合适的数学表达式,来分析自变量x与因变量y之间的数量关系,进而确定x的变化对y的影响程度。一般的线性回归模型表达式为:
2.模型的假设前提
高斯—马尔可夫假定
l y与x具有线性关系
l 在重复抽样中,x的取值是固定的,即假定x是非随机的
l 误差项的期望为0
l 同方差。对于所有的x值,残差的方差相同,也就意味着,y的方差也相同
l 残差服从正态分布,且相互独立。即不同x所对应的不相关,也就意味着不同x下的y也不相关
3.参数的估计方法
最小二乘法
以一元线性回归方程为例:
模型方程:
估计方程:
离差:,实际上
的值就等于
的值。
离差平方和:
注:带^符号的参数和变量均为估计值
最小二乘法就是使离差平方和最小,即:
(1.1)
求和
使式子(1.1)最小,可使用对该式子对
和
分别求偏导,令其等于0,即可。类似的,在多元线性回归中有多个
,用同样的方法对多个
求偏导,令其等于0,联立方程组求出
即可。
4.对回归结果的评价
(1)拟合优度
l R2:衡量多元回归方差拟合度的统计量,反应在y的变差中被估计的回归方程所解释的比例。
l 注1:自变量增加会使R2也增加,即增加自变量会使R2被高估,因此有调整R2a,,其中n为样本量,k为自变量个数。
l 注2:当自变量个数多余6个时,需使用调整R2,R2与调整R2的差值称为模型存在冗余,一般差异大于10%时,即认为有很高的冗余。
(2)显著性检验
l F检验:用来检验y与x的线性关系是否显著,但并不意味着每个x与y的关系都显著。其中F统计量的计算公式为,
l t检验:回归系数检验,对每个回个系数分布进行单独的检验,用于检验每个x对y的影响是否都显著。,其中
,自由度n-k-1。
(3)残差分析,判断估计的好坏,需满足:
l 无偏性,残差与不相关(也就是残差与x不相关,因为
包含了所有的x)
l 有效性,方差=1
l 一致性,服从正态分布
(4)多重共线性的判断
l 判断多重共线性:1)模型中各对自变量之间显著相关;2)F检验显著,但t检验基本都不显著;3)回归系数方向与预期相反;4)容忍度与方差扩大因子。
l 容忍度=1-该自变量与其他自变量的线性回归模型的判定系数,即。容忍度越小,多重共线性越严重,通常认为小于0.1时,存在严重多重共线性。
l 其中,为该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系数。
l 方差扩大因子(VIF),容忍度的倒数,即。VIF越大,多重共线性越严重。
(5)标准化β系:用于判断影响因素的主次关系
l 数计算公式:
l
l 意义:表示自变量的变化程度对因变量变化程度的影响程度,即自变量变化一个单位标准差,对因变量标准差的影响
三、案例分析
见操作