LARS 最小角回归算法简介

zoukankan html css js c++ java

LARS 最小角回归算法简介

最近开始看Elements of Statistical Learning，今天的内容是线性模型（第三章。。这本书东西非常多，不知道何年何月才能读完了），主要是在看变量选择。感觉变量选择这一块领域非常有意思，而大三那门回归分析只是学了一些皮毛而已。过两天有空，记一些ESL这本书里讲的各种变量选择方法在这里。

先讲一下今天看到的新方法，所谓的LARS（Least Angle Regression）。

LARS是大神Efron他们搞出来做变量选择的一套算法，有点像Forward Stepwise（向前逐步回归），但和Forward Stepwise不同点在于，Forward Stepwise每次都是根据选择的变量子集，完全拟合出线性模型，计算出RSS，再设计统计量（如AIC）对较高的模型复杂度作出惩罚，而LARS是每次先找出和因变量相关度最高的那个变量, 再沿着LSE的方向一点点调整这个predictor的系数，在这个过程中，这个变量和残差的相关系数会逐渐减小，等到这个相关性没那么显著的时候，就要选进新的相关性最高的变量，然后重新沿着LSE的方向进行变动。而到最后，所有变量都被选中，估计就和LSE相同了。

LARS的算法实际执行步骤如下：

1. 对Predictors进行标准化（去除不同尺度的影响），对Target Variable进行中心化（去除截距项的影响），初始的所有系数都设为0，此时残差 r 就等于中心化后的Target Variable

2. 找出和残差r相关度最高的变量X_j

3. 将X_j的系数Beta_j 从0开始沿着LSE（只有一个变量X_j的最小二乘估计）的方向变化，直到某个新的变量X_k与残差r的相关性大于X_j时

4. X_j和X_k的系数Beta_j和Beta_k，一起沿着新的LSE（加入了新变量X_k的最小二乘估计）的方向移动，直到有新的变量被选入

5. 重复2，3，4，直到所有变量被选入，最后得到的估计就是普通线性回归的OLS

从上面这个算法可以看出，LARS这个东西明显和OLS, Ridge Regression等给出了Closed-form solutions的模型不同，而是给出了一套对计算机来说非常友好的算法。这也说明了随着计算机能力的强大，现代统计基本上越来越靠近算法，而和模型无关。

这个算法看完以后，我就试图用R实现这套算法，最后还没有美化过的效果图如下，左边是后来找到的Efron他们写的lars包做出来的效果，乍看之下还是很像，但是我发现有一些地方貌似有出入（我的程序似乎有一些变量过早地被选入了。。），目前还不知道哪里出了错，回头仔细看看。至于代码神马的，由于写的太乱了，过两天写的好看一点再发上来.

参考文献：

http://blog.sina.com.cn/s/blog_61f1db170101ca8i.html

LARS 算法简介：https://cosx.org/2011/04/an-introduction-to-lars

热门数据挖掘模型应用入门（一）: LASSO 回归，https://cosx.org/2016/10/data-mining-1-lasso/

查看全文

相关阅读:
线上答题竞赛小程序
 成语答题小程序源码
 lua --- 局部变量
 lua --- 逻辑运算符小结
 Lua --- 输入一个数字，输出阶乘
 lua闭包实现迭代器遍历数组
 lua中的闭包概念的学习笔记
 Unity --- 纹理为什么要设置为2的N次方
 Unity --- 如何降低UI的填充率
 RPG游戏中如何判断敌人是否在玩家的攻击范围之内

原文地址：https://www.cnblogs.com/zhedingbingqin/p/10091342.html