关于多重共线性的一点感想

zoukankan html css js c++ java

关于多重共线性的一点感想

来源：https://www.guokr.com/post/815442/

多重共线性是指多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。比如虚拟变量陷阱（英语：Dummy variable trap）即有可能触发多重共线性问题。
————维基百科

在科学研究问题中，共线性绝对是一个很让人头大的问题，只要不是统计学专业，绝对对这个问题有过很长时间的纠结，纠结的问题则是**是否去除变量**，很多情况下，我们使用方差膨胀因子VIF = 1 / (1-R^2) 来处理共线性问题，并且选择10作为处理变量的阈值，如果样本量很大，则选择3，甚至2作为阈值去除变量。如此一来，导致了一些潜在问题，如果变量本身不多，只有3个，去除掉某个变量后自然会使得另外2个变量的影响发生改变，这种改变是否真实则不敢下定论。

虽然本身不是统计学专业，但是从多年数据分析的经验来看，变量之间的相关性是存在的，比如在分类学中，对于头骨标本的测量值，头骨不同部位的测量值之间绝对存在共线性，这种共线性来源于进化发育，不可能有个动物的眼眶长和颅骨长是完全独立发育的；又或者说生态学中，共线性来自于生态系统变量之间的相互作用，降雨量和温度，海拔和气压的关系等都存在共线性。是否说为了解决共线性的问题，我非得去除变量以满足模型假设不可？

最近看了一些关于这个问题的讨论，略有所获，引用知乎慧航的解释：共线性会让人得到不显著的结果，换句话说，如果结果显著，则不必担心共线性的问题。

现在来说，很多手段都可以躲避这个问题，比如主成分回归、岭回归、机器学习等，如果不在乎变量分析，显然这些是更好的手段。从本身从事的专业角度来说，我们也并不追求显著结果，自然科学中没有理论基础的显著性的结果并没有太大意义，尤其是近年来对p值显著性的争论也越来越多。但是我还是非常赞同慧航大神的解释，共线性通过影响变量之间的关系改变模型整体结果。由此，解决共线性的问题就变成了解决模型的问题，如果模型是为了解释变量对于因变量的影响，可以通过模型筛选的手段进行排序，共线性则可以忽略，或者作为一个解释角度引入；如果模型是为了筛选出重要的变量，共线性则作为一种依据，筛选得出影响最大的变量以及对模型的边际影响效果。

查看全文

相关阅读:
蓝桥杯历届试题青蛙跳杯子（BFS）
HDOJ 1233 （克鲁斯卡尔+并查集）
HDOJ 1198
HDOJ 1041 （推公式，大数）水题
 单词接龙
 1284 2 3 5 7的倍数
 2020 排序相减
 isset()和empty()区别
 图像渲染
 Leetcode 328. 奇偶链表

原文地址：https://www.cnblogs.com/lantingg/p/8832109.html