zoukankan      html  css  js  c++  java
  • 关于多重共线性的一点感想

    来源:https://www.guokr.com/post/815442/

    多重共线性是指多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。比如虚拟变量陷阱(英语:Dummy variable trap)即有可能触发多重共线性问题。
    ————维基百科

    在科学研究问题中,共线性绝对是一个很让人头大的问题,只要不是统计学专业,绝对对这个问题有过很长时间的纠结,纠结的问题则是**是否去除变量**,很多情况下,我们使用方差膨胀因子VIF = 1 / (1-R^2) 来处理共线性问题,并且选择10作为处理变量的阈值,如果样本量很大,则选择3,甚至2作为阈值去除变量。如此一来,导致了一些潜在问题,如果变量本身不多,只有3个,去除掉某个变量后自然会使得另外2个变量的影响发生改变,这种改变是否真实则不敢下定论。

    虽然本身不是统计学专业,但是从多年数据分析的经验来看,变量之间的相关性是存在的,比如在分类学中,对于头骨标本的测量值,头骨不同部位的测量值之间绝对存在共线性,这种共线性来源于进化发育,不可能有个动物的眼眶长和颅骨长是完全独立发育的;又或者说生态学中,共线性来自于生态系统变量之间的相互作用,降雨量和温度,海拔和气压的关系等都存在共线性。是否说为了解决共线性的问题,我非得去除变量以满足模型假设不可?

    最近看了一些关于这个问题的讨论,略有所获,引用知乎慧航的解释:共线性会让人得到不显著的结果,换句话说,如果结果显著,则不必担心共线性的问题。

    现在来说,很多手段都可以躲避这个问题,比如主成分回归、岭回归、机器学习等,如果不在乎变量分析,显然这些是更好的手段。从本身从事的专业角度来说,我们也并不追求显著结果,自然科学中没有理论基础的显著性的结果并没有太大意义,尤其是近年来对p值显著性的争论也越来越多。但是我还是非常赞同慧航大神的解释,共线性通过影响变量之间的关系改变模型整体结果。由此,解决共线性的问题就变成了解决模型的问题,如果模型是为了解释变量对于因变量的影响,可以通过模型筛选的手段进行排序,共线性则可以忽略,或者作为一个解释角度引入;如果模型是为了筛选出重要的变量,共线性则作为一种依据,筛选得出影响最大的变量以及对模型的边际影响效果。

  • 相关阅读:
    [LeetCode] 464. Can I Win 我能赢吗
    [LeetCode] 255. Verify Preorder Sequence in Binary Search Tree 验证二叉搜索树的先序序列
    [LeetCode] 244. Shortest Word Distance II 最短单词距离 II
    [LeetCode] 245. Shortest Word Distance III 最短单词距离 III
    [LeetCode] 243. Shortest Word Distance 最短单词距离
    [LeetCode] 229. Majority Element II 多数元素 II
    [LeetCode] 291. Word Pattern II 词语模式 II
    [LeetCode] 290. Word Pattern 单词模式
    C#中对 XML节点进行添加,删除,查找和删除操作
    VS2010在C#头文件中添加文件注释的方法(转)
  • 原文地址:https://www.cnblogs.com/lantingg/p/8832109.html
Copyright © 2011-2022 走看看