zoukankan      html  css  js  c++  java
  • 回归分析|r^2|Se|变差|多重相关系数|决定系数|多重共线性|容忍度|VIF|forward selection|backward elimination|stepwise regression procedure|best-subset approach|回归方程的置信区间|预测区间|残差分析|虚拟变量

    应用统计学-回归分析

     

    拟合度使用r^2Se来检验。

     

    显著性检验中,对于线性model使用ANOVA,对于单独的回归系数使用t检验。

     

     

    最小二乘法、贝叶斯和最大似然都可用于求回归参数,最小二乘法是最小化残差平方和。

    基于model影响变差的因素有随机误差和自变量x

    因为R^2=SST/SSE,所以取值在(0,1)。而Adjusted R^2=MST/MSE,其中SST自由度是n-1SSR自由度是k,则SSE自由度是n-k-1

    多重相关系数 (multiple correlation coefficient) 又称复相关系数是因变量与所有自变量之间的关系。而相关关系是两两之间的关系。 

     

    因为:T(n)=(f(1,n))^1/2所以

     

     多重共线性可能会误导结果,有可能变弱甚至变负。

    下面情况暗示存在多重共线性,Model显著但是单独的回归系数却不显著。

     

    容忍度和y无关

     

    变量数目变大,比如加入细节性分类,则误差变小。

     

    可以使用如下方法确定变量种类:

     向前是加入就不能删去。

    向后是删去就不能加入。

    逐步回归是向前向后相结合,一进一出。

    最佳子集是k种因素可以组成2^k个子集,考虑所有组合方式,得到最佳的方式。

    在确定了变量种类之后,可以使用f检验来查看是否显著,

     

    对个别值的预测需要还原到原始分布,对平均值的预测不需要,所以范围更小。

     

     

     

    输入数据要在预测范围内,否则造成误导。

    残差分析:

     

    2SD范围内为满意模式,但是不能轻易删除outlier,比如下图就是某点影响了总体趋势。

     

    虚拟变量是将类别变量赋值,加入model,使用regression

  • 相关阅读:
    expect
    grep
    Python函数
    Python的set
    Python字典
    Python循环
    Python条件判断
    Python列表
    Python字符串
    Python组织代码块的形式
  • 原文地址:https://www.cnblogs.com/yuanjingnan/p/11735093.html
Copyright © 2011-2022 走看看