zoukankan      html  css  js  c++  java
  • 多元线性回归的预测

       回归模型除了对参数进行估计和检验,以弄清楚变量的相关性和因果性之外,另一个目的便是进行预测。

      那么,由OLS方法的出来的预测结果是否可靠呢?预测结果的可靠性又会受什么因素的影响呢?除了点估计的预测结果,能否有区间估计的预测结果呢?

      本文就这些问题,来进行一一探讨

     1.引入why

      回归模型除了对参数进行估计和检验,以弄清楚变量的相关性和因果性之外,另一个目的便是进行预测。

      那么,由OLS方法的出来的预测结果是否可靠呢?预测结果的可靠性又会受什么因素的影响呢?除了点估计的预测结果,能否有区间估计的预测结果呢?

      本文就这些问题,来进行一一探讨

    2.问题具体是什么?what

       

    首先,说明初始的多元线性估计模型:

    (1)

      在多元线性估计的过程中,我们已经得出了线性模型的估计形式

    2),

    其中是我们多元线性回归模型的参数估计值

    那么,现在我们有了模型形式以及参数的估计值。在被给定另一组自变量样本的条件下。

    我们对此时Y的估计为:3

    需要注意的是,上式只是对Y预测值的估计,并非对Y的估计。因为由公式(1)看出,Y是由两部分组成的,只是的估计,模型的随机项是无法估计的。所以我们说3)式只是对Y的预测值的估计。

    那么现在问题来了,我们现在求得的只是一个预测值的估计,那么Y的预测值E(Y0 )的区间估计能否得出,进一步Y的估计区间又能不能得出呢?

    什么?为什么要进行区间估计?很简单,因为只有点估计的话,你根本不知道点估计靠不靠谱,如果告诉你你下次考试预计分数是95,以及90-100这个分数区间包含你下次考试的分数的概率为90%,你觉得那种说法更靠谱呢?

       

    3.解决思路

    构造统计量,该统计量要分别包括E(Y0 )

    对于E(Y0 )的区间估计:

    易知:

    ,

    则可以通过y(hat)服从正态分布,但是方差未知,明显,可以用样本方差来进行t统计量的构建

    对于Y0 的区间估计

    发现

    服从正态分布,我们是知道的,而的分布也是有假设的,那么e0 的分布状况也就能够轻松获得了

    4.解决过程

    对于的区间估计

    对于的区间估计

    注:t分布是由正态分布推导出来的。

    其中,e为样本标准差。

    总结

    可以看出

    1. x0越与估计样本x差异大,区间也就越大,估计也就越不精准,这就是为什么回归模型不适合外推
    2. x的共线性越大, 也就越小,从而 的估计区间也就越大,估计越不精准。
  • 相关阅读:
    【BZOJ 4151 The Cave】
    【POJ 3080 Blue Jeans】
    【ZBH选讲·树变环】
    【ZBH选讲·拍照】
    【ZBH选讲·模数和】
    【CF Edu 28 C. Four Segments】
    【CF Edu 28 A. Curriculum Vitae】
    【CF Edu 28 B. Math Show】
    【CF Round 439 E. The Untended Antiquity】
    【CF Round 439 C. The Intriguing Obsession】
  • 原文地址:https://www.cnblogs.com/pingzeng/p/5036806.html
Copyright © 2011-2022 走看看