zoukankan      html  css  js  c++  java
  • 小样本OLS回归的框架

    1 最小二乘法的历史

    不管是学习机器学习、计量经济学、数理统计,很多人接触到的第一个算法就是最小二乘法(least squares method)。

    这是一个非常古老的方法。早在18世纪早期,在天文学和航海领域就已经出现了最小二乘法的思想。真正意义上第一个正式发表该方法是在1806年的法国科学家Legendre,而数学王子Gauss据说在更早时候就发现了该方法,但直到1809年他在发表计算天体运动轨道时才正式使用,两人也为谁是第一个发现的争论不休。

    Gauss毕竟是数学王子,1829年,他又首次证明出,在线性无偏估计量的类中,OLS估计具有最小的抽样方差。在他的证明中,假设了线性回归模型中的误差项是独立且正态分布的,后来,由Markov将假设放宽到只需要误差项不相关、同方差且期望为0即可。因此,该定理最终被命名为Gauss-Markov定理

    2 小样本OLS回归的框架

    做OLS回归是为了什么?简而言之,在假设了数据生成过程\(y=\beta' x+\varepsilon\)并收集到一系列\((x,y)\)的数据之后,我们可以做的事情有3个,这也是我们学习OLS回归的路线:

    • 得到系数的点估计;
    • 判断数据拟合得如何?
    • 得到系数的区间估计,进行假设检验。

    首先,我们先利用数据得到点估计\(\hat{\beta}\),由此还可以得到它的一系列性质,然后,可以通过计算如\(R^2\)等一系列指标来说明拟合得如何,最后,在得到区间估计后,可以对预先的有关于系数的假设进行假设检验。

    2.1 点估计及其性质

    在使用OLS回归之后,可以得到

    \[\hat\beta=(X'X)^{-1}X'y \]

    这就是系数的点估计,可以看下它有什么样的性质。

    首先,它是\(y\)的线性组合,具有线性性,另外,在施加一些假设后,它的条件期望是对系数的无偏估计,即\(\mathbb{E}(\hat\beta|X)=\beta\),而它的方差则由Gauss-Markov定理保证了是最小的,这就是“BLUE”(Best Linear Unbiased Estimator)。

    2.2 拟合优度

    对于拟合优度,基础的指标有中心化或非中心化\(R^2\)

    而对于模型的选择来说,如果用\(R^2\)作为模型选择的标准,则很明显,加入的自变量越多,\(R^2\)就会越高,因此需要用其他的指标。如AIC(Akaike Information Crierion)、BIC(Bayesian Information Crierion)、调整\(R^2\)\(\bar{R}^2\)等,都可以来选择模型。

    2.3 区间估计与假设检验

    若假设\(\varepsilon|X\sim N(0,\sigma^2 I)\)(其中\(\sigma\)未知),则\(\hat{\beta}\)也相应地服从正态分布,因此可以得到它的区间估计。但得到它的区间估计并不是我们的最终目的,我们的最终目的是要检验如\(R\beta=r\)(其中\(R\)\(J\times K\)矩阵)这样的假设是否成立。

    由统计学知识可知,可构造出这样的二次型

    \[\dfrac{(R\hat\beta-r)'(\cdot)(R\hat\beta-r)}{\sigma^2}|X \sim \chi^2_J \]

    上式虽然可以证明它服从\(\chi^2\)分布,但左侧的\(\sigma^2\)我们却不知道,因此我们无法利用上式构造统计量。

    一个解决办法是用\(s^2=\dfrac{1}{N-K}e'e\)估计\(\sigma^2\),可以证明,这样估计是无偏的,即\(\mathbb{E}(s^2|X)=\sigma^2\),且满足

    \[\dfrac{(N-K)s^2}{\sigma^2}|X\sim \chi^2_{N-K} \]

    \[s^2 \perp \!\!\!\!\!\!\! \perp \hat{\beta} |X \]

    因此,我们可以构造一个\(F\)统计量进行检验:

    \[F\equiv \dfrac{(R\hat\beta-r)'(\cdot)(R\hat\beta-r)/J}{s^2}\sim F_{J,N-K} \]

    这样可以联合检验有关系数的\(J\)个线性假设,只需将假设写成\(R\beta=r\)的形式即可。若只需检验一个假设,即\(J=1\),则因\(F_{1,q}\sim t^2_q\),故统计量可化为\(t\)分布,直接进行\(t\)检验即可。

    同名公众号:分析101
  • 相关阅读:
    [SSRS] Use Enum values in filter expressions Dynamics 365 Finance and Operation
    Power shell deploy all SSRS report d365 FO
    display method in Dynamics 365 FO
    How To Debug Dynamics 365 Finance and Operation
    Computed columns and virtual fields in data entities Dynamics 365
    Azure DevOps for Power Platform Build Pipeline
    Create readonly entities that expose financial dimensions Dynamics 365
    Dataentity call stack dynamics 365
    Dynamics 365 FO extension
    Use singletenant servertoserver authentication PowerApps
  • 原文地址:https://www.cnblogs.com/analysis101/p/14492591.html
Copyright © 2011-2022 走看看