统计分析
一元线性回归
(y=eta_0+eta_1x+epsilon)
参数估计方法——最小二乘
其中,(l_{xx}=sum(x_i-ar{x})^2,l_{xy}=sum(x_i-ar{x})(y_i-ar{y})),协方差。
对于一元线性回归样本模型:
(hat{eta}_0,hat{eta}_1)是(eta_0,eta_1)的无偏估计;(hat{sigma}^2) 是 (sigma^2) 的无偏估计。
其中,(SSE=sum(y_i-hat{y}_i)^2)是残差平方和。
方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。协方差衡量两个变量之间的相关性程度。
对于一元正态线性回归的样本模型:
(hat{eta}_0,hat{eta}_1)是(eta_0,eta_1)的无偏估计。
得到了一个实际问题的回归方程后,需要对回归方程进行检验。回归系数的显著性检验就是要检验自变量 (x) 对应变量 (y) 的影响程度是否显著。如果原假设成立,则因变量与自变量之间没有真正的线性关系,也就是说自变量的变化对因变量没有影响。
原假设:(H_0:eta_1=0),如果在假设的拒绝域内,说明一元线性回归效果显著。
(t) 检验法:
给定显著性水平 (alpha),拒绝域为 (|t|ge t_{frac{alpha}{2}(n-2)})。
(F) 检验法:
其中,(SSE=sum(y_i-hat{y}_i)^2)是残差平方和,(SSR=sum(hat{y}_i-ar{y})^2)是回归平方和。
给定显著性水平 (alpha),拒绝域为 (F ge F_{alpha}(1,n-2))。
相关系数检验法:
给定显著性水平 (alpha),拒绝域为 (|r| ge r_{alpha}(n-2))。
多元线性回归
(y=eta_0+eta_1x_1+...+eta_px_p+epsilon)
模型的矩阵表示
参数的最小二乘估计
推导过程:
注意:向量积对列向量 (x) 求导运算法则:
重要结论:
单因素方差分析
问题背景:比较多个总体均值是否相等。
称要比较的总体为因素或因子((A,B,C)),因子所处状态为水平((A_1,A_2,...))。如果在试验中,只有一个因素取不同水平,其他因素保持不变,那么这种试验称为单因素试验。
要比较各总体均值是否一致,就是检验各总体均值是否相同,设第 (i) 个总体的均值为 (mu_i) ,那么要检验的假设为:(H_0:mu_1=mu_2=...=mu_k)。用于检验假设 (H_0) 的统计方法称为方差分析法,其实质是检验若干具有相同方差的正态总体的均值是否相等。若考察的因子只有一个,称为单因子方差分析。
当 (H_0) 为真,(A) 的 (k) 个水平均值相同,称因素 (A) 的各水平间无显著差异,认为因素 (A) 对试验结果影响不显著,可以把 (X_{ij}) 看作来自同一正态总体。
(k: 因素A的水平个数),(n_i: 第i个水平拥有的状态个数)
(S_T:总偏差平方和, S_A: 组间平方和,S_E:组内平方和)
贝叶斯统计
著名统计学家耐曼(Neyman 1894~1981)指出,统计问题中有三种重要信息,分别是:(1)总体信息。即总体分布。(2)样本信息。(3)先验信息。即在抽样之前有关统计推断的一些信息,是在试验之前就已有的信息。
贝叶斯统计学使用了这三种信息,由样本观测值与先验分布,利用贝叶斯公式得到后验分布,于是后验分布融合了样本与先验,形成信息量更丰富的后验信息。
贝叶斯公式的两种常见形式:(1)事件形式的贝叶斯公式(2)密度函数形式的贝叶斯公式。
事件形式的贝叶斯公式
设 (A_1,...,A_n) 是 (S) 的一个划分,对任何事件 (B),有:
(P(A_i)) 是先验,(P(B|A_i)) 是似然,需要根据题目看随机事件符合什么分布。
密度函数形式的贝叶斯公式
贝叶斯统计学的基本观点可以用下面三个观点归纳出来:
- 随机变量 (X) 有一个密度函数 (p(x; heta)),其中 ( heta) 是一个参数,不同的 ( heta) 对应不同的密度函数,(p(x; heta)) 在给定 ( heta) 后是一个条件密度函数,记为 (p(x| heta))。这个条件密度提供的有关 ( heta) 的信息就是总体信息。
- 给定 ( heta) 后,从总体 (p(x; heta)) 中随机抽取样本 (X_1,...,X_n),样本中含有 ( heta) 的有关信息就是样本信息。似然值 (pi(x_1,...,x_n| heta))
- 我们对参数 ( heta) 已经积累了很多资料,经过分析处理,可以获得一些有关 ( heta) 的有用信息,这种信息就是先验信息。先验分布 (pi( heta))
我们关心的是样本给定后,( heta) 的条件密度函数,即后验分布 (pi( heta|x_1,...,x_n))
例1
设事件 (A) 的概率是 ( heta),即 (P(A)= heta)。为了估计 ( heta) 作 (n) 次独立观察,其中事件 (A) 出现次数为 (X)。(P(X=x| heta)=C_{n}^x heta^x(1- heta)^{n-x})。
如果对 ( heta) 没有先验信息,贝叶斯建议用区间 ((0,1)) 上的均匀分布作为先验分布,即:
因为不知道具体 ( heta) 大小,使用 Beta 分布表示先验信息,将先验信息转换为 Beta 分布的参数。[1]
目的是求解后验概率 (P( heta|data)propto P(data| heta)P( heta))
其中,(P(data| heta)) 是二项分布,(P( heta)) 是 Beta 分布。得到:
设 (a^{prime}=a+x),(b^{prime}=b+n-x)
发现,后验分布服从Beta分布,即用B函数表示后验概率:
Beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。 ↩︎