zoukankan      html  css  js  c++  java
  • 【学习笔记】统计分析

    统计分析

    一元线性回归

    (y=eta_0+eta_1x+epsilon)

    参数估计方法——最小二乘

    [hat{eta}_1=frac{l_{xy}}{l_{xx}}\ hat{eta}_0=ar{y}-hat{eta}_1ar{x} ]

    其中,(l_{xx}=sum(x_i-ar{x})^2,l_{xy}=sum(x_i-ar{x})(y_i-ar{y})),协方差。

    对于一元线性回归样本模型:

    (hat{eta}_0,hat{eta}_1)(eta_0,eta_1)的无偏估计;(hat{sigma}^2)(sigma^2) 的无偏估计。

    [hat{sigma}^2 = frac{SSE}{n-2} ]

    其中,(SSE=sum(y_i-hat{y}_i)^2)是残差平方和。

    [var(hat{eta}_1)=frac{sigma^2}{l_{xx}}\ var(hat{eta}_0)=frac{sum_{i=1}^{n}x_i^2}{nl_{xx}}sigma^2 ]

    [cov(ar{y},hat{eta}_1)=0\ cov(hat{eta}_0,hat{eta}_1)=-frac{ar{x}}{l_{xx}}sigma^2 ]

    方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。协方差衡量两个变量之间的相关性程度。

    对于一元正态线性回归的样本模型:

    $$ y_i sim N(eta_0+eta_1x_i, sigma^2) $$

    [hat{eta}_1sim N(eta_1,frac{sigma^2}{l_{xx}}) \ hat{eta}_0 sim N(eta_0, frac{sum_{i=1}^nx_i^2}{nl_{xx}}sigma^2)\ ]

    [hat{y} sim N(eta_0+eta_1x,[frac{1}{n}+frac{(x-ar{x})^2}{l_{xx}}]sigma^2) ]

    (hat{eta}_0,hat{eta}_1)(eta_0,eta_1)的无偏估计。

    得到了一个实际问题的回归方程后,需要对回归方程进行检验。回归系数的显著性检验就是要检验自变量 (x) 对应变量 (y) 的影响程度是否显著。如果原假设成立,则因变量与自变量之间没有真正的线性关系,也就是说自变量的变化对因变量没有影响。

    原假设:(H_0:eta_1=0),如果在假设的拒绝域内,说明一元线性回归效果显著。

    (t) 检验法:

    [t=frac{hat{eta}_1sqrt{l_{xx}}}{hat{sigma}} ]

    给定显著性水平 (alpha),拒绝域为 (|t|ge t_{frac{alpha}{2}(n-2)})

    (F) 检验法:

    [F=frac{SSR}{SSE/(n-2)} ]

    其中,(SSE=sum(y_i-hat{y}_i)^2)是残差平方和,(SSR=sum(hat{y}_i-ar{y})^2)是回归平方和。

    给定显著性水平 (alpha),拒绝域为 (F ge F_{alpha}(1,n-2))

    相关系数检验法:

    [r=hat{eta}_1sqrt{frac{l_{xx}}{l_{yy}}} ]

    给定显著性水平 (alpha),拒绝域为 (|r| ge r_{alpha}(n-2))

    多元线性回归

    (y=eta_0+eta_1x_1+...+eta_px_p+epsilon)

    模型的矩阵表示

    参数的最小二乘估计

    推导过程:

    注意:向量积对列向量 (x) 求导运算法则:

    [frac{d(u^Tv)}{dx}=frac{d(u^T)}{dx}cdot v+frac{d(v^T)}{dx}cdot u ]

    重要结论:

    [frac{d(x^Tx)}{dx}=frac{d(x^T)}{dx}cdot x+frac{d(x^T)}{dx}cdot x=2x ]

    单因素方差分析

    问题背景:比较多个总体均值是否相等。

    称要比较的总体为因素或因子((A,B,C)),因子所处状态为水平((A_1,A_2,...))。如果在试验中,只有一个因素取不同水平,其他因素保持不变,那么这种试验称为单因素试验。

    要比较各总体均值是否一致,就是检验各总体均值是否相同,设第 (i) 个总体的均值为 (mu_i) ,那么要检验的假设为:(H_0:mu_1=mu_2=...=mu_k)。用于检验假设 (H_0) 的统计方法称为方差分析法,其实质是检验若干具有相同方差的正态总体的均值是否相等。若考察的因子只有一个,称为单因子方差分析。

    (H_0) 为真,(A)(k) 个水平均值相同,称因素 (A) 的各水平间无显著差异,认为因素 (A) 对试验结果影响不显著,可以把 (X_{ij}) 看作来自同一正态总体。

    (k: 因素A的水平个数)(n_i: 第i个水平拥有的状态个数)

    (S_T:总偏差平方和, S_A: 组间平方和,S_E:组内平方和)

    贝叶斯统计

    著名统计学家耐曼(Neyman 1894~1981)指出,统计问题中有三种重要信息,分别是:(1)总体信息。即总体分布。(2)样本信息。(3)先验信息。即在抽样之前有关统计推断的一些信息,是在试验之前就已有的信息。

    贝叶斯统计学使用了这三种信息,由样本观测值与先验分布,利用贝叶斯公式得到后验分布,于是后验分布融合了样本与先验,形成信息量更丰富的后验信息。

    贝叶斯公式的两种常见形式:(1)事件形式的贝叶斯公式(2)密度函数形式的贝叶斯公式。

    事件形式的贝叶斯公式

    (A_1,...,A_n)(S) 的一个划分,对任何事件 (B),有:

    [P(A_j|B)=frac{P(A_i)P(B|A_i)}{sum_{i=1}^nP(A_i)P(B|A_i)} ]

    (P(A_i)) 是先验,(P(B|A_i)) 是似然,需要根据题目看随机事件符合什么分布。

    密度函数形式的贝叶斯公式

    贝叶斯统计学的基本观点可以用下面三个观点归纳出来:

    1. 随机变量 (X) 有一个密度函数 (p(x; heta)),其中 ( heta) 是一个参数,不同的 ( heta) 对应不同的密度函数,(p(x; heta)) 在给定 ( heta) 后是一个条件密度函数,记为 (p(x| heta))。这个条件密度提供的有关 ( heta) 的信息就是总体信息。
    2. 给定 ( heta) 后,从总体 (p(x; heta)) 中随机抽取样本 (X_1,...,X_n),样本中含有 ( heta) 的有关信息就是样本信息。似然值 (pi(x_1,...,x_n| heta))
    3. 我们对参数 ( heta) 已经积累了很多资料,经过分析处理,可以获得一些有关 ( heta) 的有用信息,这种信息就是先验信息。先验分布 (pi( heta))

    我们关心的是样本给定后,( heta) 的条件密度函数,即后验分布 (pi( heta|x_1,...,x_n))

    [pi( heta|x_1,...,x_n)=frac{p(x_1,...,x_n, heta)}{p(x_1,...,x_n)}=frac{p(x_1,...,x_n| heta)pi( heta)}{int p(x_1,...,x_n| heta)pi( heta)d heta} ]

    例1

    设事件 (A) 的概率是 ( heta),即 (P(A)= heta)。为了估计 ( heta)(n) 次独立观察,其中事件 (A) 出现次数为 (X)(P(X=x| heta)=C_{n}^x heta^x(1- heta)^{n-x})

    如果对 ( heta) 没有先验信息,贝叶斯建议用区间 ((0,1)) 上的均匀分布作为先验分布,即:

    [pi( heta)= left{ egin{array}{**lr**} 1,0< heta<1\ 0,others end{array} ight. ]

    因为不知道具体 ( heta) 大小,使用 Beta 分布表示先验信息,将先验信息转换为 Beta 分布的参数。[1]

    [operatorname{Beta}(a, b)=frac{ heta^{a-1}(1- heta)^{b-1}}{B(a, b)} propto heta^{a-1}(1- heta)^{b-1} ]

    目的是求解后验概率 (P( heta|data)propto P(data| heta)P( heta))

    其中,(P(data| heta)) 是二项分布,(P( heta)) 是 Beta 分布。得到:

    [P( heta|data)propto heta^x(1- heta)^{n-x}cdot heta^{a-1}(1- heta)^{b-1}\ propto heta^{a+x-1}(1- heta)^{b+n-x-1} ]

    (a^{prime}=a+x)(b^{prime}=b+n-x)

    发现,后验分布服从Beta分布,即用B函数表示后验概率:

    [P( heta|data)=frac{ heta^{a^{prime}-1}(1- heta)^{b^{prime}-1}}{B(a^{prime},b^{prime})} ]


    1. Beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。 ↩︎

  • 相关阅读:
    UITextField最大字符数和最大字节数的限制
    Python profiling
    Glow Android 优化实践
    当 NSDictionary 遇见 nil
    TCP/IP详解2 学习笔记---mbuf
    行业代码获取最近代码
    词语、句子相似度比较
    从word得到表格数据插入数据库(6位行业代码)
    python遍历数组获取下标
    计算机浮点数表示
  • 原文地址:https://www.cnblogs.com/ColleenHe/p/13627727.html
Copyright © 2011-2022 走看看