zoukankan      html  css  js  c++  java
  • 学习笔记2.1.2

    2>残差的正态性检验:

    Shapiro-Wilk正态性检验【转】

    Shapiro-Wilk (SW) 检验

    介绍

    有多种手段评估数据是否正态分布。分两大类:图形和统计量。图形手段包括q-q plot和p-p plot,统计量手段包括Kolmogorov-Smirnov 检验 and Shapiro-Wilks 检验。

    Samuel Shapiro 和 MartinWilk[2]于1965年提出了Shapiro–Wilk 检验。他们观察到Normal probability plot与线性回归很类似。Normalprobability plot是q-q plot的特例,检查样本数据集是否匹配某正态分布,比如标准正态分布N(0,1)。

    何时使用

    Shapiro-Wilk检验用于验证一个随机样本数据是否来自正态分布。

    在实际使用中,除了Shapiro-Wilk检验的结果,还应配上normal probability plot,提供样本分布形状方面的非量化信息。

    假设

    设 Y1< Y2 < … < Yn 是数量是n的一个排序的样本,需要验证其是否符合正态分布。假设是:

    H0: 样本数据与正态分布没有显著区别。

    HA: 样本数据与正态分布存在显著区别。

    如何检验

    检验使用的统计量W 定义为

    其中

    1.    是样本均值。

    2.  a = (al ,… , an)T 符合以下条件: (Σaiyi )2(n -1) σ2,的最佳线性无偏估计(best linear unbiased estimate, BLUE [3]),σ 是样本来自的正态分布的标准差。 a 的确切值是:

    a=(mT V-1 V-1 m)-1/2mTV-1

    其中矩阵V 是个协方差矩阵(covariance matrix),属于n个标准正态分布的随机变量的顺序统计量(order statistics),m是这些变量的期望组成的向量。

    3.  W的分母是通常使用的(n -1) σ2的一个无偏估计。

    如果样本数据的确来自一个正态分布,统计量W的分子和分母均会趋向一个常数:(n -1) σ2的估计值。对于非正态分布的数据而言,分子和分母通常不会趋向同一个常数。

    统计量W 最大值是1,最小值是na12/(n-1)。

    可以把W看作是顺序排列样本值( yi ) 和系数ai之间相关系统的平方(squared correlation coefficient)或者是线性回归的确定性系数(coefficientof determination R2 for linear regression),它的值越高,越表示样本与正态分布匹配。

    有了统计量,我们就可以设定一显著性水平α(常见的是0.05),然后获得它的分位数或者临界值Wα,如果< Wα则拒绝H0,否则接受H0。如果使用p-value,如果p-value 小于显著性水平α.,则拒绝H0

    注释:

    不幸的是,针对大多数n统计量W的分布是未知的,必须通过模拟,造表或者近似方法(比如Royston的方法[4][5])获得。如下图显示,Samuel Shapiro 和 Martin Wilk 在[2]中为几个不同的样本规模画了W的C.D.F (累积分布函数)曲线。

    在R中的使用方法

    在R中使用此种检验方法很简单。设Y =(y1, . . . , yn)是一数据向量,直接输入命令shapiro.test(Y),就可以获得W的值和对应的p-value。如果p-value 小于设定的显著性水平(比如0.05),就拒绝正态分布假设,否则就不能拒绝。R允许样本规模到5000。

    如下图示,我们用函数rnorm获得一个标准正态分布的随机样本,然后用函数Shapiro.test检验它的正态性。

    结果显示p-value大于显著性水平0.05,所以不能拒绝零假设:样本来自正态分布。

    References

    1.      Statistical Analysis Handbook,Shapiro-Wilk

    http://www.statsref.com/HTML/index.html?shapiro_wilk.html

    2.      Shapiro S S, Wilk M B (1965) AnAnalysis of Variance Test for Normality (Complete Samples). Biometrika,52(3/4), 591-611.

    3.      https://en.wikipedia.org/wiki/Best_linear_unbiased_estimator

    4.      Royston P (1982) An extensionof Shapiro and Wilk's W test for normality to large samples. AppliedStatistics, 31, 115–124.

    5.      Royston P (1992) Approximatingthe Shapiro-Wilk W test for non-normality. Statistics and Computing 2: 117.

  • 相关阅读:
    Visual C# 3.0 新特性概览
    一个C#睡前故事[翻译]
    ASP.NET User Control使用技巧一则
    Visual Studio 2005 调试器的新增功能
    .NET Framework 3.0新特性
    客户端提高WEB页面显示速度的方法
    VS.Net 2005中如何:使用“编辑并继续”
    如何在 VS 2005 里调试 Javascript
    关于DotNES
    Sql语句优化汇总(CSDN上的帖子)
  • 原文地址:https://www.cnblogs.com/wangwp/p/3714678.html
Copyright © 2011-2022 走看看