设4个总体的均值分别为$mu_1$、$mu_2$、$mu_3$、$mu_4$,如果要用假设检验来检验它们是否相等,则需要进行$C_{4}^{2}=6$次检验,而且每次检验时犯第Ⅰ类错误的概率会累积,在$95%$的置信水平下,6次检验后置信水平会降低到$0.95^{6}=0.735$。
为了避免这种两两检验带来的问题,我们需要同时考虑所有的问题,也就是方差分析。
方差分析
方差分析(ANOVA)是检验多个总体均值是否相等的方法。虽然它形式上是比较总体均值,但是本质上是研究变量之间的关系。这里的变量中,自变量是分类型的,因变量是数值型的,所研究的关系是是指自变量对因变量的影响。因此,我们可以说:
方差分析是通过检验各个总体均值是否相等来判断分类型自变量对数值型自变量是否有显著影响。
示例
要研究行业是否会显著影响被投诉次数,也就是要检验4个行业被投诉次数的均值是否相等。此处的行业就是分类型自变量,各行业被投诉次数就是数值型因变量。
因素
在方差分析中,所要检验的对象称为因素(factor),因素的不同表现称为水平(treatment),因素的每一个水平都可以看作一个总体,每个因素水平下得到样本数据称为观测值。示例中的行业就是因素,它有4个水平。
基本思想
为了分析分类型自变量对数值型因变量的影响,需要分析数据误差的来源。
因素的不同水平下的均值会有差异,但这种差异有可能是由抽样误差带来的,所以需要检验这种差异是否显著。虽然我们感兴趣的是均值,但我们在判断时需要借助于方差(构造检验统计量),这也是方差分析这一名称的来源。
误差分解
来自于水平内部的数据误差称为组内误差,它是由抽样的随机性造成的随机误差。显然,组内误差只含有随机误差。
来自不同水平之间的数据误差称为组间误差,它可能由抽样造成的随机误差,也可能是由因素的不同水平造成的系统误差。组间误差是随机误差和系统误差的总和。
反映全部数据误差大小的平方和称为总平方和(SST),反映组内误差大小的平方和称为组内平方和(SSE),反映组间误差大小的平方和称为组间平方和(SSA)。
误差分析
如果因素的不同水平对每个水平下的均值没有影响,则组间误差只有随机误差而没有系统误差。组内误差和组间误差的均方之比应该接近1;否则它们的比值就会大于1,当大到某个程度时,就认为因素的不同水平之间存在着显著差异,也即自变量(示例中的行业因素)对因变量(示例中的不同行业的被投诉次数)有显著影响。
由以上的分析可知,在方差分析中,要研究分类型自变量对因变量的影响,在形式上就转化为了检验不同总体(因素的不同水平)的均值是否相等。
基本假定
方差分析有3个基本假定:
1. 每个总体都应符合正态分布;
2. 各个总体的方差$sigma^2$必须相同;
3. 观测是独立的。
方差分析的原假设和备择假设
设因素有k个水平,每个水平的均值为$mu_1,mu_2,cdots,mu_k$,检验均值是否相等,
$H_0:mu_1=mu_2=cdots=mu_k$
$H_1:mu_1,mu_2,cdots,mu_k$不全相等
在基本假定的条件下,如果原假设为真,则由4个总体抽取出来的4个样本均值的抽样分布应如图所示:
如果原假设不成立,则4个样本均值的抽样分布为:
单因素方差分析
只涉及一个分类型自变量的方差分析称为单因素方差分析。
数据结构
提出假设
$H_0:mu_1=mu_2=cdots=mu_k$
$H_1:mu_1,mu_2,cdots,mu_k$不全相等
构造检验统计量
1.计算各样本均值
$$ar{x_i}=frac{sum_{j=i}^{n_i}x_{ij}}{n_i},i=1,2,cdots,k$$
2.计算全部观测值的总均值
$$ar{ar{x}}=frac{sum_{i=1}^{k}sum_{j=1}^{n_i}x_{ij}}{n}$$
3.计算各误差平方和
3.1 总平方和
全部观测值与总均值的误差平方和
$$SST=sum_{i=1}^{k}sum_{j=1}^{n_i}(x_{ij}-ar{ar{x}})^2$$
3.2 组间平方和
各组均值与总均值的误差平方和,它反映自变量对因变量的影响,称为自变量效应。
$$SSA=sum_{i=1}^{k}n_i(ar{x_i}-ar{ar{x}})^2$$
3.3 组内平方和
每个水平的各样本数据与其组均值的误差平方和,它反映自变量之外的其他因素对因变量的总影响,称为残差效应。
$$SSE=sum_{i=1}^{k}sum_{j=1}^{n_i}(x_{ij}-ar{x_i})^2$$
三个平方和之间的关系为:
$$SST=SSA+SSE$$
4.计算统计量
为了消除观测值的多少对于误差平方和的大小的影响,需要用各平方和除以自由度,结果称为均方(mean square),也称方差。
SST的自由度为n-1,SSA的自由度为k-1,SSE的自由度为n-k,n为全部观测值的个数,k为因素水平的个数。
SSA的均方称为组间方差(MSA):
$$MSA=frac{SSA}{k-1}$$
SSE的均方称为组内方差(MSE):
$$MSE=frac{SSE}{n-k}$$
将组间方差与组内方差进行对比,就得到了所需的检验统计量F,当$H_0$为真时,有
$$F=frac{MSA}{MSE} sim F(k-1,n-k)$$
统计决策
判断因素的水平对其观测值是否有显著影响,也就是比较组间方差与组内方差之间的差异大小,将检验统计量$F$的值与给定的$alpha$下的临界值$F_{alpha}$进行比较,就可以作出对原假设$H_0$的决策。
若$F>F_{alpha}$,则拒绝原假设,因素水平对观测值有显著影响;
若$F<F_{alpha}$,则接受原假设,不能认为因素水平对观测值有显著影响。
方差分析表
关系强度的测量
当组间平方和与组内平方和之比比1大到一定程度时,我们认为自变量对因变量有显著的影响,可以用组间平方和占总平方和的比例来度量自变量与因变量之间的关系强度,记为$R^2$:
$$R^2=frac{SSA}{SST}$$
$R^2$的平方根$R$可以测量自变量与因变量之间的关系强度,它与相关系数$r$类似。
方差分析中的多重比较
我们想知道多个总体均值中,究竟是哪两个均值不同,需要使用多重比较方法。,它通过对总体均值之间的配对比较来检验哪些均值之间存在差异。
多重比较方法有很多种,这里介绍最小显著差异方法(LSD),其步骤如下:
双因素方差分析
方差分析中涉及两个分类自变量时,称为双因素方差分析。如果2个因素对因变量的影响是相互独立的,则称为无交互作用的双因素方差分析;如果2个因素结合后产生新的效应,则称为有交互作用的双因素方差分析。
无交互作用的双因素方差分析
数据结构
将一个因素放在行的位置,称为行因素,设有k个水平;另一个因素放在列的位置,称为列因素,设有r个水平。
$ar{x_{icdot}}$是行因素的第i个水平下的观测值的平均值:
$$ar{x_{icdot}}=frac{sum_{j=1}^{r}x_{ij}}{r},i=1,2,cdots,k$$
$ar{x_{cdot j}}$是列因素的第j个水平下的观测值的平均值:
$$ar{x_{cdot j}}=frac{sum_{i=1}^{k}x_{ij}}{k},j=1,2,cdots,r$$
$ar{ar{x}}$所有观测值的总平均值:
$$ar{ar{x}}=frac{sum_{i=1}^{k} sum_{j=1}^{r}x_{ij}}{kr},j=1,2,cdots,r$$
提出假设
对行因素提出的假设为:
$H_0:mu_1=mu_2=cdots=mu_k$
$H_1:mu_1,mu_2,cdots,mu_k$不全相等
对列因素提出的假设为:
$H_0:mu_1=mu_2=cdots=mu_r$
$H_1:mu_1,mu_2,cdots,mu_r$不全相等
检验统计量
需要分别确定行因素和列因素的统计量,从总平方和的分解入手,总平方和是全部样本观测值与总样本均值的误差平方和:
$$SST=sum_{i=1}^{k}sum_{j=1}^{r}(x_{ij}-ar{ar{x}})^2=sum_{i=1}^{k}sum_{j=1}^{r}(ar{x_{i cdot}}-ar{ar{x}})^2+sum_{i=1}^{k}sum_{j=1}^{r}(ar{x_{cdot j}}-ar{ar{x}})^2+sum_{i=1}^{k}sum_{j=1}^{r}(ar{x_{ij}}-ar{x_{i cdot}}-ar{x_{cdot j}}+ar{ar{x}})^2$$
第一项是由行因素产生的误差平方和,记为SSR:
$$SSR=sum_{i=1}^{k}sum_{j=1}^{r}(ar{x_{i cdot}}-ar{ar{x}})^2$$
第二项是由列因素产生的误差平方和,记为SSC:
$$SSC=sum_{i=1}^{k}sum_{j=1}^{r}(ar{x_{cdot j}}-ar{ar{x}})^2$$
第三项是除行因素和列因素外的剩余因素产生的误差平方和,称为随机误差平方和,记为SSE:
$$SSE=sum_{i=1}^{k}sum_{j=1}^{r}(ar{x_{ij}}-ar{x_{i cdot}}-ar{x_{cdot j}}+ar{ar{x}})^2$$
上述平方和的关系是
$$SST=SSR+SSC+SSE$$
SST的自由度为$kr-1$,SSR的自由度为$k-1$,SSC的自由度为$r-1$,SSE的自由度为$(k-1)(r-1)$。
行因素的均方(MSR)为
$$MSR=frac{SSR}{k-1}$$
列因素的均方(MSC)为
$$MSC=frac{SSC}{r-1}$$
随机误差的均方(MSE)为
$$MSE=frac{SSE}{(k-1)(r-1)}$$
检验行变量对因变量的影响,采用统计量$F_R$:
$$F_R=frac{MSR}{MSE} sim F(k-1,(k-1)(r-1))$$
检验行变量对因变量的影响,采用统计量$F_C$:
$$F_C=frac{MSC}{MSE} sim F(r-1,(k-1)(r-1))$$
统计决策
将$F_R$和$F_C$与临界值$F_{alpha}$进行比较。
如果$F_R>F_{alpha}$,则拒绝原假设$H_0:mu_1=mu_2=cdots=mu_k$,行因素对观测值有显著影响;
如果$F_C>F_{alpha}$,则拒绝原假设$H_0:mu_1=mu_2=cdots=mu_r$,列因素对观测值有显著影响。
双因素方差分析表
关系强度的测量
将行因素和列因素的平方和加在一起,可反映两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为$R^2$,其平方根$R$反映了这两个自变量合起来与因变量之间的关系强度:
$$R^2=frac{SSR+SSC}{SST}$$
双因素方差分析的误差平方和比分别进行单因素方差分析时的平方和更小。因为在双因素方差分析中,误差平方和减少了残差效应;而分别作单因素方差分析时,将行因素作为自变量,则列因素被包含在残差中;将列因素作为自变量,则行因素被包含在残差中。因此,进行双因素方差分析要优于分别进行单因素方差分析。
有交互作用的双因素方差分析
如果2个因素搭配在一起会对因变量产生新的效应,就要考虑交互作用带来的影响。
方差分析表
总平方和:
$$SST=sum_{i=1}^{k}sum_{j=1}^{r}sum_{l=1}^{m}(x_{ij}-ar{ar{x}})^2$$
行变量平方和:
$$SSR=rmsum_{i=1}^{k}(ar{x_{i cdot}}-ar{ar{x}})^2$$
列变量平方和:
$$SSC=kmsum_{j=1}^{r}(ar{x_{cdot j}}-ar{ar{x}})^2$$
交互作用平方和:
$$SSRC=msum_{i=1}^{k} sum_{j=1}^{r}(ar{x_{ij}}-ar{x_{i cdot}}-ar{x_{cdot j}}+ar{ar{x}})^2$$
误差平方和:
$$SSE=SST-SSR-SSC-SSRC$$