基于样本分布与理论分布之间的偏离程度构建统计量,得到一个统计量的抽样分布。
判断样本分布与理论分布之间的偏离程度是抽样误差还是实质性变化,具体而言就是样本值与理论值之间的差值是抽样误差造成的还是本身就这样。令样本统计量(O)与总体真值(E)之间的差值作为统计量,用平方(O-E)来表现样本分布与理论分布之间的偏离程度,本来应该用绝对值,但是绝对值不好计算,此时采用平方数但仍有问题:
所以,平方整体下面比上理论值能更真实反应。于是得到了卡方统计量为
其中,0.4566就是卡方值。
准确公式是:
其中,自由度是k-1。
如图:自由度大正态分布,自由度小偏态
注意任意一组的理论次数大于5,即数值大于5。
因为卡方检验本来应用于连续型变量,但在列表中是离散型变量,所以对于大样本可以较好拟合,但是小样本离散型变量要进行矫正,其中Df=1 连续型矫正:
应用于总体分布未知,假设变量之间的关系,用总体数据检验该关系是否存在。
卡方检验用途:
1.适合性检验:拟合优度检验,判断假设变量关系是否存在。
H0:观测量满足XXXX关系,所以满足概率论中关于独立变量的计算,便有一个理论值
H1:观测量满足XXXX关系
操作:假设满足XXXX关系,则可得到理论值,结合实际值再计算出卡方值。
显隐性:在遗传学中,有许多显、隐性比率可以划分为两组的资料,如欲测其与某种理论比率的适合性。
因为显隐性比例自由度是1,所以需要矫正,最后的卡方值为:
多于两组的值可以使用
独立性检验:两个或两个以上变量之间是否有关系
H0:认为独立,所以满足概率论中关于独立变量的计算,便有一个理论值
H1:认为变量之间不相互独立
由2×2推得r×c
因为2×2自由度为1,所以需要矫正:
对于r×c则是:
其中,各变量对应如下所示:
其自由度是:
要注意df=1时进行矫正