zoukankan      html  css  js  c++  java
  • chisequre test

    卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
    注意:卡方检验针对分类变量。
    (1)提出原假设:
    H0:总体X的分布函数为F(x).
    如果总体分布为离散型,则假设具体为
    H0:总体X的分布律为P{X=xi}=pi, i=1,2,...
    (2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取
    A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
    其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
    (3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。
    (4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。
    (5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。基于这种思想,皮尔逊引进如下检验统计量
      
    ,在0假设成立的情况下服从自由度为k-1的卡方分布。

     demo:


      

      
    化妆 15(55) 95(55) 110
    不化妆 85(45) 5(45) 90

      
    100 100 200
    如果性别和化妆与否没有关系,四个格子应该是括号里的数(理论值),这和实际值(括号外的数)有差距,理论和实际的差距说明这不是随机的组合。
    应用拟合度公式
      
    =
      
    129.3>10.828
    显著相关,作此推论犯错的概率p<0.001。
     
     

    df: degree of freedom

    df=(C-1)(R-1)  其中c表示 随机变量的数目  R表示样本数目

     

  • 相关阅读:
    json-c初探(一)
    Java程序员跳槽的首选面试题最新合集(2021下半年),初中高级程序员!
    R语言版本的bedtools--bedtoolsr
    使用R语言(cpm包)进行序列变点(change point)检测
    三款PHP大马,已解密、去后门
    php 取出数据表数据放入数组并排序
    VimTutor每讲小结
    记录一下c++学习过程
    vmware fusion关闭自动挂起(suspend)的方法
    mac中安装mysqlclient出错error: command 'clang' failed with exit status 1的解决办法
  • 原文地址:https://www.cnblogs.com/zlfoak/p/5493284.html
Copyright © 2011-2022 走看看