zoukankan      html  css  js  c++  java
  • 拟合优度检验和独立性检验

    分类数据

    分类数据是对事物进行分类的结果,它虽然是用数值表示,但是数值仅仅反映对象的不同特征,其大小没有意义。分类数据的结果是频数,对其进行统计分析主要利用$chi^2$分布。

     

     

    $chi^2$统计量

    $chi^2$统计量可用于测定2个分类变量之间的相关程度。用$f_o$表示观察值频数,$f_e$表示期望值频数,则

    $$chi^2=sum frac{(f_o-f_e)^2}{f_e}$$

    利用$chi^2$统计量,可以对分类数据进行拟合优度检验独立性检验

     

     

    拟合优度检验

    拟合优度检验(goodness of fit test):

    依据总体分布,计算出各类别的期望频数,与观察频数进行对比,判断两者是否有显著差异,从而对分类变量进行分析。

     

    原假设和备择假设

    $H_0$:观察频数与期望频数一致

    $H_1$:观察频数与期望频数不一致

     

    检验统计量

    $$chi^2=sum frac{(f_o-f_e)^2}{f_e}$$

    自由度为$df=R-1$,R为分类变量的类型的个数。

    在假设检验中,我们在二项分布总体、大样本情况下,对总体比例采用z检验:

    $$z=frac{p-pi_0}{sqrt{frac{pi_0(1-pi_0)}{n}}}$$

    对于总体比例,同样可以使用拟合优度检验(比例可视为2个类别的分类变量)。z检验只能针对二项分布问题,而$chi^2$检验既可以分析二项分布,也可以分析多项分布(对总体的多个比例的假设进行检验)

     

    列联分析:独立性检验

    拟合优度检验是针对一个分类变量的检验,对于两个分类变量,我们会关心它们是否有关联,称为独立性检验,通过列联表的方式呈现。

     

    列联表

    列联表是由2个以上的变量交叉分类的频数分布表。将行变量视为R(3类),列变量视为C(3类),可以把每一个列联表称为R×C列联表。下表为3×3列联表:

     

    独立性检验

    分析列联表中行变量和列变量是否独立。

     

    原假设和备择假设

    $H_0$:不存在依赖关系

    $H_1$:存在依赖关系

     

    计算个单元期望频数值

    $$f_e=frac{RT}{n} imes frac{CT}{n} imes n=frac{RT imes CT}{n}$$

    其中$f_e$是给定单元中的期望频数,$RT$是单元所在行的合计,$CT$是单元所在列的合计,$n$是样本量。

    自由度为$df=(R-1)(C-1)$。

    由于$chi^2>chi^2_{0.05}(4)=9.488$,故拒绝$H_0$,接受$H_1$,地区与等级之间存在依赖关系。

     

     

    列联表中的相关性测量:品质数据的相关系数

    $chi^2$分布可以检验两个分类变量的独立性,如果它们不独立,则相关程度有多大?相关系数表示两个变量之间的相关程度,列联表中的变量是分类变量,它们之间的相关叫做品质相关。常用的品质相关系数有$varphi $系数、$c$系数、$V$系数。

     

    $varphi $相关系数

    描述2×2列联表数据相关程度,计算公式为

    $$varphi =sqrt{frac{chi^2}{n}}$$

     

    每个单元的期望频数为:

    $$e_{11}=frac{(a+b)(a+c)}{n}$$

    $$e_{21}=frac{(a+c)(c+d)}{n}$$

    $$e_{12}=frac{(a+b)(b+d)}{n}$$

    $$e_{22}=frac{(b+d)(c+d)}{n}$$

    $chi^2$值为:

    $$chi^2=frac{a-e_{11}}{e_{11}}+frac{b-e_{12}}{e_{12}}+frac{c-e_{21}}{e_{21}}+frac{d-e_{22}}{e_{22}}=frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$$

    $$varphi =sqrt{frac{chi^2}{n}}=frac{ad-bc}{sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

    当ad=bc时,$varphi$=0,2个变量独立;

    当b=0,c=0时,$varphi$=1,2个变量完全相关;

    当a=0,d=0时,$varphi$=-1,2个变量完全相关;

    因此,对于2×2列联表,$varphi $系数的取值在0~1之间,绝对值越大,相关程度越高。

    对于R或C大于2的列联表,$varphi $值无上限。

     

    列联相关系数

    又称c系数,主要用于大于2×2列联表的情况,计算公式为:

    $$c=sqrt{frac{chi^2}{chi^2+n}}$$

    当2个变量相互独立时,c=0;其最大值小于1,且随着R和C的增大而增大。它对总体的分布没有任何要求,但只有2个列联表的行数列数一致时,用c系数进行比较才有意义。

     

    V相关系数

    $$V=sqrt{frac{chi^2}{n imes min[(R-1),(C-1)]}}$$

    当两个变量相互独立时,V=0;

    当两个变量完全相关时,V=1。

     

    列联分析中应注意的问题

    条件百分表的方向

    一般把$X$(自变量)作为列向量,把$Y$(因变量)作为行向量,便于更好地表现原因对于结果的影响。

     

    $chi^2$分布的期望值准则

    用$chi^2$分布进行独立性检验,要求样本量必须足够大。关于每个单元的频数,有2条准则:

    1. 如果只有2个单元,则每个单元的期望频数$f_e$必须大于或等于5;

    2. 如果有2个以上单元,则要求20%的单元期望频数$f_e$大于或等于5。

    期望频数$f_e$过小,$frac{(f_o-f_e)^2}{f_e}$会不适当地增大,造成对$chi^2$的高估,导致不适当地拒绝$H_0$。将较小的$f_e$合并,可得到合理的结论。

     

  • 相关阅读:
    软件需求阅读笔记二
    寒假小程序开发记录2
    软件需求阅读笔记一
    寒假小程序开发记录1
    软件工程概论课个人总结
    06大道至简阅读笔记
    golang算法——leetcode-46
    实验 5 Spark SQL 编程初级实践
    scala链接数据库Exception in thread "main" java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
    Error:(15, 103) value toDF is not a member of org.apache.spark.rdd.RDD[Employee] .map(attributes => Employee(attributes(0).trim.toInt, attributes(1), attributes(2).trim.toInt)).toDF()
  • 原文地址:https://www.cnblogs.com/zm-pop-pk/p/11424957.html
Copyright © 2011-2022 走看看