频数表是将数据集按照某个特定列分类(分组)时观察每个类/组中数据出现次数的表;列联表也是频数表,只不过它会分析的是将数据集按两个或两个以上类别变量联合分组时观察数据在每个分组中出现频数的表,所以又称交叉分类表。
简介
特殊地,如果我们使用样本数据的两个属性构建列联表,而且每个属性只有两个等级,那么我们会得到两行两列的的列联表,又称2 × 2表或四格表。例如对随机抽取的1000个人按照性别(男/女)及色觉(正常/色盲)两个属性分组来构建列联表。一般地,如果我们使用数据集的两个属性A、B来构建列联表,其中A有r个等级A1, A2, …. Ar,B有c个等级B1, B2, …Bc,那么我们最终会得到一个r行c列的列联表,简称r × c表,nij为等级Ai和Bj处的频数。更一般地,如果我们使用多个属性构建列联表时,我们会得到多维列联表。
作用
列联表分析的基本问题是:观察各属性之间是否独立?如在前面的例子中,性别与色盲是否有关系?在r × c表中,若以pi,pj,pij表示数据集中数据属于Ai等级的频数,属于Bj的频数及同时属于AiBj的频数(pi,pj属于边际概率,pij属于格概率),那么“A、B两属性无关”这个假设成立的可表述为H0:pij = pi*pj。
如果变量的无关假设被拒绝了,那么我们需要某种度量来刻画变量间的相关程度,例如对于r × c表,可用列联系数来度量关联的程度。