数据的分析----联列表分析

zoukankan html css js c++ java

数据的分析----联列表分析
概念
通过频数交叉表来讨论两个或多个变量之间是否存在关联，并提供了各种双向表检验和相关性测量。
基本思路和假设检验基本一致，先建立零假设认为变量之间无关联/无差异，然后进行卡方检验通过概率是否达显著水平来判段接受或拒绝零假设。

“精确检验”提供了另外两种计算方法，用于计算通过“交叉表”和“非参数检验”过程得到的统计的显著性水平。这两种方法分别是精确方法和 Monte Carlo 方法，

当数据不能满足使用标准渐近法得出可靠结果所需的基础假设时，这两种方法为获得准确的结果提供了一种手段。仅当您购买了取样和检验时才可用。

从小数据集或者稀疏或失衡的表中得到的渐近结果可能会使人误解。精确检验可使您在不依赖于那些可能与您的数据不符的假设的情况下，获得准确的显著性水平。

例如，某个小城镇中 20 名消防员参加的入职考试的结果显示所有五名白人考生均通过考试，但是黑人、亚洲人和西班牙人考生的结果是混合的。检验“结果独立于种族”的原假设的 Pearson 卡方检验产生 0.07 的渐进显著性水平。这个结果可得出考试结果独立于考生种族这一结论。但是，由于数据仅包含 20 个个案，单元格的期望频率小于 5，所以该结果不可信。Pearson 卡方的精确显著性为 0.04，将得出相反的结论。基于该精确显著性，您可得出考试结果和考生种族相关的结论。这说明了渐近法假设不成立时获得精确结果的重要性。无论数据的大小、分布、松散性或均衡情况如何，精确显著性总是可信的

仅渐进法基于检验统计的渐近分布的显著性水平。通常小于 0.05 的值被认为是显著的。渐进显著性是基于数据集很大的假设。如果数据集较小或者分布较差，那么它可能不会很好地指示显著性。

Monte Carlo精确显著性水平的无偏估计，其计算方法是从与观察到的表具有相同维数和行列界限的参考表集中重复地取样。Monte Carlo 法使您不依赖于渐近法所必需的假设就能估计精确的显著性。当数据集太大而无法计算精确的显著性，但数据又不满足渐近法的假设时，此方法最有用。

置信度级别 (%)

这是估算值的置信度级别，以百分比表示。值必须是小于 100 的正数

样本数
指定为 Monte Carlo 近似值抽样的点数。值必须为正整数。缺省值为 10000。

精确

精确地计算观察到的输出或更极端的输出的概率。通常，认为小于 0.05 的显著性水平是显著的，指示行变量和列变量之间存在某种关系。

每个检验的时间限制设置用于计算每个检验的最大时间限制。如果某个检验超过 30 分钟，将建议您使用 Monte Carlo 方法　　

统计

卡方
对于两行两列的表，请选择卡方以计算 Pearson 卡方、似然比卡方、Fisher 的精确检验和 Yates 修正卡方（连续性修正）。对于 2×2 表，如果表并非源自于包含期望频率小于 5 的单元格的较大表中的缺失行或缺失列，那么计算 Fisher 精确检验。对于所有其他 2×2 表，计算 Yates 修正卡方。对于具有任意行列数的表，选择卡方来计算 Pearson 卡方和似然比卡方。当两个表变量都是定量变量时，卡方将产生线性关联检验。
相关性
对于行和列都包含排序值的表，相关性将生成 Spearman 相关系数 rho（仅数值数据）。Spearman 的 rho 是等级顺序之间的相关性测量。
当两个表变量（因子）都是定量变量时，相关产生 Pearson 相关性系数 r，这是变量之间的线性相关性测量。
名义
对于名义数据（无内在顺序，例如天主教、新教和犹太教），您可以选择列联系数、Phi（系数）以及 Cramér V、Lambda（对称和非对称 Lambda 以及 Goodman 和 Kruskal tau）和不确定性系数。
列联系数
基于卡方统计的相关性测量。值的范围在 0 到 1 之间，其中 0 表示行变量和列变量之间不相关，而接近 1 的值表示变量之间的相关度很高。可能的极大值取决于表中的行数和列数。
Phi 和 Cramer V
Phi 是基于卡方统计的相关性测量，它将卡方检验统计除以样本大小，并取结果的平方根。Cramer V 是基于卡方的关联度量。
Lambda
一种相关性测量，它反映使用自变量的值来预测因变量的值时，误差成比例缩小。值为 1 表示自变量能完全预测因变量。值等于 0 时表示自变量对于预测因变量不起任何作用。
不确定性系数
一种相关性测量，它表示当一个变量的值用来预测其他变量的值时，误差成比例下降的程度。例如，值 0.83 指示如果知道一个变量的值，那么在预测其他变量的值时会将误差减少 83%。程序同时计算不确定性系数的对称版本和不对称版本。
有序
对于行和列都包含已排序值的表，请选择伽玛（对于 2 阶表，为零阶；对于 3 阶到 10 阶表，为条件）、Kendall 的 tau-b 和 Kendall 的 tau-c。要根据行类别预测列类别，请选择 Somers‘ d。
伽玛
两个有序变量之间的对称相关性测量，它的范围是从 -1 到 1。绝对值接近 1 的值表示两个变量之间存在紧密的关系。（

+1 完全正关联

）接近 0 的值表示关系较弱或者没有关系。对于双向表，显示零阶伽玛。对于三向到 n 向表，将显示条件伽玛值。
Somers' d(S)
两个有序变量之间相关性测量，它的范围是从 -1 到 1。绝对值接近 1 的值表示两个变量之间存在紧密的关系，值接近 0 则表示两个变量之间关系很弱或没有关系。Somers ’ d 是伽玛的不对称扩展，不同之处仅在于它包含了未约束到自变量上的成对的数目。还将计算此统计的对称版本。
Kendall 的 tau-b (Kendall's tau-b)
将结考虑在内的有序变量或排序变量的非参数相关性测量。系数的符号指示关系的方向，绝对值指示强度，绝对值越大则表示关系强度越高。可能的取值范围是从 -1 到 1，但 -1 或 +1 值只能从正方表中取得。
Kendall's tau-c (Kendall's tau-c)
忽略结的有序变量的非参数相关性测量。系数的符号指示关系的方向，绝对值指示强度，绝对值越大则表示关系强度越高。可能的取值范围是从 -1 到 1，但 -1 或 +1 值只能从正方表中取得。
按区间标定
当一个变量为分类变量，而另一个变量为定量变量时，请选择 Eta。分类变量必须进行数值编码。
Eta(E)
范围在 0 到 1 之间的相关性测量，其中 0 值表示行变量和列变量之间无相关性，接近 1 的值表示高度相关。Eta 适用于根据间隔尺度测量的因变量（例如，收入）以及具有限定类别数的自变量（例如，性别）。计算两个 eta 值：一个将行变量视为区间变量，另一个将列变量视为区间变量。
测量和检验
Kappa(K)
当两个评分者在估计同一个对象时，Kappa 度量两者的估计之间的一致性。值为 1 表示完全一致。值为 0 表示几乎完全不一致。Kappa 基于一个正方表，其中的行值和列值表示同一个刻度。任何对一个变量具有观测值但对另一变量不具有观测值的单元格都被赋予计数 0。如果两个变量的数据存储类型（字符串或数字）不相同，那么不计算 Kappa。对于字符串变量，两个变量必须具有相同的定义长度。
风险
对于 2 x 2 表，某因子的存在与某事件的发生之间相关性强度的测量。如果该统计的置信区间包含值 1，那么不能假设因子与事件相关。当因子出现很少时，几率比可用作估计或相对风险。
McNemar
两个相关二分变量的非参数检验。使用卡方分布检验响应改变。“之前与之后”设计中的试验干预会导致响因变量发生变化，它对于检测到这些变化很有用。对于较大的正方表，会报告对称性的 McNemar-Bowker 检验。
Cochran's and Mantel-Haenszel 统计(A)
Cochran 和 Mantel-Haenszel 统计可以用于检验二分因子变量和二分响应变量之间的条件独立性，条件是给定一个或多个分层（控制）变量定义的协变量模式。请注意：其他统计逐层计算，而 Cochran 和 Mantel-Haenszel 统计对所有层进行一次性计算。

为帮助您发现数据中有助于显著性卡方检验的模式，交叉表过程显示期望频率和三种可测量实测和期望的频率之间的差异的残差（偏差）。表的每个单元格可以包含选定计数、百分比值和残差的任意组合。

单元格显示

计数
如果行和列变量彼此独立，那么这是实际观察的个案数和期望的个案数。您可以选择隐藏小于指定整数的计数。隐藏的值将显示为 <N，其中 N 是指定的整数。指定的整数必须大于或等于 2，尽管允许指定值 0（表示不隐藏任何计数）。
z-检验
比较列的比例
该选项将计算列属性的成对比较，并指出给定行中的哪对列明显不同。使用下标字母以 APA 样式格式在交叉表中标识显著性差异，并以 0.05 显著性水平对其进行计算。

调整 p 值（Bonferroni 方法）列比例的成对比较使用了 Bonferroni 修正，可在进行了多个比较后调整实测显著性水平。

百分比 百分比值可以跨行或沿列进行相加。还提供表（一层）中表示的个案总数的百分比值。注意：如果在“计数”组中选中了隐藏较小计数，那么还将隐藏与隐藏计数相关联的百分比。残差未标准化的原始残差给出了实测值和期望值之间的差。还提供标准化残差和经过调整的标准化残差。未标准化 (Unstandardized) 观测值与期望值之间的差。如果两个变量之间没有关系，那么期望值是期望在单元格中出现的个案数。如果行变量和列变量独立，那么正的残差表示单元格中的实际个案数多于期望的个案数。标准化(A) 残差除以其标准差的估计。标准化残差也称为 Pearson 残差，它的平均值为 0，标准差为 1。调节的标准化单元格的残差（观测值减去期望值）除以其标准误差的估计值。生成的标准化残差表示为平均值上下的标准差单位。 非整数权重 单元格计数通常为整数值，因为它们代表每个单元格中的个案个数。但是，如果数据文件当前按某个带小数值（例如 1.25）的权重变量进行加权，那么单元格计数也可能是小数值。在计算单元格计数之前可以进行截断或舍入，或为表显示和统计计算都使用小数单元格计数。四舍五入单元格计数(N) 在计算任何统计之前，个案权重按原样使用，但单元格中的累积权重要四舍五入。截断单元格计数(L) 在计算任何统计之前，个案权重按原样使用，但截断单元格中的累积权重。四舍五入个案权重(W) 在使用之前对个案权重进行四舍五入。截断个案权重(H) 在使用之前对个案权重进行截断。无调节个案权重按原样使用且使用小数单元格计数。但是，当需要“精确”统计（仅通过“抽样和检验”提供）时，在计算“精确”检验统计之前，单元格中的累积权重或者截断或者四舍五入
查看全文

相关阅读:
centos从安装到环境配置
 PHP获取上个月、下个月、本月的日期
 js判断是哪种浏览器和阻止页面加载
 jquery中attr和prop的区别
 php curl 提交总结
 合并二维数组，并计算重复字段的平均值
 检测端口和URL状态码判断启动服务
 curl-URL语法传输工具
 HAproxy 2.1.3源码编译问题
 HAproxy 负载均衡器

原文地址：https://www.cnblogs.com/tingtin/p/13355133.html