现实中常常需要挖掘两种因素之间的关联,Welch's t检验很适合其中的nomial-numerical的关系挖掘。比如天气状况对销量的影响,或者天气情况对交通流量的影响等等。我们可以按照下雨/不下雨将样本总体划分为两个样本,然后对比这两个样本的情况下numerical型变量的均值差异的显著性。下面以天气情况对销量的影响为例,使用Welch's t检验来分析。
假定样本$S_i={X_t|W_t=w_i}; i=1,2; w_1=下雨, w_2=不下雨$,计算这两个样本的统计$t$变量和自由度变量$ u$如下:
$t=frac{ar{X_1}-ar{X_2}}{sqrt{frac{s_1^2}{N_1}+frac{s_2^2}{N_2}}}$
$ u=frac{(frac{s_1^2}{N_1}+frac{s_2^2}{N_2})^2}{frac{s_1^4}{N_1^2(N_1-1)}+frac{s_2^4}{N_2^2(N_2-1)}}$
其中$ar{X_i}, s_i, N_i, i=1,2$分别为两个样本的均值、标准差、样本个数。
根据计算出来的$t$和$ u$以及t分布表http://www.sjsu.edu/faculty/gerstman/StatPrimer/t-table.pdf选择合适的阈值即可按二元关系的显著性进行过滤。
引用文献:
[1] Welch's t test: http://en.wikipedia.org/wiki/Welch%27s_t_test
[2] Student's t Distribution: http://en.wikipedia.org/wiki/Student's_t-distribution