搞GWAS和WGS必须要懂Association Test,就像搞genomics必须要懂比对alignment一样。
先从常识理解,Association关联,是一个比correlation还要宽泛的词,我们通常会说某个基因和某个疾病关联,即存在某种关系。
深入本质,在GWAS里的关联其实是human个体的某两个属性之间的关系。
最简单的,计算基因表达矩阵的某两个基因之间的相关性,这种相关性也是某种关联Association。
特别地,对genetics中的GWAS和WGS,我们探寻的是某个variant与疾病的Association。
variant也可以升级为gene等复杂体,但本质是不变得,理解了最基本的variant与疾病的Association的原理,后面基本就都理解了,只是fancy model的读懂需要一定的时间。
Association Tests - 女士品茶部分问题表述不清,不可盲信。
有三种检验可以用:
- Fisher’s exact test - 小样本
- Chi-square Test - 类别型数据
- generalized linear models - 求CI
前两个检验的核心:假设数据是随机分布的,我们观测值出现的概率
最后线性模型的核心:回归的方法
更fancy的model,待续~
经典模型遇到哪些问题?有哪些新的处理办法?
参考:
A Fast Association Test for Identifying Pathogenic Variants Involved in Rare Diseases
Adaptive Combination of P-values (ADA) Algorithm for Case-Control Sequence Data - ADA
http://www.columbia.edu/~ii2135/ - BE_HM
BeviMed: Bayesian Evaluation of Variant Involvement in Mendelian Disease - BeviMed