zoukankan      html  css  js  c++  java
  • GWAS基因芯片数据预处理:质量控制(quality control)

    一、数据为什么要做质量控制

    比起表观学研究,GWAS研究很少有引起偏差的来源,一般来说,一个人的基因型终其一生几乎不会改变的,因此很少存在同时影响表型又影响基因型的变异。但即便这样,我们在做GWAS时也要去除一些可能引起偏差的因素。

    这种因素主要有:群体结构、个体间存在血缘关系、技术性操作。

    二、怎么看数据是否需要进行质量控制

    下面分别为样本和SNP位点在数据中的直方图,当数据不在绝大多数的分布当中时,我们会倾向于认为那是测序、人工操作等其他方面造成的误差,而非该个体的真实情况,因此是需要将这些样本和位点过滤掉的。

    这个阈值的设定并没有一个金标准,可参考往年发表的文献的常用阈值。

    1、样本过滤阈值的设定

    2、SNP过滤阈值的设定

    三、怎么进行质量控制

    质量控制包括两个方向,一个是样本的质量控制,一个是SNP的质量控制

    1、样本的质量控制

    样本的质量控制包括:缺失率、杂合性、基因型性别和记录的性别是否一致。

    1)检测缺失率,通常情况下,将样本缺失率大于5%的个体去除

    plink --bfile file --mind 0.05 --make-bed --out file_mind
    

      

    2)检测杂合性

    plink --bfile file --het --make-bed --out file_het
    

      

    3) 检测性别不一致的个体

    plink --bfile file --check-sex --make-bed --out file_checksex
    

      

    4)去除不符合的样本

    将1-3)获得不符合的样本去除

    plink --bfile file --remove removesample.txt --make-bed --out file_qcsample
    

      

    removesample.txt的格式如下:

    FID IID 

    ASN ind1

    ASN ind2

    2、SNP位点的质量控制

    SNP位点的质量控制包括:MAF值、call出率、Hardy-Weinberg Equilibrium

    其命令见如下:

    plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp
    

      

    --hwe指的是不符合哈温伯格平衡的SNP位点,P值小于0.00001;

    --geno指的是基因型缺失率大于2%的样本;

    --maf指的是次等位基因频率低于1%的SNP位点;

    最后,会得出干净的SNP和样本。

    文中图片出处:

    https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf

  • 相关阅读:
    解决Hash冲突的几种方式
    深入理解JDK8中的HashMap
    JAVA中两个int类型的变量在不借助第三个变量的情况下完成值的互换
    Feign调用时读取超时(Read timed out executing GET)解决
    windows上Jenkins安装及其配置
    windows下查看端口被占用及处理
    flutter IOS模拟器无法弹出软键盘
    Android-ION内存管理简介
    移动GPU分类/百科
    ApiGen4.1 windows安装教程
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/10563835.html
Copyright © 2011-2022 走看看