zoukankan      html  css  js  c++  java
  • INDEL的重新比对和碱基质量分数的重新校准

    1.为什么要做这两步(why):

    indel的重新比对:这是由于比对软件的自身限制,其可能将包括indel的read解释为snp的read,这就导致calling的错误和后面的碱基质量分数的重新校准。

    碱基质量分数的重新校准:这是由于测序机器的系统性误差导致的,假设机器能识别5亿个碱基有99%的概率是对,那么也就说有5千万可能是错的,这些错误就可能被作为mutation calling出来,即假阳性。

    2.怎么做的(how):

    indel的重新比对:

    1.先找到需要重新比对的区域:GATK之RealignerTargetCreator。基本思路是用千人基因组计划里面收集的indel数据来作为模板来找出bam文件里面的indel。

    2.重新比对:看哪种比对结果的分数高,就选那一个:GATK之IndelRealigner

    碱基质量分数的重新校准:GATK之BaseRecalibrator

    BaseRecalibrator是如何识别哪些位点应该矫正的:其只矫正非现有的snp的点,即现有已经公布的snp点认为是正确的,不需要矫正。

    参考资料:

    1.https://mp.weixin.qq.com/s/LMZgy_8aJ6cm6VGK9Mud2A

    2.http://www.biotrainee.com/thread-1402-1-1.html

  • 相关阅读:
    窗内的星星
    亚特兰蒂斯
    你能回答这些问题吗
    区间最大公约数
    集训队8月14日(树状数组)
    一个简单的整数问题2
    谜一样的牛
    楼兰图腾
    Eternal Victory
    集训队8月12日(并查集)
  • 原文地址:https://www.cnblogs.com/timeisbiggestboss/p/7929075.html
Copyright © 2011-2022 走看看