zoukankan      html  css  js  c++  java
  • BSA分析

    两种算法

    1. 欧氏距离(ED)算法

    image.png
    mut与wt分别代表突变型混池、野生型混池,A、C、G、T表示标记位点各突变型所占测序reads的比例,对于二倍体来说,大部分标记只有两种突变型。

    MMAPPR,ED法是其中一个环节,通过计算不同混池间各突变型的频率距离,采用距离差异来反映标记与目标区域的连锁强度。
    image.png

    2. SNP-index算法

    image.png

    通过寻找混池之间基因型频率的显著差异,用Δ(SNP-index)统计。Marker与性状关联度越强,Δ(SNP-index)越接近于 1。

    通过在基因组上选择一定大小的窗口,如100Kb,通过滑窗法在全基因组水平内对窗口内包含的SNP进行计算,得到两个极端混池Δ(SNP_index)的值,然后对在同一条染色体上的SNP标记的Δ(SNP_index)进行LOESS回归拟合,获得关联的阈值,选择阈值以上的区域作为与性状相关的关联区域,最后通过注释信息找到备选的突变基因。

    SNP-index方法通常需要亲本的测序信息,这样做有两个好处:①排除两个亲本相对于参考基因组共有的SNP,相对于是去除背景噪音的作用,这个也是最主要的作用;②亲本检测出来的SNP是和目标性状直接对应的,这样可以去除一部分SNP index趋近于1但是与目标性状并非连锁的标记。

    ref:
    BSA分析算法中的ED算法和SNP-index有什么区别?

    实操

    1. 上游分析

    • 数据过滤:fastp(快)

    • 比对:bwa +samtools(排序)

    • 去重:sambamba/samtools rmdup/picard MarkDuplicates

    • 变异检测:bcftools(快)/freebayes/GATK

    • 变异过滤:bcftools filter(视具体情况)

    2. 下游分析

    上游偏标准化,下游偏生物学背景。

    • vcf信息提取:vcfR包
      利用vcf中AD(Allele Depth)和GT(Genotype)提取信息,gt基因矩阵包含基因型信息,提取基因数。
    • SNP-index计算与绘图
      利用双亲基因型过滤,根据AD计算SNP-index,再绘制各染色体散点图。
    • ED计算与绘图
      根据公式计算ED,再绘制散点图。

    ref:
    如何使用BSA方法进行遗传定位(水稻篇)

  • 相关阅读:
    celery 转自:https://www.cnblogs.com/pyedu/p/12461819.html
    k8s 学习笔记
    linux 学习笔记3
    yaml initc
    vi 块操作
    curl
    知名IT互联网公司
    ajax 上传文件给webapi(带basic认证)
    C# 后台请求api
    mvc 母版页保持不刷新
  • 原文地址:https://www.cnblogs.com/jessepeng/p/12882706.html
Copyright © 2011-2022 走看看