zoukankan      html  css  js  c++  java
  • bam文件格式说明

    • bam文件说明
      bam文件和sam文件内容其实是一样的,只是bam是二进制的压缩文件,需要通过特定的软件来进行查看,bam文件通常可以理解为12个字段组成
      BAM格式分为header section(头部分,注释信息,以@开头,可有可无)和alignment section(比对结果)两个部分。
    • alignment section由11个字段组成
      1 序列的名字,也就是reads的名称
      2 是一个标记的数字,是有需要转换成二进制才能知道代表的意思,各个数字分别代表
    `1. 序列是一对序列中的一个`
    `2. 比对结果是一个pair-end比对的末端`
    `4. 没有找到位点`
    `8. 这个序列是pair中的一个但是没有找到位点`
    `16. 在这个比对上的位点,序列与参考序列反向互补`
    `32. 这个序列在pair-end中的的mate序列与参考序列反响互补`
    `64. 序列是 mate 1`
    `128. 序列是 mate 2`
    假如说标记为以上列举出的数目,就可以直接推断出匹配的情况。假如说标记不是以上列举出的数字,比如说83=(64+16+2+1),就是这几种情况值和,可以使用二进制数来表示

    3 参考序列的名字
    4 在参考序列上的位置
    5 mapping qulity 越高则位点越独特,比对的质量值

    bowtie2有时并不能完全确定一个短的序列来自与参考序列的那个位置,特别是对于那些比较简单的序列。但是bowtie2会给出一个值来显示出 这个段序列来自某个位点的概率值,这个值就是mapping qulity。Mapping qulity的计算方法是:Q=-10log10p,Q是一个非负值,p是这个序列不来自这个位点的估计值。
    假如说一条序列在某个参考序列上找到了两个位点,但是其中一个位点的Q明显大于另一个位点的Q值,这条序列来源于前一个位点的可能性就比较大。Q值的差距越大,这独特性越高。
    Q值的计算方法来自与SAM标准格式,请查看SAM总结。

    6 代表比对结果的CIGAR字符串,如37M1D2M1I,这段字符的意思是37个匹配,1个参考序列上的删除,2个匹配,1个参考序列上的插入。M代表的是alignment match(可以是错配),可以理解为表示比对的具体情况
    7 mate 序列所在参考序列的名称,mate一般指大的片段序列
    8 mate 序列在参考序列上的位置
    9 估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。
    10 read的序列
    11 read序列对应的ASCII码格式的碱基质量值
    12 可选的区域 header section
    其中header section用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序@SQ,参考序列说明@RG,比对上的序列(read)说明@PG,使用的程序说明@CO,任意的说明信息。Tag以键值对的形式存在。

    AS:i 匹配的得分
    XS:i 第二好的匹配的得分
    YS:i mate 序列匹配的得分
    XN:i 在参考序列上模糊碱基的个数
    XM:i 错配的个数
    XO:i gap open的个数
    XG:i gap 延伸的个数
    NM:i 经过编辑的序列
    YF:i 说明为什么这个序列被过滤的字符串
    YT:Z
    MD:Z? 代表序列和参考序列错配的字符串
  • 相关阅读:
    斐波那契数列的量化分析
    GridView编辑删除操作
    Linux crontab 命令格式与具体样例
    VB.NET版机房收费系统---组合查询
    XMLHTTP使用具体解释
    Android 在子线程中更新UI的几种方法
    国产操作系统剽窃Linux内核可耻!
    Android的PVPlayer介绍
    稀疏矩阵
    很好的理解遗传算法的样例
  • 原文地址:https://www.cnblogs.com/raisok/p/10917769.html
Copyright © 2011-2022 走看看