zoukankan      html  css  js  c++  java
  • sam格式

    SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示。

    aln格式,是比对视图化的展示,存储的信息不够结构化,无法方便的作为另外程序的输入。

    SAM则:

    • 非常多序列(read),mapping到多个参考基因组(reference)上;
    • 同一条序列,分多段(segment)比对到参考基因组上;
    • 无限量的,结构化信息表示,包括错配、删除、插入等比对信息;

    SAM分两部分,注释信息(header section)和比对结果部分(alignment section),

    注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有@SQ,参考序列说明;@RG,比对上的序列(read)说明

    比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tag分割。

    必须的字段有11个,顺序固定,不可用时,根据字段定义,可以为’0‘或者’*‘,这是11个字段包括:

    1. QNAME,比对片段的(template)的编号;
    2. FLAG,位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;
    3. RNAME,参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是’*‘;
    4. POS,比对上的位置,注意是从1开始计数,没有比对上,此处为0;
    5. MAPQ,mappint的质量;
    6. CIGAR,简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;
    7. RNEXT,下一个片段比对上的参考序列的编号,没有另外的片段,这里是’*‘,同一个片段,用’=‘;
    8. PNEXT,下一个片段比对上的位置,如果不可用,此处为0;
    9. TLEN,Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0;
    10. SEQ,序列片段的序列信息,如果不存储此类信息,此处为’*‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;
    11. QUAL,序列的质量信息,格式同FASTQ一样。

    可选字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。

    参考来源:

    http://boyun.sh.cn/bio/?p=1890

  • 相关阅读:
    GTK+ 3.6.2 发布,小的 bug 修复版本
    RunJS 新增 Echo Ajax 测试功能
    Mozilla 发布 Popcorn Maker,在线创作视频
    Sina微博OAuth2框架解密
    Mina状态机State Machine
    Mozilla 发布 Shumway —— 纯JS的SWF解析器
    Code Browser 4.5 发布,代码浏览器
    ROSA 2012 "Enterprise Linux Server" 发布
    ltrace 0.7.0 发布,程序调试工具
    Artifactory 2.6.5 发布,Maven 扩展工具
  • 原文地址:https://www.cnblogs.com/bio-mary/p/11647093.html
Copyright © 2011-2022 走看看