zoukankan html css js c++ java

bam文件格式说明

bam文件说明
bam文件和sam文件内容其实是一样的，只是bam是二进制的压缩文件，需要通过特定的软件来进行查看，bam文件通常可以理解为12个字段组成
BAM格式分为header section（头部分，注释信息，以@开头，可有可无）和alignment section（比对结果）两个部分。
alignment section由11个字段组成
1 序列的名字，也就是reads的名称
2 是一个标记的数字，是有需要转换成二进制才能知道代表的意思，各个数字分别代表

`1. 序列是一对序列中的一个`
`2. 比对结果是一个pair-end比对的末端`
`4. 没有找到位点`
`8. 这个序列是pair中的一个但是没有找到位点`
`16. 在这个比对上的位点，序列与参考序列反向互补`
`32. 这个序列在pair-end中的的mate序列与参考序列反响互补`
`64. 序列是 mate 1`
`128. 序列是 mate 2`
假如说标记为以上列举出的数目，就可以直接推断出匹配的情况。假如说标记不是以上列举出的数字，比如说83=（64+16+2+1），就是这几种情况值和，可以使用二进制数来表示

3 参考序列的名字
4 在参考序列上的位置
5 mapping qulity 越高则位点越独特，比对的质量值

bowtie2有时并不能完全确定一个短的序列来自与参考序列的那个位置，特别是对于那些比较简单的序列。但是bowtie2会给出一个值来显示出 这个段序列来自某个位点的概率值，这个值就是mapping qulity。Mapping qulity的计算方法是：Q=-10log10p，Q是一个非负值，p是这个序列不来自这个位点的估计值。
假如说一条序列在某个参考序列上找到了两个位点，但是其中一个位点的Q明显大于另一个位点的Q值，这条序列来源于前一个位点的可能性就比较大。Q值的差距越大，这独特性越高。
Q值的计算方法来自与SAM标准格式，请查看SAM总结。

6 代表比对结果的CIGAR字符串，如37M1D2M1I，这段字符的意思是37个匹配，1个参考序列上的删除，2个匹配，1个参考序列上的插入。M代表的是alignment match(可以是错配)，可以理解为表示比对的具体情况
7 mate 序列所在参考序列的名称，mate一般指大的片段序列
8 mate 序列在参考序列上的位置
9 估计出的片段的长度，当mate 序列位于本序列上游时该值为负值。
10 read的序列
11 read序列对应的ASCII码格式的碱基质量值
12 可选的区域 header section
其中header section用不同的tag表示不同的信息，主要有@HD，说明符合标准的版本、对比序列的排列顺序；@SQ，参考序列说明；@RG，比对上的序列（read）说明；@PG，使用的程序说明；@CO，任意的说明信息。Tag以键值对的形式存在。

AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在参考序列上模糊碱基的个数
XM:i 错配的个数
XO:i gap open的个数
XG:i gap 延伸的个数
NM:i 经过编辑的序列
YF:i 说明为什么这个序列被过滤的字符串
YT:Z
MD:Z? 代表序列和参考序列错配的字符串

查看全文

相关阅读:
linux 杂类
 set
C++ 基础杂类
 linux 添加samba账户
 git 常用命令
 git 设置bitbucket 邮箱、用户
 C++ shared_ptr
git 免密码配置
 2014的新目标
 为/Date(1332919782070)/转时间2013-09-23

原文地址：https://www.cnblogs.com/raisok/p/10917769.html