PacBio下机数据如何看？

zoukankan html css js c++ java

PacBio下机数据如何看？
一开始拿到三代测序的下机数据时，蒙了，readme ？三代测序的下机数据都有哪些，以及他们具体的格式是怎么样的（以sequel 平台为主）。

测序过程

SMRTbell

A adapter通用接头，两端的接头可以一样也可以不一样
B barcode(客户自己设计)
I insert 插入片段，即我们测序的目的片段
由于SMRTbell是环状的，测序过程是边合成边测序，因此可以沿着新链合成的方向不停地读取序列，读取一圈又一圈，直到聚合酶累趴下了…

测序结果

根据SMRTbell的形状以及测序的过程，我们容易知道，测序出来的reads如上图所示，由接头序列, 条码序列, 插入序列间隔线性分布，即ABIB-ABIB—ABIB-ABIB—…（A: adapter, B: barcode, I: insert）
ZMW read 是测序出来的完整结果，也即是polymerase read，聚合酶合成过的所有的序列。
PostPrimary 分析后输出HQ region，由ZMW read 去除两端低质量区域得到。

收到的测序文件

RS II

Sequel

在下机文件中，主要有三类文件，bam 文件，bam.pbi 文件，以及xml文件。
当我们习惯性的去寻找熟悉的fastq格式文件做分析时，忽然发现找不到了，因为在sequel平台中bam 文件成为了它的替代者，因为其更节约储存空间。这是文件格式的一个重大更新。
用于后续分析的文件一般是.subreads.bam，这等同于RS II 中的.subreads.fastq
下面仔细聊聊三类主要文件的具体格式，以及他们分别干什么活的。

Pacbio 的BAM 文件格式

我们平常见到的bam文件大多是比对结果文件，例如用重测序分析中BWA生成的bam文件就是reads与基因组的比对文件。但pacbio的下机文件是没有与基因组进行过比对过的，其主要作用就是储存序列。
Bam文件主要分为两个部分，头一部分是Header，储存测序的相关信息，另一部分也即是文件的主要部分是records，这里头保存了我们的序列信息。我们这里就以subreads.bam文件为例，分析下bam文件的具体格式。
可以用samtools view 命令查看bam文件

第一列：reads信息
{movieName}/{holeNumber}/{qStart}_{qEnd}
[对于CCS：{movieName}/{holeNumber}/ccs]
MovieName 是cell的名字，holeNumer是ZMW孔的编号，qStart和qEnd是subreads相对于ZMW reads的位置。
第二列 (sum of flags)：比对信息均为4 代表没有比对上，也表明了bam文件只储存了序列信息，而没有比对信息。
第三列 (RNAM)：参考序列值为，代表无参考序列
第四列 (position) : 比对上的第一个碱基位置 0
第五列 (Mapping quality) : 比对质量分数 255
第六列 (CIGAR值) : 比对的具体情况
第七列 (MRNM, ) : mate 对应的染色体
第八列 (mate position) : mate对应的位置 0
第九列 (ISIZE, Inferred fragment size) : 推断的插入片段大小 0
第十列 (Sequence) : 序列信息具体的ATCG
第十一列 (ASCII码) : 碱基质量分数 ASCII+33
第十二列 : 可选区域记录Reads 的总体属性包括信号长度，信号强度等信息。

BAM 文件分别都是些什么？
1. zmws.bam 以及ccs.bam似乎公司并不一定会提供
2. 经过检查，一条zmw reads 可以产生多条 subreads，也就是说subreads.bam 中，序列只是被剪下来了。
3. scraps.bam 格式保存的是获取subreads时废弃的序列，包括adapter，以及一些低质量的序列
4. CCS.bam保存的是矫正后的一致性序列。
BAM.pbi 文件

是bam文件的索引文件(PacBio BAM index)，与上一个版本（RS II）的*cmp.h5文件兼容，其格式类似于HDF5，通过BGZF格式压缩。
其存在主要有两个作用

随机访问

通过参考序列，基因组区域
通过read 组别
通过qurey name
通过ZMW
通过barcode
其他

在无需完全访问BAM文件的情况下，获取信息

获取统计信息

通过提供index访问记录信息

XML 文件

MetaData, 储存数据描述。可用于filter 或者subset等功能。

sts.xml 储存数据的统计信息。

SMRT Link CL tools in 5.0.0 dataset命令可以进行方便的操作。

参考资料
http://pacbiofileformats.readthedocs.io/en/5.0/
查看全文

相关阅读:
20145330 第0周《信息安全系统设计基础》
20145330《Java程序设计》课程总结
 20145330《Java程序设计》第五次实验报告
 20145330第十周《Java学习笔记》
20145330第九周《Java学习笔记》
20145330《Java程序设计》第四次实验报告
 20145330Java程序设计第三次实验
 20145330第八周《Java学习笔记》
20145330第七周《Java学习笔记》
20145329 《信息安全系统设计基础》第七周学习总结

原文地址：https://www.cnblogs.com/jinhh/p/8328818.html

PacBio下机数据如何看？

测序过程

测序结果

收到的测序文件

RS II

Sequel

Pacbio 的BAM 文件格式

BAM 文件分别都是些什么？

BAM.pbi 文件

随机访问

在无需完全访问BAM文件的情况下，获取信息

XML 文件