PBcR

zoukankan html css js c++ java

PBcR

单分子测序reads（PB）的混合纠错和denovo组装

我们广泛使用的PBcR的原始文章就是这一篇

原文链接：Hybrid error correction and de novo assembly of single-molecule sequencing reads

简介：PBcR里面有一种自纠算法（PacBioToCA），纠错的核心本质就是多重序列比对，为了加快比对速度使用了MHAP算法（MinHash）。三代的错误分布不是完全随机的，不要以为错误是均匀分布的！！！

摘要：

PB技术可以产生极长的reads，可以显著提高基因组和转录组的组装。

然而，单分子测序的reads的error rate非常高，这限制了它们在重测序方面的应用。

为了解决这个问题，我们创造了PBcR这个纠错算法和组装策略：使用短的、高精准度的reads 来校正单分子测序reads中的错误。

我们在PB RS平台证明了这个算法的实用性，从噬菌体、原核、真核；从基因组到转录组。

我们的长reads纠错达到了99.9%的base-call accuracy，从而使得组装的效果比当下的策略更好。

在最好的栗子里，三代的组装结果的contig的N50是二代的组装结果的五倍。

前言：

二代技术：454焦磷酸测序，Illumina边合成边测序，低成本，高通量；相较于一代的sanger测序。

二代的明显的缺点：测序之前，源DNA需要扩增，会引入偏差；reads短，导致组装和分析困难。

三代，单分子，实时测序，无偏差，reads长，周期短，有利于denovo的基因组和转录组组装，可以解决复杂的重复，可以跨越基因的整个转录本。

然而，三代只有82.1%~84.6%的准确率，主要由insertion和deletion造成(Supplementary Fig. 1).

如此高的错误率会严重影响reads的比对，双序列比对会double错误率，远超过5%~10%的组装软件的承受范围；简单的增加alignment sensitivity是不可行的。(Supplementary Table 1 and Supplementary Figs. 2 and 3).

此外，PacBio技术使用了发卡接头hairpin adaptors 来对双链double-stranded DNA进行测序，这将会导致嵌合体chimeric reads ，如果测序反应进行到DNA的两条链，

虽然你在PacBio RS上可以通过多次读取一个环状分子（circular consensus or CCS）来生成高准确度的reads，这种方法降低了reads的长度，受分子被遍历的次数影响，导致了一个更短的reads，因此长的single-pass reads有一个很大的潜在的优势，如果可以从算法层次上管理错误率。

为了克服单分子测序数据的限制，解锁它在denovo组装上的全面的潜能，我们开发出了一套方法来利用短的、高精确度的序列来纠正长的、单分子的内在错误(Fig. 1).

PBcR单分子reads纠正和组装方法：

a）黑线表示错误，粉红色条表示single-pass PacBio RS reads，这很难检测reads之间是否有overlap；

b）将高保真短读长reads比对到容易出错的长reads，之所以可以计算出准确的比对结果，是因为短长是长长错误的一半。短reads上的黑线表示比对错误，是短reads和长reads之间共同的错误。此外，两个不精确的重复导致短reads的堆积，为了避免reads比对的错误，算法选择了一个cutoff,C 前C的留下，后C的丢掉。（PB上高错误的区域Hiseq也是比对不上的）

c）留下来的比对用来生成一个新的consensus 序列（紫色），trimming and splitting长reads，如果有短reads有gap（在没有覆盖度的地方任务截断了，绝对有假阳性，因为二代测不到GC特殊区域）。测序错误会传播给PBcR，当PB和Hiseq有共同的错误。

d）纠错后，可以很容易的检测出long PBcR sequences的overlap。

e）组装结果可以跨过重复，那些短reads无法跨过的地方。

注：PB中的无效区域是肯定存在的，可以直接通过Hiseq的覆盖度信息去除（不要切断中间），可能还要考虑GC区域才会完美。

嵌合体怎么解决，还是在组装时会自动解决。

我们的PBcR（PacBio corrected Reads）算法作为Celera Assembler的一部分，截断和纠正单独的单分子reads，通过首先将短reads 比对到长reads上来计算一个高度准确混合consensus 序列：提高了reads的准确度从80%到了99.9%。

然后，纠正了的混合PBcR reads可以来单独进行denovo组装，或者结合其他数据，或者导出来做其他应用。

下面将会展示几个重要的基因组，包括之前没有测序的1.2-Gbp。incorporation of PacBio data using this method leads to greatly improved assembly quality versus either first- or second-generation sequencing, indicating the promise of ‘third-generation’ sequencing and assembly.

结果

长reads的denovo组装

纠错准确度和结果

混合denovo组装

长read的覆盖度对组装的影响

鹦鹉基因组的组装结果

单分子RNA-Seq纠错

讨论

方法

待续~

查看全文

相关阅读:
18文件权限管理
 17用户身份管理
 16Shell脚本—计划任务服务程序
 15Shell脚本—流程控制
 14Shell脚本—判断语句
 13Shell脚本—编写简单脚本
 12Vim在系统配置中的应用示例
 11Vim文本编辑器
 10重要的环境变量
 09命令行通配符和转义字符

原文地址：https://www.cnblogs.com/leezx/p/6067845.html

单分子测序reads（PB）的混合纠错和denovo组装

摘要：

前言：

结果

长reads的denovo组装

纠错准确度和结果

混合denovo组装

长read的覆盖度对组装的影响

鹦鹉基因组的组装结果

单分子RNA-Seq纠错

讨论

方法