zoukankan      html  css  js  c++  java
  • PacBio长reads的大基因组组装

    原文链接:Large Genome Assembly with PacBio Long Reads

    可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。

    1. PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
    2. 混合de novo组装。combination of PacBio and short read data; hybrid assembly
    3. 填充Gap。mate-pair based assembly;
    4. Scaffolding。join contigs




    1.1 PacBio-only

    1. HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
    2. Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
    3. Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
    4. Celera® Assembler 提供直接组装subreads的一种方式
    5. Sprai preassembly-based的组装工具,目标是generate longer contigs。

    1.2 混合使用

    1. pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
    2. ECTools 一组工具,使用contigs代替short reads 来进行correction。
    3. SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
    4. Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
    5. **dbg2olc ** 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。

    1.3 Gap Filling

    • PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,


    2.1 覆盖度和软件选择

    算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。

    • PacBio-only de novo:get at least 50X PacBio coverage
    • HGAP:minimum recommended coverage下表现最好
    • PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
    • PBcR and ECTools :20X PacBio coverage
    • PBJelly 2:a high quality set of scaffolds exists
      at least PacBio 5X coverage to fill gaps

    图:PacBio 算法 推荐 from a PAG 2014

    2.2 重复的内容

    de novo assembly最大的挑战之一
    解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.

    2.3 倍数性


    2.4 Short-Read数据的覆盖偏差

    extreme GC composition

    2.5 计算消耗

    减少时间消耗:align short read contigs to PacBio reads

    2.6 基因组草图的质量

    Gap filling of mate pair-based scaffolded assemblies

    2.7 大量的插入库



  • 相关阅读:
    Serverless 时代下大规模微服务应用运维的最佳实践
    Dubbo 跨语言调用神兽:dubbo-go-pixiu
    Flink 1.12 资源管理新特性回顾
    [JDBC] Kettle on MaxCompute 使用指南
    实时数仓入门训练营:实时计算 Flink 版 SQL 实践
    实时数仓入门训练营:基于 Apache Flink + Hologres 的实时推荐系统架构解析
    Flink + Iceberg + 对象存储,构建数据湖方案
  • 原文地址:https://www.cnblogs.com/leezx/p/5577231.html
Copyright © 2011-2022 走看看