zoukankan      html  css  js  c++  java
  • 构建一个近乎完整的植物基因组

    前言

    植物基因组大小跨越几个数量级,倍性和杂合性变化,以及新旧基因组转座子变化等带来组装挑战。三代和物理图谱提供了新机会,单倍型定相、结构变异分析、从头泛基因组研究成为新兴组装热点。

    植物基因组发展:

    • 拟南芥:sanger BAC-by-BAC。
    • shotgun OLC (CELERA assembler):木瓜、大豆、杨树等早期测序植物。
    • 454/Illumina DBG 短序列高深度带来植物基因组组装大爆发,但质量较低。
    • 单分子PacBio长度长带来接近完整染色体组装。
    • 辅助技术发展:Hi-C/BioNano(无需昂贵的BAC物理图谱)
    • ONT纳米孔能达上Mb,组装拟南芥、番茄、高粱、香蕉、甘蓝等更连续和完整的版本。

    在过去20年种,有400多个植物基因组已发表,包括333个被子植物,15个非被子植物、2个轮藻和44个绿藻。

    可查阅:
    https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes

    1. 单分子长度长测序

    PacBio通过CCS产生HiFi 15 kb reads的方法准确率高达99.8%,解决了错误率问题,但每条read成本高了近5倍。

    基因组测序的发展,在基因组完整度上已经有了很大提升。
    image.png

    2. 长度长基因组组装的错误倾向

    新算法的设计目的:correct, overlap, and polish long reads with high error-rates。
    算法随计算设计、速度、内存使用、复杂基因组利用而变化。

    • 自纠方法self-correction:CANU、Falcon(phase/unzip)、MARVEL、MECAT。利用reads相互比对,需要较高覆盖度。
    • correction-free:基于OLC的minimap2/miniasm、基于DBG的wtdbg2和Flye。要求更高复杂度的基因组。

    组装的草图有误差,必须用高覆盖度的长读长或短读长polish,一般大于三次可达到>99.6%的准确性。

    • long reads:Quiver/Arrow (PacBio)、Medaka (ONT)、Nanopolish、Racon。
    • short reads:Pilon

    PacBio CCS HiFi软件:Peregrine

    3. 物理图谱技术

    • a.Hi-C
    • b.Optical maps
      image.png

    4. 解决复杂植物基因组

    如下图,两条染色体组装时定相,杂合基因组phasing有如下方法:

    • 右上:嵌合假分子,简化下游分析。
    • 右中:原始reads比对到contigs,解决缺失的单倍型区域,建立一个定相的二倍体组装。
    • 右下:保留部分单倍型,并在基于图的组装中加以标记。
      image.png

    5. 利用组装图

    组装经典指标是N50,或者最短序列长度大于组装的50%,方法过于简单。
    利用组装图可以可视化复杂度和邻接contig的overlap。

    • 纯合简单基因组(左上图):理想的graph对于每个contig(节点)只有一条边和邻接序列相连。
    • 气泡图(左下图):高杂合性,节点(单倍型)被多条边连接。
    • 复杂重复(右上图):在图结构中较模糊,如rRNA,centromeric satellite DNA。
    • 毛团(hairballs,右下图):多拷贝重复,无清晰路径,节点互交。
      image.png

    当参考基因组被泛基因组取代时,基因组图论将是代表复杂基因组更好的方法。

    挑战和展望

    挑战:

    • 多倍体和杂合度

    展望:

    • 基因组完整、少gap、定相。
    • denovo替代重测序,挖掘更多多样性,用于群体遗传和泛基因组分析。
    • 基因组注释将落后于组装,提高注释质量需要新技术(如全长cDNA,PacBio Iso-seq等)以及新算法。

    参考文献:Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.

  • 相关阅读:
    hbase与Hive的集成
    HBase API操作
    HBase原理
    HBase数据结构
    HBase Shell操作
    HBase简介
    Boxes in a Line
    B
    B. Painting Pebbles
    X
  • 原文地址:https://www.cnblogs.com/jessepeng/p/14363931.html
Copyright © 2011-2022 走看看