zoukankan      html  css  js  c++  java
  • 【豆科基因组】绿豆Mungbean, Vigna radiata苏绿基因组预印

    一、来源

    High-quality genome assembly, annotation and evolutionary analysis of the mungbean (Vigna radiata) genome. November 2020.
    DOI:10.22541/au.160587196.63922177/v1

    单位:江苏农科院

    主要结果:

    • 通过Nanopore+Illumina+HiC组装苏绿基因组,组装大小473.67,contig N50=11.3Mb,scaffold N50=42.4。
    • 52.8%的重复序列,LTRs占33.9%。
    • 预测了33924个基因,95.7%注释率。
    • 绿豆与其关系最近的小豆分化时间约11.66万年前,绿豆特有基因家族277个,其中18个正选择基因。

    绿豆研究进展:

    • 中绿VC1973A基因组草图
    • 叶发育
    • 白粉病抗性powdery mildew resistance
    • 豆象抗性bruchid resistance
    • 耐盐 salinity tolerance
    • 基因组多样性和GWAS(GBS),种皮光泽

    二、结果

    测序组装

    苏绿一号,测序约122.9Gb数据,深度259.5X,其中Oxford Nanopore (142.4X)。
    组装先使用canu纠正reads,再用wtdbg2组装。原始组装结果用Racon对nanopore reads 进行三轮纠错,使用Pilon利用二代测序数据进行3轮纠错。组装大小473.67 Mb,359 contigs, N50 =11.32 Mb。
    HiC-Pro利用唯一比对reads鉴定有效和无效互作,使用LACHESIS进行聚类、排序和定向,最后挂载11条染色体。基因组大小470.45Mb(挂载率99.32%,组装率87.8%)。
    image.png

    image.png

    a-e 代表 the distribution of FPKM, gene density, density of Copia
    retrotransposable elements, density of Gypsy retrotransposable elements and GC density, respectively, with
    densities calculated in 200-kb windows.
    f 代表 syntenic blocks.

    组装评价

    三方面评估:

    • 组装连续性和覆盖度。二代测序reads比对99.07%;CEGMA评估连续性449个(98.03%)核心保守基因。
    • 完整性。BUSCO评估,92.43%。
    • HiC聚类热图。

    编码基因预测

    三个来源:

    • ab initio :Genscan, Augustus (v2.4), GlimmerHMM (v3.0.4), GeneID (v1.4) and SNAP
    • homology-based:GeMoMa (v1.3.1)
    • unigene-based prediction :Hisat (v2.0.4) and
      Stringtie (v1.2.3), and PASA (v2.0.2)组装,TransDecoder (v2.0) and GeneMarkST(v5.1)预测。

    EVM整合,PASA优化。共预测33,924个蛋白编码基因,20,446个三种证据都有。

    基因功能注释

    BLAST (v2.2.31) against NR, KOG,
    GO, KEGG and TrEMBL database, performed KEGG pathway。
    共32,470个基因注释(95.71%)。
    InterProScan(包括Prosite, PRINTS, PFAM, ProDom, Smart, TIGRFAMs, SignlP, Trans memberane等)进行motif注释,共注释2,765 motifs and 35,154 domains。

    非编码RNA注释

    microRNA, rRNA使用Rfam数据库;
    tRNA使用tRNAscan-SE。
    最后鉴定86 miRNA, 352 rRNA and 653 tRNA belonging to 23, 4 and 22 families respectively。

    假基因预测

    假基因序列与功能基因类似,但由于突变丢失了功能。
    使用BLAT将预测蛋白序列寻找可能的同源基因序列,再用GeneWise寻找不成熟的终止密码和基因序列上的移码突变,从而获得假基因,共4320个,平均长度2237bp。

    重复序列注释

    使用Repbase库和从头预测的重复库(采用LTR FINDER和RepeatModeler),数据库鉴定采用PASTEClassi er,合并以上两个重复库作为最终库。RepeatMasker注释。共52.83%,重复元件长度46.4 Kb - 215.1 Mb。大部分是LTR(33.92%),包括56.6% Gypsy LTRs, 39.77% Copia LTRs and 3.63% other types of LTRs。

    使用MISA检测简单串联重复(SSRs),共224,409 SSRs (136,045 mono-, 56,033 di-, 28,959
    tri-, 1,977 tetra-, 1,098 penta-, and 297 hexa-nucleotide repeats)。全长3,252,656 bp(~0.69%)

    进化分析和分歧时间估计

    从绿豆和10个近缘物种(Vigna radiata , cowpea, common bean, soybean, Vigna angularis , Lablab purpureus ,Medicago
    truncatula , Lotus japonicus , Vigna subterranea and Arabidopsis thaliana)中OrthoMCL软件鉴定单拷贝直系同源基因,基于该数据集采用MUSCLE+MEGA+PHYML构树。

    使用Mcmctree通过最大似然树估计分歧时间,并用化石证据矫正。
    image.png

    image.png

    全基因组复制

    为研究绿豆进化,将之与其他4种双子叶植物(Vigna radiata, Arabidopsis thaliana(Arabidopsis)比较,基于两物种间或物种内的成对同源基因计算4DTv (4-fold degenerate synonymous sites of the third codons)。

    Vigna radiata vs Arabidopsis thaliana有分化峰值,Vigna radiata vs common bean存在低峰。表明绿豆和拟南芥分化的时间比绿豆和普通豆(菜豆)分化更早。
    image.png

    LTR插入时间估计

    采用突变率来估计LTR插入时间。苏绿中的LTR插入事件不是很活跃。
    image.png

    正选择基因

    通过评估单拷贝基因的Ka/Ks来检测正选择基因。共检测到18个基因。GO富集在membrane-enclosed lumen 和cell junction。

  • 相关阅读:
    Java+TestNG+Maven+Excel+IDEA接口自动化入门(二)Get方法
    java8新特性lambda和Stream新手springboot案例2020年新版
    h2数据库作为内存型与springboot+mybatis的案例
    分布式远程调用SpringCloud-Feign的两种具体操作方式(精华)
    携程Apollo简单入门教程这一篇就够了
    【Linux系列一】安装JDK
    【SVN系列一】更新失败
    Centos7配置桥接网络
    Vm虚拟机最小化安装linux并配置NAT网络连接(全图)
    python 函数传递
  • 原文地址:https://www.cnblogs.com/jessepeng/p/14890418.html
Copyright © 2011-2022 走看看