zoukankan      html  css  js  c++  java
  • 基因组序列注释 (基因结构预测)

    基因组组装完后需要对基因组序列进行注释。注释前首先得构建基因模型,有三种策略:


    同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型高,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点


    基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注释,能够较为准确的确定外显子区域剪切位点

    从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低


    每一种方法都有自己的优缺点,所以最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合,合并成完整的基因结构。基于可靠的基因结构,后续可进行功能注释,蛋白功能域注释,基因本体论注释,通路注释等。

    具体方法:

    同源注释:下载几个其他代表性动植物的完整的蛋白集, 使用 TblastN 将蛋白序列比对到初步组装结果的序列上,E-value的阈值为1e-5. 将不同蛋白的BLAST的hits用 Solar 软件进行合并。GeneWise 根据每个BLAST hit的对应基因区域预测完整的基因结构。

    同源预测软件通常利用GeneWise和GeneMoMa,前者是需要同源物种的蛋白序列,后者需要同源物种基因组序列及对应的GFF文件,目前小编已经抛弃GeneWise,使用最多的就是GeneMoMa,但是让小编十分头疼的是在准备GFF文件太花费精力,这个软件真的是挑肥拣瘦,必须满足其格式才能可以运行,目前从NCBI的Reseq和Ensemble上下载都可以,其他地方来的那就得还点时间写个脚本改下了。

    转录组预测:用Tophat将RNA-seq数据比对到初步组装结果的序列上,然后用cufflinks组装转录本形成基因模型。

    转录组数据预测PASA软件是基于Unigene/EST序列进行预测软件,这个可能就需要拿到一个混样转录组数据首先进行无参组装,接下来根据Unigene组装结果在进行比对,通常用Gmap或Blat两种方法,最好三代全长转录本和二代一起来进行预测,这样可以使得找到的结构更为准确、可靠,此外PASA还有另外的一个功能就是可以用其预测可变剪切,俗称PASA修饰。

    从头预测:先构建repeat-mask genome, 在这个基础上就用 August, Genescan, GlimmerHMM, Geneid 和 SNAP 预测编码区

    Ab initio也就是从头预测,主要通过探索DNA序列中特异的区域,如基因的起始区域和终止区域,来进行基因预测。目前常用的软件有Augustus、GlimmerHMM、SNAP、GeneID、GenScan、Brak等。Augustus运用隐马尔科夫模型,模型在DNA序列和基因结构上定义一个概率分布,采用维特比的算法,它自身带了一个训练集,如人、斑马鱼等。在进行预测时可以选择自带的训练集,也可以用挑选转录组和同源预测最优结果给它生成一个训练集。这里顺带说下Braker软件,它是基于genemaker预测结果作为训练集,有的使用者Augustus和Braker会二选一。GlimmerHMM是把一个基因看做几种特征序列,这些特征序列包括内含子、基因间区和四种外显子(初始、中间、最终和单一外显子)之后进行有序切换形成马尔科夫链。

    GlimmerHMM使用的模型基于以下几个假设:假设每个基因都开始于起始密码子ATG;假设每个基因阅读框内除最后一个密码子外没有终止密码子(no in-frame stop codons)。每个外显子与前一个外显子在同一个阅读框中。(翻译阅读时外显子间没有移框).它也是需要一个训练集,通常也是自己生成一个训练集的效果会略优于已有的一些。(http://ccb.jhu.edu/software/glimmerhmm/man.shtml) 。

    SNAP通过隐马尔科夫模型进行预测,也是需要一个训练集。 

    以上这些软件都可以自身构建一个训练集,这里小编觉得毕竟还是用自己的东西舒服,也就是自身训练结果要稍微优于其他模式生物训练集。这里小编在做真菌时,从头软件一般会选取这三个,GenScan和GeneID就放弃掉了,动植物基因组通常就是多多益善吗,能用上就都给用上。GenScan也是一款比较经典软件,通常在预测真核生物(人)还是有不错的效果。GeneID可以算是元老级,第一代的基因识别软件,这个准确率不高,通常在整合是权重也不会给太高。

    转录本预测得到的潜在蛋白编码转录本使用网页工具 ORFpredictor 进行预测, 同时用 blastx 和其他代表物种ORF数据进行比较,选择90%序列相似度和最高5%长度差异的部分从而保证保留完整的编码框(有启动子和终止子)。 这些基因模型根据相互之间的相似度和重叠度进行聚类,高度相似(>95)从聚类中剔除,保证非冗余训练集。为了训练gene finder, 随机选取了2000个位点,20%是单个外显子基因。

    最后,使用 EvidenceModeler(EVM) 将上面的结果组装成非冗余的基因结构。进一步根据Cscore > 0.5,peptide coverage > 0.5 和CDS overlaping with TE进行筛选。还有过滤掉超过30%编码区被Pfam或Interprot TE domain的注释的基因模型?

    最终结果整合这么多软件跑出来的结果,有的可靠性高些,比如转录组和同源;有一些要稍微差一些如GeneID,那么就需要一个软件将这些结果进行一个整合,通俗些就是大家放到一起比较下,看下各个软件预测结果分布情况,本着以少数服从多数原则(这里只是简单比喻下莫要当真),根据权重打分,使用EVM软件得到一版最终结果,目前小编用到最多的就是EVM。真菌、植物或动物统统可以搞定,用过一段时间Glean,感觉在整合超大基因时,容易成多个(或许是参数没有调整合理)。总结上面就是小编在进行基因预测时的一些软件使用心得,还有是再做一些研究比较多的物种比如水稻等,那同源权重一定要调高,毕竟人家预测出来的经过验证的,在我们的结果中理论上是应该存在,这样才能说明我们预测结果是靠谱的嘛;如果研究不是很多,同源比较少,那可以适当调高从头软件权重,主要应该以转录组为核心。

    这些基因模型使用BLASTP进行功能注释,所用数据库为SWiss-Prot和TrEMBL.蛋白功能使用InterProScan和HMMER注释,数据库为InterPro和Pfam。GO注释则是直接用InterPro和Pfam注释得到的对应entry。通路注释使用KEGG数据库。

    可变剪切模型是基于不同组织的RNA-seq的比对组装结果。

    参考来源:

    https://blog.csdn.net/u012110870/article/details/82500684

    http://www.360doc.com/content/17/0809/08/40545172_677713024.shtml

  • 相关阅读:
    maven的安装步骤
    Sublime Text 3设置指南
    Eclipse 不同版本名称
    redis命令简单介绍
    redis简介与window安装:
    redis数据类型:String
    Mybatis-plus的使用步骤
    SpringgBoot父子工程的创建
    我的大学-易班
    IDEA:配置Tomcat并运行应用
  • 原文地址:https://www.cnblogs.com/bio-mary/p/12077582.html
Copyright © 2011-2022 走看看