zoukankan      html  css  js  c++  java
  • 35、多重比对序列的格式及其应用

    转载:http://boyun.sh.cn/bio/?p=1711

    这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

    生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

    多重序列数据分析流程

    进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

    下表是目前主流的格式:

    名称 后缀 描述 Unique file Feature 详细定义地址
    FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
    GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
    Aligned FASTA (UCSC a2m) format .a2m UCSC    
    Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 # STOCKHOLM 1.0<seqname> <aligned sequence>

    //
    链接wiki链接
    PHYLIP .phy, .phylip, .phylip2 PHYLIP software   链接
    NBR/PIR .pir NBRF or PIR sequence format >P1; 链接
    CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 链接
    GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color.   链接
    NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format.   链接
    BLC .blc   >Seq1>Seq2  
    PFAM .pfam   SequenceName THISISASEQENCE 链接
    MEGA .meg MEGA software    
    SELEX .      
    IG .ig      
    Internet (NCBI) XML format .xml      
    NBRF format .nbrf      

    主要软件平台对于格式的要求

    • Clustal
      输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
      输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    • MUSCLE(http://www.drive5.com/muscle/muscle.html)
      输入:FASTA, CLUSTAL, MSF
      输出:FASTA
    • hmmbuild
      ClustalW, GCG MSF, or SELEX
    • hmmalign
      输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
      输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
    • Jalview java viewer (http://www.jalview.org/help.html)
      输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
      输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
    • MEGA
      输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
      输出:MEGA, PAUP, FASTA
    • PFAM数据库
    • Selex, Stockholm, MSF, FASTA
  • 相关阅读:
    数组中的逆序对 --剑指offer
    第一个只出现一次的字符 --剑指offer
    丑数 --剑指offer
    把数组排成最小的数 --剑指offer
    整数中1出现的次数 --剑指offer
    最小的k个数 --剑指offer
    数组中出现次数超过一半的数字 --剑指offer
    redis击穿,穿透,雪崩,分布式锁,api(jedis,luttuce)
    Java创建数据库新建表及初始化表
    generatorConfig.xml自动生成实体类,dao和xml
  • 原文地址:https://www.cnblogs.com/renping/p/7460792.html
Copyright © 2011-2022 走看看