zoukankan      html  css  js  c++  java
  • gff/gtf格式

     1)gff3及gtf2简介

    一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。

    GFF(general feature format):这种格式主要是用来注释基因组。 现大部分利用的是第三版,即gff3。

    GTF(gene transfer format):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf2 。

    1.1)GFF3

    GFF3允许使用#作为注释符号 ,除去注释外,主体部分共有9列。 GFF3中每一列的含义:seqid source type start end score strand strand attributes

    1) seqid :序列的id。(The name of the sequence where the feature is located.)
    2)source:注释的来源,一般指明产生此gff3文件的软件或方法(e.g. Augustus or RepeatMasker)。如果未知,则用点(.)代替。
    3)type: 类型,此处不受约束,但为下游分析方便,建议使用gene,repeat_region,exon,CDS,或SO对应编号等。
    4)start:起始位置,从1开始计数(区别于bed文件从0开始计数)。
    5)end:终止位置。
    6)score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicates the confidence of the source on the annotated feature)
    7)strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知.
    8)phase :步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。
    9)attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
    1.2)GTF2

     gtf文件也是由9列组成,其中每一列含义:seqname source feature start end score strand frame attributes

    1) seqname: 序列的名字。通常格式染色体ID或是contig ID。
    2) source:注释的来源。通常是预测软件名或是公共数据库。
    3) start:起始位置,从1开始计数。
    4) end:终止位置。
    5) feature :基因结构.根据所使用软件不同,feature types必须注明。CDS,start_codon,stop_codon是一定要含有的类型。
    6) score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
    7) strand:链的正向与负向,分别用加号+和减号-表示。
    8) frame:密码子偏移,可以是0、1或2。
    9) attributes:必须要有以下两个值:
         gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
        transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

     

    2)GFF3和GTF2之间的异同及相互转换。
    ---------------------------------------------------

    GFF3和GTF2之间的转换可以用Cufflinks里面的工具"gffread":

    gffread my.gff3 -T -o my.gtf             #gff2gtf
    gffread merged.gtf -o- > merged.gff3     #gtf2gff

    3) 习题
    ---------------------------------------
    3.1)gff3格式的功能是是什么?目前有几版?
    3.2)gff3共有多少列?每一列的含义是什么?
    3.3)gff3中的第8列代表的0,1,2分别代表什么含义?
    3.4)gff3第9列不同属性之间是用什么符号分割的?
    3.5)gtf2和gff3格式上有何异同?
    3.6)gtf2和gff3在功能上有什么差异?
    3.7)gtf2第9列中不同属性用什么符号分割?
    3.8)如何将gtf和gff之间相互转换?
    3.9)统计test.gff文件中组装出来的染色体条数
    3.10)统计test.gff文件中lnc_RNA个数
    3.11)统计基因组文件test.gff中有多少个基因
    3.12)求最长基因的长度
    3.13)查找一个基因下有3个转录本的基因个数
    3.14)求相位为2的cds个数
    3.15)找出基因含有最多的外显子的个数
    3.16)  将test.gff转化为test.gtf
    3.17)统计test.gtf中transcript的个数
    3.18)根据test.gtf统计位于正链上的exon的个数
    3.19)将test.gtf中所有的gene ID都统计出来
    3.20) 找出test.gtf中位于正链上的最长的基因
    4) 参考资源
    ---------------------------------------
    https://en.wikipedia.org/wiki/General_feature_format
    http://boyun.sh.cn/bio/?p=1602

  • 相关阅读:
    eclipse- DDMS截图功能使用
    宏-新项目物理按键不能用
    宏-宏的添加跟代码中的使用
    SQlite-数据库的访问实例(转)
    git 工具的使用总结(6)-提交合并处理
    git 工具的使用总结(5)-查看历史记录
    git -处理分支合并
    Linux查询网址
    SQLite常用网址
    Java查询网址
  • 原文地址:https://www.cnblogs.com/djx571/p/9497707.html
Copyright © 2011-2022 走看看