zoukankan      html  css  js  c++  java
  • gff/gtf格式

     1)gff3及gtf2简介

    一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析。gff/gtf是贮存这些注释信息的两种文件格式。

    GFF(general feature format):这种格式主要是用来注释基因组。 现大部分利用的是第三版,即gff3。

    GTF(gene transfer format):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf2 。

    1.1)GFF3

    GFF3允许使用#作为注释符号 ,除去注释外,主体部分共有9列。 GFF3中每一列的含义:seqid source type start end score strand strand attributes

    1) seqid :序列的id。(The name of the sequence where the feature is located.)
    2)source:注释的来源,一般指明产生此gff3文件的软件或方法(e.g. Augustus or RepeatMasker)。如果未知,则用点(.)代替。
    3)type: 类型,此处不受约束,但为下游分析方便,建议使用gene,repeat_region,exon,CDS,或SO对应编号等。
    4)start:起始位置,从1开始计数(区别于bed文件从0开始计数)。
    5)end:终止位置。
    6)score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicates the confidence of the source on the annotated feature)
    7)strand:“+”表示正链,“-”表示负链,“.”表示不需要指定正负链,“?” 表示未知.
    8)phase :步进。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。
    9)attributes:属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。
    1.2)GTF2

     gtf文件也是由9列组成,其中每一列含义:seqname source feature start end score strand frame attributes

    1) seqname: 序列的名字。通常格式染色体ID或是contig ID。
    2) source:注释的来源。通常是预测软件名或是公共数据库。
    3) start:起始位置,从1开始计数。
    4) end:终止位置。
    5) feature :基因结构.根据所使用软件不同,feature types必须注明。CDS,start_codon,stop_codon是一定要含有的类型。
    6) score :这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。
    7) strand:链的正向与负向,分别用加号+和减号-表示。
    8) frame:密码子偏移,可以是0、1或2。
    9) attributes:必须要有以下两个值:
         gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
        transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

     

    2)GFF3和GTF2之间的异同及相互转换。
    ---------------------------------------------------

    GFF3和GTF2之间的转换可以用Cufflinks里面的工具"gffread":

    gffread my.gff3 -T -o my.gtf             #gff2gtf
    gffread merged.gtf -o- > merged.gff3     #gtf2gff

    3) 习题
    ---------------------------------------
    3.1)gff3格式的功能是是什么?目前有几版?
    3.2)gff3共有多少列?每一列的含义是什么?
    3.3)gff3中的第8列代表的0,1,2分别代表什么含义?
    3.4)gff3第9列不同属性之间是用什么符号分割的?
    3.5)gtf2和gff3格式上有何异同?
    3.6)gtf2和gff3在功能上有什么差异?
    3.7)gtf2第9列中不同属性用什么符号分割?
    3.8)如何将gtf和gff之间相互转换?
    3.9)统计test.gff文件中组装出来的染色体条数
    3.10)统计test.gff文件中lnc_RNA个数
    3.11)统计基因组文件test.gff中有多少个基因
    3.12)求最长基因的长度
    3.13)查找一个基因下有3个转录本的基因个数
    3.14)求相位为2的cds个数
    3.15)找出基因含有最多的外显子的个数
    3.16)  将test.gff转化为test.gtf
    3.17)统计test.gtf中transcript的个数
    3.18)根据test.gtf统计位于正链上的exon的个数
    3.19)将test.gtf中所有的gene ID都统计出来
    3.20) 找出test.gtf中位于正链上的最长的基因
    4) 参考资源
    ---------------------------------------
    https://en.wikipedia.org/wiki/General_feature_format
    http://boyun.sh.cn/bio/?p=1602

  • 相关阅读:
    poj 3528 (三维几何求凸包+凸包表面积)
    dijkstra模板(好像是斐波那契额堆优化,但我为什么看起来像优先队列优化,和spfa一样)
    最大空凸包模板
    ICPC 2017–2018, NEERC, Northern Subregional Contest St Petersburg, November 4, 2017 I题
    hdu 5248 序列变换
    hdu 2063(二分图模板测试)
    组合数
    85. Maximal Rectangle 由1拼出的最大矩形
    750. Number Of Corner Rectangles四周是点的矩形个数
    801. Minimum Swaps To Make Sequences Increasing 为使两个数组严格递增,所需要的最小交换次数
  • 原文地址:https://www.cnblogs.com/djx571/p/9497707.html
Copyright © 2011-2022 走看看