zoukankan      html  css  js  c++  java
  • bed文件格式解读

    1)BED文件

     BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致(见下图)。 每条线的字段数目必须是任意单条数据的在注释上一致。

     BED文件结构:
    -------------------------------------------------------------必须有以下3列------------------------------------------------------------------------
        chrom :即染色体号
        chromStart :即feature在染色体上起始位置 。在染色体上最左端坐标是0
        chromEnd :即feature在染色体上的终止位置。例如一个染色体前100个碱基定义为chromStart=0,  chromEnd=100, 跨度为 0-99.
    ----------------------------------------------------------------可选9列-------------------------------------------------------------------------------
        name :feature的名字 ,在基因组浏览器左边显示;
        score :在基因组浏览器中显示的灰度设定,值介于0-1000;

      
        strand :定义链的方向,''+” 或者”-”
        thickStart :起始位置(例如,基因起始编码位置)
        thickEnd :终止位置(例如:基因终止编码位置) 
        itemRGB :是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为'On”, 这个RBG值将决定数据的显示的颜色。
        blockCount :BED行中的block数目,也就是外显子数目
        blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
        blockStarts :用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应

    2)bed和gff之间的关系

    前面已经讲过GFF格式,用UCSC Genome Browser可以将两者进行可视化比较。 Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
    两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1;GFF中起始坐标是1而结束坐标至少是1。

    4) 参考资源
    http://www.360doc.com/content/18/0329/22/19913717_741376781.shtml
    https://blog.csdn.net/herokoking/article/details/79276513
    https://genome.ucsc.edu/FAQ/FAQformat.html#format1
      

     

  • 相关阅读:
    【案例】ORA-02298
    ORA-01578: ORACLE 数据块损坏 (文件号 10, 块号 57896)ORA-01110: 数据文件 10: '/data/oradata/prod35.dbf'
    mysql主从架构,IO、SQL线程运行为YES,从库没有同步数据
    MySQL5.7.21报错:[Err] 1055
    ORACLE数据库黑/白名单
    Mongodb日常管理
    hive Hbase sql
    hive DDL操作
    hive 分桶及抽样调查
    hive 排序
  • 原文地址:https://www.cnblogs.com/djx571/p/9499795.html
Copyright © 2011-2022 走看看