zoukankan      html  css  js  c++  java
  • FusionMap 检测融合基因

    定义:融合基因是指两个或者多个基因联合起来,一起转录形成一个转录本;

    检测的意义:融合基因可以作为某些疾病的特异分子标记,比如

      bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中;

      AML1/ETO融合基因主要见于急性粒细胞白血病部分分化型患者中;

      CBFβ/MYH11融合基因是M4Eo型白血病的分子标志;

      PML/RARα融合基因是急性早幼粒细胞白血病(APL)的分子标志;

    检测方法:

      只有少数的融合基因是因为染色体易位等原因,在DNA水平上联合在一起,而大多数的融合基因在DNA水平上并没有真正的融合在一起,只是在转录的时候共同转录而已,

    所以通常利用RNA-seq来研究融合基因;只要检测到一个转录本来源于不同的基因,就可以识别出融合基因;

      fusionMap 可以利用RNA_seq的数据来检测融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap

    原理:

      

      通过两种方式来检测融合基因:

      1) 对于没有mapping 上的基因组的unmapped reads, 通过识别 Fusion junction-spanning reads 来识别融合基因;这部分reads 在mapping的时候由于插入缺失的限制,没有能够mapping 上任何一个基因;

      2)对于mapping 上基因组的reads, 通过识别 Inter-transcript read pairs 来识别融合基因,这部分reads 的R1端和R2端分别mapping 到不同的基因

      在fusionmap 中,假定融合基因由2个基因组成,对于没能比对上基因组的Fusion Junction-spanning reads, 又分为两类:设定一个阈值,如果这条reads 在两个基因中比对上的长度都大于阈值,就属于seed reads; 如果在任意一个基因中比对上的长度小于阈值,就属于Rescued reads;

    安装:

      由于fusionmap 是一个在windows 平台上开发的一个.exe 文件,为了能够在linux 平台上运行,需要安装mono 这个软件,就用官网推荐的版本就可以

      下载fusinomap 安装包,下载物种对应的数据库

    测试:

      

    结果:

      

      FusionID : 识别到的融合基因的ID,前缀都为FUS,第一个数字为融合基因的起始位置,第二个数字为融合基因的终止位置,这里的位置实际上都是累积位置,把所有的染色体按照字母顺序首位相连构成一条参照的染色体,这样每个基因在这条染色体上都有一个位置,所以这里的位置都是累积位置,可以发现,终止位置的数字总是比起始位置大;括号里的内容是形成融合基因的两个基因的链的方向

      Strand : 形成融合基因的两个基因的链的方向, 包括++, --, +-, -+ 四种组合

      Position1: 检测到的融合基因的起始位置

      Chromosome1 : gene1 所在的染色体

      Chromsome2: gene2 所在的染色体

      Position2: 检测到的融合基因的终止位置

      knowGene1 : gene1 的symbol

      KnowTranscriptStrand: gene1的转录本的方向,有多个转录本,就有多个方向

      KnowGene2: gene2 的symbol

      KnowTranscripitStrand : gene2的转录本的方向,有多个转录本,就有多个方向

      FusionGene: 融合基因的名字,有gene1->gene2

      SplicePattern: 剪切模式,在融合基因的断点处的剪切模式,GT-AG, 在真核生物中存在可变剪切,不同物种间的exon之间的剪切位点是保守的,fusionmap 通过识别剪切位点作为融合基因的breakpoint, 还有其他几种常见的剪切模式,比如GC-AG,AT-AC

      在fusionmap 的输出结果中,还会给出accepted_hits.FusionReads.bam 文件,这个文件记录了fusionmap 识别到的融合基因的reads, 举一个具体的例子:

      以FUS_10436924_1077001566(++) 融合基因为例,对应的bam文件中的内容为:

      

    ST-E00169:303:HC7LFALXX:3:2109:11921:42147	67	1	10436820	60	106M22S	17	7952031	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
    ST-E00169:303:HC7LFALXX:3:2112:29680:36451	179	1	10436895	60	31M9S	17	7952031	0	ACACACACACACACACACACACACACACACACATACACAC	F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:1224:28270:28206	179	1	10436898	60	28M12S	17	7952031	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2124:27681:49267	179	1	10436898	60	28M12S	17	7952031	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:1209:27651:10503	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2208:30036:65968	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2209:4026:58848	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2110:31020:2452	179	1	10436901	60	25M9S	17	7952031	0	ACACACACACACACACACACACACACATACACAC	JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2219:23632:11664	179	1	10436904	60	22M12S	17	7952031	0	CACACACACACACACACACACACATACACACACA	JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2109:11921:42147	131	17	7952031	30	106S22M	1	10436820	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
    ST-E00169:303:HC7LFALXX:3:1209:27651:10503	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:1224:28270:28206	115	17	7952031	60	28S12M	1	10436898	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2110:31020:2452	115	17	7952031	60	25S9M	1	10436901	0	ACACACACACACACACACACACACACATACACAC	JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2112:29680:36451	115	17	7952031	60	31S9M	1	10436895	0	ACACACACACACACACACACACACACACACACATACACAC	F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2124:27681:49267	115	17	7952031	60	28S12M	1	10436898	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2208:30036:65968	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2209:4026:58848	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    ST-E00169:303:HC7LFALXX:3:2219:23632:11664	115	17	7952031	60	22S12M	1	10436904	0	CACACACACACACACACACACACATACACACACA	JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
    

      这里实际上保存的是fusionmap 识别到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 这条reads 的比对出现了两次,第一次比对到染色体1 上,比对情况为106M22S, 就是说这条reads 的前106bp 比对到染色体1上,比对上的起始位置为10432860; 第二次比对到染色体17上,比对情况为106S22M,就是说这条reads的后22bp比对到染色体17上,比对上的起始位置为7952031,由于在两个基因上的比对长度一个为106,一个为22,都超过了预先设定的最小比对长度,所以认为该reads 为Seed reads, 根据这个比对情况,我们就可以认为检测到了一个融合基因,由1号染色体和17号染色体上的两个基因共同转录生成了一个转录本;

      其他reads的比对情况也是一样的道理,可以发现,识别到的某个融合基因的breakpoint的位置是固定的,对于一个融合基因,只有识别到两条以上的reads支持该融合基因时,才认为检测到的是一个真实的融合基因,可以通过reads 比对的起始位置和终止位置来判断,如果起始位置和终止位置相同,则可能为相同模板的PCR 产物, 只能算作1条;只有起始和终止位置不同时,才可以算作不同的reads, 在fusionmap 输出的报告文件中,还有几列保存了这些信息;

      accepted_hits.UniqueCuttingPositionCount : unique cut 的次数,和上面说的支持融合基因的reads数目是一个道理,实验时将转录本随机打断进行测序,只有存在多个打断的位置,才会出现多条支持该融合基因的reads, 这个数字越大,证明该融合基因的准确度越高;

      

         黑色的线条是真实存在的融合基因形成的转录本,灰色的fragment是随机打断该转录本生成的序列,红色为融合基因对应的breakpoint,图中一共4条reads, 但是中间的2条reads 位置相同,可能是PCR 重复,所以实际上只能说有3条reads 支持该融合基因;fusinomap 在统计reads 数目的时候,实际上只看在第二个基因中的终止位置是否相同来判断,对于例子中的融合基因,报告中的值是3

      accepted_hits.SeedCount      : Seed reads 的个数

      accepted_hits.RescuedCount : Rescude reeds 的个数

         SplicePattern : fusionmap 会识别融合基因的breakpoint 处的剪切模式,并对其进行分类,GA-TC这样的剪切模式是最常见的,类型为CanonicalPatter[Major],接下来比较常见的是GC-AG 和 AT-AC, 类型为CanonicalPatter[Minor], 对于其他的剪切模式,一般不常见,类型为NonCanonicalPatter;如果一个融合基因的breakpoint 处的剪切模式越常见,则检测到的该融合基因为真实存在的融合基因的可能信越大

      Frameshift:  breakpoint 处的密码子框的类型,3个碱基构成一个密码子,标记为0,1,2, 示意图如下:

      

       

        FrameshiftClass: 上述几种常见的Frameshift 都归为In-Frame, 其他类型为 Frame-Shift;

        OnExonBoundary: 融合基因的breakpoint 是否位于基因的外显子的边界,一共有三种类型,None, Single, Both

        Distance : 融合基因的breakpoint 在两个基因之间的距离,如果两个基因位于不同的染色体,值为-1;

      

      

      

  • 相关阅读:
    Linux设置复制粘帖的快捷方式
    UC伯克利发布一个低成本家居机器人,会叠衣服、会泡咖啡
    称职QA经理必备的13项技能
    李开复:AI正在从黑科技变成主流,传统公司都需要“CAIO”
    为什么纸牌游戏Hanabi是人工智能的下一个挑战
    专家质疑亚马逊面部识别技术:机器眼里女士皮肤黑就等于是男人
    日媒联手高科技公司利用人工智能预测新闻对企业的影响
    Python 封王,Java和C宣布永久退出竞争舞台
    李开复:AI进入商用时代 偏重科研的“黑科技”非创业主旋律
    AI医疗与人类疾病的竞跑:5G落地,就像“三甲”到家
  • 原文地址:https://www.cnblogs.com/xudongliang/p/6524683.html
Copyright © 2011-2022 走看看