zoukankan      html  css  js  c++  java
  • Iso-seq 必备基础

    Iso-seq , 全称叫做 Isoform-sequencing, 是 Pacbio 公司对自己开发的转录本测序技术的规范化命名;是利用三代测序长读长的特点,不打断转录本,直接测序,从而得到全长转录本的一种测序技术。

    对于iso-seq 的分析而言,必须掌握以下几个基本概念:

    1)ROI

    了解过三代测序数据分析的人,对于CCS 环形一致性序列的概念肯定不会陌生,在iso-seq中,提出了比CCS 更加灵活的一个概念:ROI

    ROI , 全称 reads of insert,可以理解为插入片段,首先看下三代测序文库构建阶段的reads示意图:

    对于上述的文库片段,测序产生的reads 示意图如下:

    由于是一个环状分子, 随着测序反应的进行,会循环测序;如果把插入片段的正负链都测了一次,就做1个full pass;

    对于CCS 而言,要求至少有2个full pass , 才能去生成CCS  reads; 三代测序的特点就是读长很长,可以达到十几kb, 对于短的插入片段而言,CCS这样定义当然没有问题,但是对于全长转录本

     而言,转录本长度很长,比如转录本长度1kb, 读长3kb, 此时在一个零模波导孔(ZMW)中测序的reads 就不可能达到2个full pass , 也就产生不了CCS reads, 为了解决这个问题,提高reads的利用率,提出了ROI 的概念,ROI 指的就是插入片段,上图测序reads 产生的ROI 如下:

    ROI 不要求满足2个full pass, 相对CCS 而言,更加适合全长转录本的分析;

    2)artifacts

    可以理解为,共有两种来源:

    # Artificial Concatemer

    这种序列是由于文库制备阶段,adapter 序列错误的将两条转录本的序列链接构成了一个环状分子,这个和adapter 浓度有关,通常这种reads 产生的比例很少,小于0.5%, 在后续的分析中,这部分reads 需要去除

    # PCR Chimera

    在PCR 反应中,由于不完全延伸的产物作为了下次扩增反应的引物,导致出现嵌合体序列,直观上看,就是PCR产物来源于两条或者多条reads;

    PCR 产生的嵌合体序列,在PCR 反应体系中,这种序列是不可避免的,大约有3%的比例,在后续的分析过程中,可以借助软件去除这部分reads;

    3) FL Reads

    FL , Full-length reads, 全长转录本

    从raw data 到 ROI , 在从ROI 去除  artifacts reads 之后,我们就得到了用于后续分析的clean reads;

    clean reads 就已经是转录本的序列了,我们首先看一下clean reads 当中,哪些是全长转录本;哪些不是全长转录本,这个操作就是分类,classify

    全长转录本的示意图如下:

    对于全长转录本而言,其ROI reads 中包含5‘ primer 和 3‘ primer; 而且会出现polyA 为结构;(polyA 针对mRNA和部分lncRNA)

    对于不同大小的文库,其全长转录本的比例也不同:

    可以看到,文库片段越长,全长转录本的比例越低;

    4) consensus transcript isoforms

    一致性转录本序列,一个ZMW 产生一个转录本的reads, 肯定会有冗余的reads 出现,这是通过聚类(cluster)的方式,就全长转录本序列进行聚类,可以得到一致性的转录本序列;

  • 相关阅读:
    一些你可能用到的代码
    iOS 键盘下去的方法
    iOS设计模式汇总
    随笔
    Spring cloud config 分布式配置中心 (三) 总结
    Spring cloud config 分布式配置中心(二) 客户端
    Spring cloud config 分布式配置中心(一) 服务端
    jdbcUrl is required with driverClassName spring boot 2.0版本
    JpaRepository接口找不到 spring boot 项目
    解决IntelliJ “Initialization failed for 'https://start.spring.io'
  • 原文地址:https://www.cnblogs.com/xudongliang/p/7473463.html
Copyright © 2011-2022 走看看