PacBio三代全长转录组/Iso-Seq技术及案例分析

zoukankan html css js c++ java

PacBio三代全长转录组/Iso-Seq技术及案例分析

读透一篇文章比粗读100篇文章都要有用！！！

参考：产品手册

PacBio三代全长转录组有什么优势？

近年来，随着高通量测序技术的发展，转录组测序已经成为研究基因表达调控的主要手段。但二代的转录本重构准确率很低，三代可以直接得到全长转录本，无需组装。可改善基因表达定量结果，发现新的基因和转录异构体，鉴定可变剪切及基因融合现象。

Google第一个就是官网介绍，可以立马理解Iso-Seq的字面意思了。

Iso-Seq 就是 isoform sequencing，中文就是同源异构体测序，其实也是一种 RNA 测序技术。

The challenge of isoform reconstruction（即二代的不足）：

真核组织中，大多数gene是可变剪切的，产生多种transcript isoforms，大大增加了基因组蛋白编码的潜能。

同一个gene产生的可变剪切是大大的不同的，有时甚至会起到相反的效应。

为了研究基因表达，学者们往往使用二代技术，测得的是一些片段，也是就RNA-seq技术。然而，短的RNA-seq 不能跨越全长的转录本，也就不能精准的描绘出 isoform 的不同特性。

三代的核心优势：

Produce full-length transcripts without assembly（不用组装）

The isoform sequencing (Iso-Seq) application generates full-length cDNA sequences — from the 5’ end of transcripts to the poly-A tail — eliminating the need for transcriptome reconstruction using isoform-inference algorithms.

The Iso-Seq method generates accurate information about alternatively spliced exons and transcriptional start sites.

It also delivers information about poly-adenylation sites for transcripts up to 10 kb in length across the full complement of isoforms within targeted genes or the entire transcriptome.

实操：Iso-Seq学习

文章解读：Pacbio Iso-Seq 助力玉米高粱转录组研究

案例：Full-length transcriptome sequences and splice variants obtained by a combination of sequencing platforms applied to different root tissues of Salvia miltiorrhiza and tanshinone biosynthesis

2015年发的The Plant Journal，IF=5.468，丹参不同根组织和丹参酮的生物合成（全长转录组测序和混合测序平台来发现剪切变异体）

做了什么工作：

摘要：丹参是中国传统药材，它的根茎和根有很高的价值。它对应的生物活性成分是丹参酮，所以研究丹参酮的生物合成非常有价值，先前的转录组研究是基于NGS的，但是大部分的结果的 isotig 都不能代表全长的 cDNA 序列。而且这些研究都集中于整个植株和发状根培养物。这里，我们证实了丹参酮色素是在根周皮中产生的，我们联合应用了NGS和SMRT技术在不同的根组织中，特别是在根的周皮，来提供一个完整的丹参的转录组信息，而且进一步深入分析了丹参酮的生物合成。此外，使用SMRT测序，能够检测可变剪切，这里我们发现了检测到的基因座中有40%的都发生了可变剪切，包括一些类异戊二烯和类萜代谢。

研究材料：丹参酮一般认为产生于丹参根部周皮部，研究分别取了根部的周皮（periderm）、韧皮（phloem）、木质（xylem）3种类型的根部组织进行了mRNA测序。（很常规的思路，分析重点落在特色作物的重要功能成分上，找到该功能成分的合成场所，对该部分组织进行转录组分析，通过分析就肯定能找到与该代谢物相关的差异表达基因，最后把其他代谢扯一扯就发了一篇文章）
研究方法：3种类型根部样本各设置3个生物学重复，总共9个样本，采用Hiseq2500 PE100进行测序，每个样本产生~5G raw data 。9个样本混合测序，采用PacBio进行测序，建<1kb、1-2kb、2-3kb、>3kb 四个SMRT bell文库，总共产生~4.8G raw data（估计一下，这个项目花了多少钱呢？一个样本Hiseq转录组多少钱？一个PacBio转录组多少钱？）

主要发现
1)采用Hiseq2500 数据对PacBio RSII平台所产生的subreads进行了校正，最后得到了16,241个高质量非冗余isoform。
2)基于Hiseq2500产生的mRNA数据的差异表达分析，发现了在根部周皮部特异表达与者高表达丹参酮合成相关基因，SmCPS1、SmKSL1、GGPS、IPI、CYP等；
3) 最后研究者使用得到的16,241个高质量的Isoform进行了可变剪接分析，发现了大约有40%检测基因位点发生了可变剪接现象，其中有些基因参与了萜类化合物代谢及类异戊二烯代谢。

文章逻辑：

全文都围绕着一个话题：tanshinone biosynthesis（丹参酮的生物合成）

引言怎么写：

作物特点、价值、功效，核心功能成分的代谢途径，揭示其机制非常重要。

前人在该方向上（转录组）的研究方法及结果：inducible diterpene synthases（诱导二萜合成酶），SmCPS1 and SmKSL1；cytochrome P450 (CYP)。主要集中于 tanshinone biosynthesis 的前提和关键步骤，二萜烯烃前体，最初的羟基化，牵扯到一些生物化学代谢途径的解析。

本文使用技术的优势，目的及意义：1.全长转录组；2.dissect the root finely enough to localize tanshinone production and accumulation。

分析逻辑（结果）：

tanshinone积累的定位

这部分虽然简单，但是可以显著提升文章前后的逻辑性。分离拍照，然后电镜一张，UPLC成分含量分析。

Combined sequencing approach to the roots of danshen

这一步就是为了找出不同组织中的差异表达基因，使用NGS和SMRT混合测序手段，分析表达的基因。

Expression analysis indicates co-localization of tanshinone biosynthesis and accumulation

表达分析揭示tanshinone 生物合成和积累的协同定位

Co-expression analysis for the investigation of tanshinone biosynthesis

共表达分析

Alternatively spliced isoforms

可变剪切体

待续~

查看全文

相关阅读:
实现Android ListView 自动加载更多内容
 Android中通过GPS或NetWork获取当前位置的经纬度
 android检测当前网络是否可用
 怎么样获得泛型T的Class对象？
slidemenu
linux mysql 操作命令
 解决Skyline 6.5版本中3DML模型单体化后外部网页挂接问题
 解决Skyline6.5多球对比时，自动运行TerraExplorer软件的问题
 OSGeo.OGR.Geometry
TerraExplorer Add-ons 和TEZ使用说明

原文地址：https://www.cnblogs.com/leezx/p/6104075.html