RNA -seq
RNA-seq目的、用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异。
比如:正常组织和肿瘤组织的之间的差异;检测药物治疗前后,基因表达的差异;检测发育过程中,不同的发育阶段,不同的组织之间的基因表达差异 等
在所有检测的差异类型中,最常用的一种检测就是:检测所有mRNA的表达量的差异。
还可以检测 RNA 的结构上的差异。例如:mRNA的剪接方式的差异,即“可变剪接”;还可以检测“融合基因”,同时还可以检测基因单点突变导致的SNP。
测序方法、步骤:人的细胞或组织,一般抽提到的总RNA当中,95%都是核糖体RNA。剩下的2%到3%是mRNA。还有2%到3%是Long non-coding RNA、或者tRNA、microRNA等
先把核糖体RNA先去掉。然后再进行建库测序。比如利用Poly(A)尾巴 抓出mRNA ,镁离子溶液打断,逆转录成cDNA ,再建库扩增,测序
表达量指标:目前最常用的是RPKM值,对基因表达量进行相对定量的一个指标。RPKM是 Reads Per Kilobase of exon model perMillion mapped reads。
除以这个外显子的长度,它的目的:是修正这个mRNA长度所引起的mRNA的Read数的偏差。
火山图:针对全转录组的分析,表达的是一次看到一个整体的样本(表达)差异的情况。
横轴表示某个基因的表达量是上升或下降。纵轴是表示这种差异的置信程度。这其中的每个点,就是两个样本当中同一个基因的mRNA表达量的变化。
聚类分析图:它是通过多个样本的全基因表达谱对比,来找到它们之间的相似性,和相近关系。
一张聚类分析的图,横轴是样本,纵轴是基因。
应用:我们可以分析疾病的亚型;还可以通过对多个基因在特定疾病当中的表达倾向性,来找出可能的、新的、诊断用的Biomark。
GO(gene ontology)分析:
GO主要描述基因的三个属性:
第一,是这个基因,它参与的生物过程
第二,是这个基因产物的功能
第三、是这个基因产物在细胞器内的空间定位
差异基因GO富集柱状图:可以直观的反映出在生物过程、细胞组分、和分子功能富集的差异基因的个数分布情况。 柱子越高,则表示这个亚类当中突变越多。
有向无环图,是差异基因GO富集分析的图形化展示方式,从上到下,它所定义的功能范围越来越小、越来越精准。 它的分支,表示包含关系。而这个圈圈的颜色越深呐,表示这个富集关系程度越高。
通路(Pathway)分析:在系统水平上完成生物的某一功能的基本单元、或者局部子网络。
散点图是KEGG富集分析结果的图形化展示方式。
在图中,KEGG富集程度通 Rich factor、Qvalue 和 富集到此通路上的基因个数 来衡量。
富集因子越大,则表示富集的程度越大。 qValue是校正之后的pValue,它越接近于0表示富集程度越显著。点面积越大呐,则富集的基因数越多。
RNA-seq中,可以测到mRNA上的各种结构上的变异,即RNA序列的变异。要求测序深度要更深。因为这样才能得到较完整的覆盖,更有把握判断 新的剪接点、一个断点、哪儿碱基发生了突变等。
结构变异分析:
可变剪接:一般一个人的组织样本当中,可以通过高通量测序,发现有5000个到20000个左右的可变剪接。
基因融合:融合基因的示意图,圆形 圆内弧线连接图
点突变(SNP):泡泡图,泡泡越大 突变频率越高,由大到小逆时针排列