基因功能的富集分析已成为高通量组学数据分析的常规手段,对于揭示生物医学分子机制具有重要意义。关于GO、KEGG、GSEA等等这些词,网上也有很多教程,教大家怎么做GO分析、怎么做GSEA分析等等。但我们不仅要知其然,还要知其所以然。这里,我找到两篇富集分析的综述,跟大家一起学习一下。
照例,先给出这两篇文章
Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges
基因功能富集分析的研究进展
一、为什么要进行功能富集分析?
随着高通量技术的发展,生物医学相关研究领域进入了组学时代,单个基因的研究已经不能满足研究人员的需要。然而,如此庞大的数据使得信息的有效提取和分析带来了新的挑战。以测序数据为例,测序结果分析往往会得到差异表达的基因或蛋白列表。但对许多研究人员来说,将这一长串基因或蛋白与某个待研究的生物学现象及其潜在机制联系起来是很困难的。应对这一挑战的一种方法就是将一个基因或者蛋白列表分成多个部分,从而减少分析的复杂度。研究人员为了解决分成哪些类,开发了多个注释数据库。为了解决怎么分成不同类,研究者通常会对基因功能进行富集分析, 期望发现在生物学过程中起关键作用的生物通路, 从而揭示和理解生物学过程的基本分子机制,在这过程中开发了多种软件。
功能富集分析可以将成百上千个基因、蛋白或者其他分子分到不同的通路中,以减少分析的复杂度。另外,在两种不同实验条件下,激活的通路显然比简单的基因或蛋白列表更有说服力。
二、基因功能富集分析的基因功能数据库及软件
常用注释数据库:GO、KEGG、Reactome、Biocarta、MsigDB等等;
常用软件:
三、基因功能富集分析方法
目前,功能富集分析方法主要分成四大类:
ORA: over-representation analysis 过表达分析
FCS:functional class scoring 功能集打分
PT:pathway topology 通路拓扑结构
NT:network topology 网络拓扑结构
1. ORA法
又称为"2X2法";
首先,获得一组感兴趣的基因(一般是差异表达基因),然后给定的基因列表与某个通路中的基因集做交集,找出其中共同的基因并进行计数(统计值),最后利用统计检验的方式来评估观察的计数值是否显著高于随机,即待测功能 集在基因列表中是否显著富集。最常用的统计检验包括:超几何分布、卡方检验、二项分布。
这里常用的软件或者网站有DAVID等;
优点
基于完备的统计学理论, 具有结果稳健、可靠的优点
缺点
(1)仅使用了基因数目信息,而没有利用基因表达水平或表达差异值,而为了获得感兴趣或者差异表达基因,需要人为的设置阈值;
(2)ORA法通常仅使用最显著的基因,而忽略差异不显著的基因。在获得感兴趣的基因时, 往往需要选取合适的阈值, 而这样有可能会丢失显著性较低但比较关键的基因, 导致检测灵敏性的降低;
(3)将基因同等对待,ORA法假设每个基因都是独立的,忽视了基因在通路内部生物学意义的不同(如调控和被调控基因的不同)及基因间复杂的相互作用;
(4)ORA假设通路与通路间是独立的,但这个前提假设是错误的。
2. FCS法
首先根据案例和对照状态下的基 因表达谱对基因组中所有基因表达水平的差异值进行打分或排序,或直接输入排序好的基因表达谱;其次是把待测基因功能集中的每个基因的分数通过特定的统计模型转换为待测基因功能集的分数或统计值;最后利用随机抽样获得的待测基因功能集统计值的背景分布来检验实际观测的统计值的显著水平,并判断待测基因功能集在案例和对照实验状态下是否发生了统计上的显著变化。
除了上述处理和对照组比较的方法外,FCS还有一类基于单样本的分析方法,如PLAGE/ZSCORE/SSGSEA,这些方法的一大优点是可以通过调整相关协变量,相对简单地分析一些非常复杂的,如包含时间进度的多样本设计。
优点
总体而言, FCS 相较于 ORA 方法 在理论上有明显突破, 考虑到了基因表达值的属性 信息, 而且以待测基因功能集为对象来进行检验, 也 使得检验结果更加灵敏.
缺点
(1)与ORA类似,FCS仍独立分析每一条通路,但同一个基因可能涉及多条通路,所以不同通路间的基因出现重叠,所以别的通路可能由于重叠的基因,也出现显著富集;
(2)FCS 方法仍然把待测基因功能集中的每个基因作为独立的个体, 忽略了基因的生物学属性和基因间的复杂相互作用关系。
3. PT法
ORA和FCS方法在进行通路的富集分析时, 都将通路中的每个基因视作独立个体,而实际上通路内的基因需要通过调控、被调控、相互作用等复杂的关系一起来影响细胞的发育、分化或疾病等生物学过程。因而,在进行通路的富集分析时,尤其是基因表达的通路富集分析时,有必要考虑到通路中基因的生物学属性。例如,在一个调控通路中,上游基因的表达水平改变显然要远大于下游基因的表达水平改变对整个通路的影响。基于通路拓扑结构的PT富集分析方法就是把基因在通路中的位置(上下游关系),与其他基因的连接度和调控作用类型等信息综合在一起来评估每个基因对通路的贡献并给予相应的权重,然后再把基因的权重整合入功能富集分析。不同的PT方法在具体的权重打分时,采用了不同的方式。
GO 等注释数据库中基因功能集中不包含任何拓扑结构信息,仅提供了可能属于同一通路的所有基因列表。
所以,PT方法不能被用于GO通路的富集分析。
优点
对于研究较完善、拓扑结构完整的通路,基于PT的基因功能富集算法会有更强的显著性;
缺点
对于通路拓扑结构存在依赖性,该类方法对于研究较少、信息不完善的通路稳健性较差,因此目前通路注释的不完善也是限制基于PT的基因功能富集分析方法进一步发展的重要因素。
4. NT法
目前NT法有一些不同的思路:
(1)有一些基于生物网络拓扑结构的富集分析方法,它们利用数据库中的基因相互作用关系来间接地把基因的生物学属性整合入功能的富集分析。这些方法的主要思路是利用现有的全基因组范围的生物网络,如HPRD、FunCoup、STRING等,来提取基因间的相互作用关系,包括基因的连接度及基因在网络中的距离等,来计算一给定的基因列表与一待测的基因功能数据集在网络中的连接关系,从而来推测待测基因功能集是否与给定基因列表紧密相关;如『NEA/EnrichNet等软件』
(2)另一些方法是利用网络拓扑结构来计算基因对特定生物通路的重要性并给予相应的权重, 然后再利用传统的ORA 或 FCS 方法来评估特定生物通路的富集程度,如 GANPA 和 LEGO 等;
(3)有些方法是直接把基因列表中的功能富集问题利用网络转化为基因对的功能富集问题,如 NOA 等。
优点
与传统方法相比,基于网络的基因功能富集分析方法加入了系统层面的基因重要性程度及关联信息,使得预测结果更加准确可靠。
缺点
更多信息的加入也容易导致算法过于复杂,计算速度较慢。
需要注意的是不同的方法均有其优缺点,研究人员应在对富集分析有一定了解的基础上,选择适当的方法。
上面的是废话,要是真这么好选,那也不会存在100多个富集分析软件、网站了。更多时候,大家就要常见的GO、GSEA分析就差不多够了。
作者:生信family
链接:https://www.jianshu.com/p/5a4bda169247
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。