火山图 Volcano plot
在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化。由于它的形成像火山喷发的样子,所以被称为火山图。和上文讲的曼哈顿图类似。
火山图基本元素
火山图也有很多种样式,在生物学高通量测序结果中,常见有的X和Y轴分别为aboundance 和 fold-change,或p-value和fold-change两种样式。如上图中为p-value versus fold-change的样式,,先此为例进行图中基本元素解读:
- X轴:通常为两组基因表达或OTU相对丰度比较的变化倍数取2的对数log2(Fold change)。 取log2的原因:由于两数相比,倍数取值范围为0 - 正无穷,上调的倍数为1 - 正无穷,比较容易理解;而下调倍数为0-1很难理解。如果取对数可将倍数以1为中心左右对称,取2的对数是因为经验上2倍差异比较常用,故取log2变换既可以使上调或下调数据对称(上、下调的目标同等重要,无偏好),而且坐标轴1个单位刻度的变化即为2倍差异(方便快速筛选足够差异的点);
- Y轴:两组基因表达或OTU相对丰度相比统计上的显著性Pvalue值,通常取负对数10变换 -log10(P-value)。取负对数与转换下调表达数值原理类似,将0-1范围pvalue数据变为0-正无穷,且将越小越显著的P-vale转换为与显著性正相关,方便观察显著差异目标。Pvalue取负对数10转换后,坐标轴数值2,3对应0.01和0.001的显著阈值,便于理解。有时也用-ln或-log2对Pvalue值进行转换。
- 图中点:代表每个基因或OTU在两组相比时差异倍数和显著性的值;通常将显著变化并且差异倍数大于指定阈值的点规定为显著差异的结果,常用颜色高亮显示(图中绿色点)。有些重点关注的点可以添加箭头或标签进一步突出显示(图中绿色箭头)。有时还会有点大小代表相关丰度,点的形状代表其它一些属性,如物种分类信息等。
火山图绘制
常用R语言的ggplot2绘制。接一来的统计和绘图课会有详细源代码和分析实例。
看图实战(Result)
示例1. 各比较组间上/下调显著差异OTU的数量
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读
图2.A 水稻根不同生态位相对于土壤中显著差异的OTU
1. 图中元素解释:不同于上面例子,此图为Fold change versus Average Abundance样式,大家注意一下,常见就这两种。
- X轴标签为Log10(Average Abundance),是相对丰度平均值 取10的对数,这里用X轴展示了OTU的丰度,而不是pvalue值。其实作者X标题可能将Log2错写为了Log10,因为OTU相对丰度分析常用百分、千分和百万分数,即使是最大的百万分数取Log10最大值仅为6,而不会坐标轴刻度至15,这种0-15的刻度是典型的Log2(RPM)百万分数的数据。
- Y轴标签为Log10(Fold Change)是指两组间比较差异倍数经10的对数变换;标签也可能是错误的,因为想让倍数对称必须取负对数,而且通常用-Log2,Log10的值是10时就有上百亿倍,扩增子不可能有这么大的差异或深度(扩增子差异倍数为了防止分母为零需要加某值,因此也减小了差异倍数,不会有非常大的情况;扩增子测序深度一般只有几千至几十万,不可能有上亿的量)。
- 图中的每个点代表一个OTU,其中图上部有颜色的点为显著富集(enriched)的OTU,下部有颜色的点为显著下降(depleted)的OTU,黑灰色的点为没有显著差异的OTU;图中标记的数字为显著富集或下降的OTU的数量;
2. 图表结果:图中展示了从根际、根表到根内与土壤相比,所有OTU的相对丰度和差异倍数,其中高亮显示显著富集或下降差异OTU和数量;
3. 图表结论和规律:从根际-根表-根内,从外到内,显著差异的OTU总数量是逐渐上升的,代表变化越来越大;其中根际有较多富集的OTU,而根表和根内则较多为下降的OTU;
4. 经验和技巧:本图虽然有X/Y轴标签描述有待商榷,但许多优点值得学习;
1. 大家经常看到的看火山图都是竖起的,左、右部分高亮的为差异OTU,而作者将图像放倒(顺时针旋转90度),以Y轴零刻度为分界面,上部为富集OTU,下部为下降OTU也很直观,而且耳目一新;
2. 图中差异OTU的数量标出,不用读者自己去估计,直接明了,感觉信息量更丰富;
3. 三组图并排且变化明显,不用多説,读者自然会去比较差异,引导读者参与分析比较和规律发现。