背景:16SrRNA 基因通常作为分子标记进行微生物群落结构的研究,但是它有一些明显的限制,比如16S rRNA基因在物种中会有多个拷贝,而且,由于16S rRNA基因的进化速率较慢,在物种间保守,会存在多个物种的基因完全相同的情况,而且由于基因水平转移的发生,即使亲缘关系较远的物种,也可能出现基因序列完全相同的情况,更进一步讲,我们分析时通常只采用16S rRNA基因的某些区域,这导致物种间扩增出来的片段完全相同的概率大大增加;而一些蛋白编码基因,特别是一些参与重要的信号通路的基因,比如参与氮循环的的基因,这些基因出现水平转移的概率小,也可以作为分子标记来研究微生物的群落结构。FunGene 是一个免费的数据库,收录了许多功能基因的序列,而且提供了一些工具对功能基因进行分析。
网址:
http://fungene.cme.msu.edu/
FunGene 将功能基因进行了分类,共分为下面7类:
以功能基因 nifh 为例,下载数据库中对应的蛋白质序列
点击对应的链接
跳转的界面如下:
从上面的截图可以看到,数据库中收录的序列是有重复的,其实FunGene的序列来源于GeneBank 数据库,而GeneBank 数据库是有冗余的,所以FunGene 也会有冗余现象,所以在下载完序列之后,需要去冗余
在去冗余的过程中需要注意,uncultured 代表无法单独培养的一些菌, 比如 uncultured bacterium 代表无法单独培养的细菌,这个是一类物种的简称,不是指同一个物种;
在实际的下载过程中,我发现,FunGene 一次只允许下载10000条序列。
参考资料:
http://journal.frontiersin.org/article/10.3389/fmicb.2013.00291/full