随着抗生素药物的发现及使用,越来越多的耐药菌株由此产生。而耐药菌株的发展则会增加疾病治疗的难度和成本,因此耐药微生物的研究则显得尤为重要。目前,通过对耐药基因的鉴定挖掘能够一定程度上帮助我们揭开耐药机制,为疾病的治疗、药物研发提供参考。ARDB是最先整合了各种微生物中抗药基因的数据库,但它从2009年开始就不再更新。而CARD(the Comprehensive Antibiotic Research Database)数据库包含了ARDB数据库中所有抗性信息,并搭建了一个基于志愿者贡献的数据共享平台,做到了实时更新保证了数据的有效性。目前,CARD数据库收集了超过1600个已知的抗生素抗性基因。
数据库描述
CARD数据库(http://arpcard.mcmaster.ca)核心是ARO(Antibiotic Resistance Ontology), ARO包含了与抗生素抗性基因,抗性机制,抗生素和靶相关的term,如图所示。2017年发表的文章中,更新了数据库的相关功能,其中也提到了其他本体论,如用于描述抗生素抗性基因预测模块和参数的MO,定义不同term之间关系类型的RO,以及描述CARD中物种和菌株的NCBITaxon。
耐药基因预测
在CARD数据库网站,点击Analyze选项可进入耐药基因预测界面。耐药基因预测分析可通过选择BLAST和RGI(Resistance Gene Identifier)两种模式来实现。BLAST是依赖NCBI中BLAST软件,将序列与CARD参考序列进行比对,获得相关的注释信息; RGI是CARD数据库团队开发的基于蛋白预测抗性基因序列的软件,即通过蛋白同源和蛋白变异来预测抗性基因序列。目前,RGI仅能够分析蛋白序列,如果有基因组序列或组装后的contigs提交上来,那么首先需要使用软件Prodigal来预测开放阅读框,然后RGI分析预测得到的蛋白序列。
图1
RGI接受多种格式的数据信息,包括: GenBank accession ,GI 号,fasta格式的序列信息等,见图2。在进行耐药基因预测时,提供了三种算法,即Perfect, Strict, and Loose。RGI一般默认Perfect, Strict。RGI结果可通过Resistance wheel可视化,见图3。图中内环表示抗性分类,外环代表抗生素抗性基因,例如抗性基因orf0_267表现氨基糖苷类(aminoglycoside)抗生素抗性。
图2
图3
数据库下载
所有的ARO,靶,序列等都能够被下载,下载地址为http://arpcard.mcmaster.ca/download。如图4所示,ARO以OBO格式存在,每个term都包含term id号,抗生素分类信息,抗生素描述信息等;序列数据以fasta格式存在,如图5。
图4 ARO
图5 nucleotide_fasta_protein_homolog_model
CARD数据库下载之后,可以通过blastp将基因序列比对到CARD数据库,从而进行抗性基因的注释。如果给出的是组装后的scaffold序列,则需要先进行基因预测,然后将预测得到的蛋白序列比对到CARD数据库,从而获得抗性基因。
参考文献:
McArthur,A.G., Waglechner,N., Nizam,F., Yan,A., Azad,M.A., Baylay,A.J., Bhullar,K., Canova,M.J., de Pascale,G., Ejim,L. et al. (2013) The comprehensive antibiotic resistance database. Antimicrob. Agents Chemother., 57, 3348–3357.
2. Jia B, Raphenya AR, Alcock B, Waglechner N, Guo P, Tsang KK, Lago BA, Dave BM, Pereira S, Sharma AN.et al. (2017) CARD 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database.Nucleic acids research Volume 45 p.D566-D573