春夏之交,蚊虫渐起,香甜的睡眠中被嗡嗡的虫鸣吵起,赶又赶不走,找又找不到,可谓是最痛苦的体验之一了。昨晚卧室被蚊子侵入了,可恼没有准备驱蚊水,半宿无眠,配图体验感受:
其实对于人类而言,蚊子的危害更在于它是许多病原传播的媒介。其中,做为黄热病、登革热、寨卡等多种病毒的传播媒介——伊蚊,可谓是“最毒之蚊”。
伊蚊,蚊科伊蚊属昆虫,是蚊科中最大的一属,主要的种类包括:埃及伊蚊(Ae. aegypti),白纹伊蚊(Ae. albopictus)等,这两种也就是我们俗称的“花蚊子”。
那么为什么蚊子可以传播病毒而不被感染致死呢?
因为蚊子的免疫系统比较特殊。简单的说,当外来的RNA病毒侵入时,蚊子基于RNAi的免疫防御机制能够通过dicer、argonaute蛋白以及Piwi蛋白和piRNAs等介导的信号通路,切割病毒RNA以免于感染。而这种免疫机制使得病毒能保持低水平的复制,从而能够通过虫媒传播。
本着生信R&D的职业操守(大雾),看到一个物种总想看看有没有相应的基因组学文献,找到了最近发表的伊蚊基因组文献,感觉还是很有意思的。
对于伊蚊,研究人员已经不是第一次进行基因组测序和denovo了。早在2007,埃及伊蚊就已经通过桑格法进行测序了,即LVP参考基因组;在2015年,通过Illumina测序平台进行测序,得到了参考基因组UCB。但是,由于伊蚊基因组非常复杂,重复元件比例很高,以前的伊蚊基因组并不能完整的反映全基因组的组分,尤其是在重复区域存在较多的缺失。因此,在最近的文献中,UCSF的研究人员采用最新的pacbio单分子测序技术,提升了测序reads的读长,得到迄今最完整的伊蚊基因组。
一. 测序基本信息
兵马未动,粮草先行。基因组学分析离不开完备的样本准备、严格的实验测序,甚至可以说,好的测序结果是好的分析结果的一半。而实际测序情况的复杂在于难以标准化,且对数据分析结果的影响往往难以界量。
伊蚊做为广泛研究的昆虫类模式生物,其测序的方法可以作为很好的样例。
测序材料 |
埃及伊蚊(Ae. aegypti)Aag2细胞系 |
测序平台 |
Pacbio RSII测序仪,P6/C4酶 |
文库构建 |
130 ug gDNA经打断和片段筛选得到37ug sheared DNA,经损伤修复后构建得到20.5ug的SMRTbell文库,文库片段筛选选择15kb的cutoff得到文库1,选择17kb的cutoff得到文库2,文库质检后再次损伤修复和磁珠清洗,得到用于上机的文库 |
上机测序 |
文库1上样浓度75-100 pM,文库2上样浓度40-60pM,上机测序时间6h |
测序数据 |
文库1测得84个SMRT cells, 文库2测得32个SMRT cells,116个SMRT cells共得到92.7GB测序数据,平均subreads长度13.2kb
|
二. 基因组基本信息
与之前基因组比较,在完整性上,Aag2基因组大小达到1.7Gb,BUSCO单拷贝基因集注释率达到97%;而在连续性n50上,更是超过了以前基因组的两个量级以上。
|
UCB |
LVP |
Aag2 |
Sample |
LVP strain |
LVP strain |
Aag2 cell line |
Seq Strategy |
illumina |
Sanger |
PacBio |
Released |
5/2015 |
6/2006 |
NA |
Coverage |
6.8x |
7.6x |
~50x |
Genome size |
744,596,036 |
1,383,957,531 |
1,723,930,323 |
Total gap length |
196,533,049 |
73,881,199 |
0 |
Num of Contig |
961,292 |
36,204 |
3,752 |
Contig N50 |
989 |
82,618 |
1,420,116 |
三. 基因组分析
在得到高质量的埃及伊蚊基因组上,研究人员讲了一个有趣自洽的故事。
首先,转座元件(TEs)的注释。
转座元件在基因调控上有着重要的作用,为基因组进化提供着变异来源。Aag2基因组上注释到的重复元件比例达到55%,而且数目远远多于之前的基因组。进一步分别计算了TEs的密度分布和Kimura divergence scores。
然后,内源性病毒元件(EVEs)的注释。
在埃及伊蚊的组装结果上,共发现来自8个病毒家族,368个EVEs,其中种类最多的三个家族是弹状病毒、黄病毒、楚病毒科。同时也发现,EVEs在基因组上的分布与TE聚群有着紧密的联系。其中,关联最大的一类转座元件正是长末端重复元件LTR。
进一步的研究表明,来自不同病毒家族的EVEs有着不同的近端TEs富集模式。例如,来源黄病毒和弹状病毒的EVEs临近区域富集Ty3/gypsy元件,而楚病毒科派生的EVEs与Pao Bel元件最临近。
最后,在不同种的伊蚊--埃及伊蚊和白纹伊蚊的比较中,EVEs存在着明显的差异。这表明伊蚊基因组上的EVEs在进化过程中可能受到了选择,而且与不同伊蚊的媒介能力有重要的关系。
这篇文献的作者是研究RNA病毒方面的专家,组分分析上也没有走常规路。"EVEome"的概念挺有趣的,基因组的演化不仅是内源的突变和重组,还包含着外源的竞争和整合。
伴随着高质量基因组的构建,研究人员对基因组组分的分析也更加深入和全面。在注释方面,不仅仅是关注编码基因,非编码基因(ncRNAs)以及转座元件(TEs)的研究也越来越受到重视。在遗传进化分析上,不仅仅是基于编码蛋白的比较基因组学分析,基于ncRNA和TEs的比较研究也越来越多。