转载:https://www.jianshu.com/p/a93cdbc36339
提起 LTR,相信很多人和我之前一样都是熟悉又陌生的感觉,听过或者接触过却未深入了解过。若您对 LTR 分析有兴趣,却苦于无从下手时,愿本文作为一个叩门砖,为您敲开 LTR 分析的大门。本篇从 LTR 的定义、分类、生物学意义、结构特征、鉴定方法等方面层层递进,带您走进神奇的 LTR 世界。
1. LTR 与重复序列、转座子的关系
LTR-RTs 是 Long terminal repeat-retrotransposons 的缩写,中文名是长末端重复反转座子。LTR-RTs 名字中既有重复、又有转座子,那么它和重复序列、转座子是什么关系呢?图1 为您解答。
重复序列:根据重复区域是否连续可分为串联重复序列和散在重复序列(又名转座子、转座元件)两大类,前者相连,后者不相连。
转座元件(transposable elements, TEs) 又称转座子:指在基因组中能够移动或复制,并可以整合到基因组新位点的一段 DNA 序列。根据转座过程是否形成 RNA 中间体,转座子可分为 DNA 转座子和反转录转座子。反转录转座子是以 RNA 为媒介,伴有反转录过程,以复制-粘贴的方式在基因组的新位置产生一个新的拷贝。DNA 转座子的转座机制则是剪切-粘贴的形式。
LTR-RTs :是反转座子中的一种,因其两侧存在长的末端重复而得名。不含长末端重复的反转座子统称 non-LTR-RTs,主要包含短散在重复(SINE)和长散在重复(LINE)。
2. LTR的分类
动植物基因组中存在大量转座子,尤其是植物基因组中。LTR 因其数量多且 LTR 长度巨大,在植物转座子中具有较高的基因组含量。在玉米基因组中 LTR 占基因组含量高达 75% ,山苍子基因组中 LTR 占比高达 47%,所以基因组 LTR 的鉴定尤为重要。反转录转座子根据转座元件结构的完整性和转座特点可分为自主元件(编码转座酶)和非自主元件(自身不编码转座酶)。非自主转座元件需在自主元件的协助下才能发生转座。完整的 LTR-RTs 由两端序列完全一致的末端重复、GAG(衣壳蛋白)和 POL 构成,后生动物中含 ENV (包膜蛋白)。其中 POL 包含 AP(天冬氨酸酶)、INT(整合酶)、 RT(逆转录酶)和 RH(核糖核酸酶 H),是 LTR 能否自主转座的关键蛋白。 LTR 分类见图 2,在高等植物中主要主要包括 Ty1/Copia和 Ty3/Gypsy 两个超家族,二者差别在于 INT 的位置不同。
3. LTR的生物学意义
不少研究表明活性 LTR 插入到关键基因内或周边会导致性状改变。2019 年,发表在 Nature Communications 的《A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour》文章中揭示苹果红皮表型形成与一个 LTR-RT 插入相关。MdMYB1 有 MdMYB11-1、MdMYB1-2 和 MdMYB1-3 三个等位基因,其中 MdMYB1-1 是控制苹果果皮花青素合成的单一显性基因。相较于黄苹果基因组,在红苹果基因组的 MdMYB1-1 基因启动子上游有一个 LTR-RT(命名为 redTE)插入,并经过 PCR 验证是红苹果中存在一段特异的序列(图 3)。redTE 作为一种增强子,增强 MdMYB1-1 对光的敏感性,从而累计花青素,形成红色表皮。
此外,LTR 的扩张和收缩也影响着基因组大小,上期小叶茶文献《Mol Plant 项目文章 | 第一个茶树染色体级别高质量参考基因组发布》中,揭示小叶茶基因组中 LTR 的扩张尤其是非自主 LTR 的扩张是小叶茶基因组庞大的主要原因。
4. LTR-RTs 的结构特征
典型的 LTR-RTs 的结构有 5 个特征,其模式图见 4-1,各特征意义如下:
(1) TSR(TSD): 目标重复位点,是 4~6bp 的短的重复序列,在 5’LTR and 3’LTR 两侧,是转座子插入的信号。
(2) 5’LTR and 3’LTR : LTR 两端序列完全一致的末端重复, TG..CA box,完整的 LTR 均含有此结构。LTR 长度一般在 85~5000bp。
(3) PBS(primer binding site) 引物结合位点: 在 5’LTR 的末端,可与一些 tRNA 3’ 末端互补结合的一段 18bp 左右的序列,是反转录的第一步。
(4) 蛋白区域: 长度通常在 1000~15000bp。
GAG:衣壳蛋白。
POL:包含4中酶,由AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆转录酶)、RH(核糖核酸酶),LTR 能否自主转座的关键原因。
ENV:包膜蛋白,后生动物中存在。
(5) PPT:3’LTR 的起始位置短的富含嘌呤的序列,11~15bp。
LTR 在生物体内历经成千上万年的进化,发展出许多存在形式(图 4-2)。我们通常将包含两个相对完整的 LTRs 和已识别的 PPT 和 PBS 位点的元素,且两侧有 TSD 的 LTR 定义为 Intact LTR(A)。由于 LTR-RTs 两端序列非常相似,LTR-RTs 内可发生重组,导致内部元件消失,形成 solo LTR(C),而 solo LTR 的数量表明了一个基因组中 LTR 去除的频率和效率。此外 LTR 发生缺失、易位可形成截断的 LTR(B)。LTR 也会经常插入到其他 LTR 内部区域,形成嵌套 LTR(D)。因存在这些突变机制,实际上完整的 LTR-RTs (A)只占基因组中所有 LTR-RT 相关序列的一小部分。
5. LTR-RTs 鉴定方法
LTR-RT 的鉴定方法基本归于三类:从头预测、基于结构预测、基于同源比对。LTR_STRUC[5] 是一款最早的从头预测 LTR 的软件,LTR_finder[3] 和 LTRharvest[6] 是目前为止鉴定 LTR 最敏感的程序,但假阳性依然很高。RepeatMasker[7] 基于数据库,使用同源方法来预测 LTR,但不同物种 LTR 差异较大,构建物种特有的 LTR 库非常必要。在 2017 年密歇根州立大学园艺系的 Shujun Ou 团队开发 LTR_retriever[4] 平台用于 LTR 的鉴定,文章发表在 Plant Physiology 上。这是一款整合软件,以一个或多个 LTR 预测软件鉴定 LTR 的结果作为输入文件,通过不同模块(图 5-1)对 LTR 进行过滤和修正来对预测软件的预测结果进行整合和调整,以得到非冗余精准且完整的物种特异 LTR 库,再使用 RepeatMasker[7] 进行预测
LTR_retriever 软件从 sensitivity(敏感性)、specificity(特异性)、accuracy(准确性)、precision(精确度)四个维度对 LTR 鉴定结果进行评估,其具体意义见图 5-2。以真实 LTR 和非 LTR 序列作为参考库,使用软件进行预测。对预测结果分为以下四类:
TP:真阳性,真实的 LTR,被准确预测出
FN:假阴性 ,真实的 LTR,未被准确预测出
TN:真阴性 ,非 LTR 序列未被预测当成 LTR
FP:假阴性,非 LTR 序列被当成 LTR
从下图公式可知敏感性代表对真正 LTR 的检出能力,特异性代表排除非 LTR 序列的能力,精确性代表正确检出的能力,精确度代表检出结果的真阳性率,精确度越高则表明结果越可靠。
使用 LTR_retriever 对现有软件预测 LTR 结果进行,评估结果(图 5-3)显示 LTR_retriever 明显优于其他现有软件,而 Shujun Ou 团队在 2019 发表在 Genome Biology 上的有关转座子注释方法中推荐 LTR 的鉴定方法是使用以 LTR_finder 和 LTRharvest 软件鉴定结果作为 LTR_retriever 的输入文件[8]。
6. 诺禾致源为您定制专属 LTR 分析方案
随着三代测序技术的发展,借助于超长度长序列,重复序列的组装将会越来越精确。人们对重复序列的研究会更加深入,而 LTR 因其特殊的生物学意义被格外关注。LTR 的鉴定是 LTR 相关分析的基础,目前 LTR 分析方法尚无标准。表 6-1 是诺禾致源公司联合发表的 LTR 分析相关文章列表。诺禾致源 LTR 分析流程中,先使用 LTR_finder 和 LTRharvest 对 LTR 进行鉴定,再利用 LTR_retriever 进行整合,构建非冗余精准的物种特异 LTR 数据库后使用同源预测方法进行注释,再过滤掉假阳性,为您注释出全面且精确的物种 LTR 序列,包括 intact LTR、solo LTR、LTR 相关序列,非典型 LTR 等。明确 LTR 含量在基因组中的占比,在染色体上的分布情况(图 6-1)。
根据物种 LTR 蛋白结构域数据库,对 LTR-RT 进行结构注释和家族鉴定。LTR 分析很多,可根据物种 LTR 鉴定结果、生物学意义进行特殊分析,例如通过聚类分析,确定基因组中主要的 LTR 属于何种家族(图 6-2);对 LTR 进行插入时间评估分析,探索 LTR 的进化动态(图 6-3);构建特殊家族进化树,研究某类 LTR 的进化等。此外,转座子诱导的表观遗传变化经常影响相邻基因的差异表达并产生新的调控模式,例如前面所提的苹果表皮颜色性状文献中检测到红苹果 redTE 序列中有几个区域明显高度甲基化,这为 LTR 分析提供新的思路。
表 6-1 诺禾合作发表有关 LTR 分析高分合作文章