zoukankan      html  css  js  c++  java
  • 文献阅读 | On the subspecific origin of the laboratory mouse

    Yang, H., Bell, T., Churchill, G. et al. On the subspecific origin of the laboratory mouse. Nat Genet 39, 1100–1107 (2007). https://doi.org/10.1038/ng2087
    Supplementary Text and Figures

    这篇2007年发表在NG上的文章,通过研究小鼠基因组中的渗入现象,进行了实验室小鼠的溯源,并开发了起源的高分辨率图谱。

    实验室小鼠的基因组被认为是由不同来源的亚种的区域镶嵌而来。作者通过对小鼠基因组上每100kb区间共构建了25400棵系统发育树,对小鼠基因组进行溯源。结果发现,平均92%的基因组是源于小家鼠(Mus musculus domesticus),且染色体上的多样性分布显然是非随机的(markedly nonrandom)。存在非常大的区间有着极低的多样性。与镶嵌模型相反,作者发现大部分基因组具有亚种内起源的中等水平变异。最后,被认为代表着不同的亚种的野外小鼠品系显示出了大量的亚种间渗入。这对于那些把它们当作一个特定亚种的代表进行进化研究的项目有着很强的启示意义(指其实它不纯不能当代表)

    实验室小鼠(laboratory mice)是研究哺乳动物遗传学最常见的模式生物,是由小家鼠(Mus musculus)中的野生小鼠(wild mice)衍变而来。2004年,美国国家环境健康科学研究所(NIEHS)与Perlegen Sciences签约,对15个小鼠自交系进行了重测序。项目已发布了包括核基因组和线粒体基因组的830万个SNP的超过1.09亿个基因型。选择这15个品系是基于它们的遗传多样性、易于繁殖、被纳入“小鼠现象计划”,在研究中广泛使用和背景信息而定的。

    作者利用这一数据,鉴定了实验室小鼠中M. m. domesticusM. m. musculusM. m. castaneus的渗入区段。

    1 方法

    1.1 数据来源

    作者对DNA上部分片段进行了重测序。

    测序是在北卡罗来纳大学教堂山分校的ADNA Prism 3730(Applied Biosystems)上的自动DNA测序设施中进行的。首先使用Sequencher(GeneCodes)软件对所有序列进行比对。修剪比对的序列以仅保留高质量序列。我们确定了Ensembl Build 36中每个SNP的基因组位置,以及我们的序列和CRG序列之间完全重叠的区域。然后比较重叠区域,并确定共享和非共享的SNP。如果两个数据集在相同位置具有相同的SNP,具有相同的替代等位基因和相同的应变分布模式,则我们认为SNP是共享的。

    1.2 SNP筛选

    作者将可用于分析的SNP定义为:如果基因型在三个参考品系(CAST/EiJ, PWD/PhJ and WSB/EiJ)中都是完整的,且SNP在三个品系中是多样的,则这个SNP是可用于后续分析判定的SNP(diagnostic SNP)。存在三种类型的SNP对应了参考品系中的三种品系分布模式。每100kb中可用于判定的SNP数量被映射在一个simplex中。

    1.3 假阴性率计算

    作者通过将自己测的重测序数据同CRG SNPs进行了比较,测定了不同类别的MAF的假阴性率FNR。在FNR上以经过对数转换的MAF进行回归,得到了一个鲁棒的、平滑的MAF-specific FNR的估算。在1-7个品系对应的SNP上,FNR分别是0.76, 0.64, 0.57, 0.52, 0.48, 0.45 and 0.42。为了估计在经典品系中变异的snp所占的比例,作者计算了经典品系中每个MAF类变异的占比,并对每个MAF类应用了偏差校正(见分支长度校正)并计算加权平均值。

    1.4 分支长度校正

    属于不同MAF组的SNP的FNR被用于校正系统发育树中估计的分支长度。校正后的长度与SNP的预期总数成正比(观察到的未观察到)。为了获得这种校正,作者将每个分支的估计长度乘以对应于该分支的MAF的因子1 /(1- FNR)。具有较低MAF和相应较高FNR的树的末端分支比具有较高MAF和较低FNR的内部分支扩展更多。

    1.5 系统发育分析

    系统发育分析是使用PHYLIP 3.6版系统发育推断软件包进行的。作者使用15个CRG品系的SNP基因型,为每100 kb的基因组间隔都生成一棵树,并校正分支长度。作者使用了默认参数的Dnapars (DNA parsimony algorithm version 3.6,是PHYLIP的子程序) 进行构建,且使用的搜索选项是“在一个最佳树上重新排列”。作者使用了 Consense (majority rule)进行了bootstrap analysis (Seqboot software (100 replicates)),以检测树的鲁棒性。作者还分别基于286个和4935个SNP对线粒体和Y染色体进行分析。基于距离(邻接法)和基于最大似然(Dnaml)的方法得到了相似的结论。

    1.6 使用校正后的数据计算SNP频率

    采用校正后的树,作者确定了从公共节点到每100kb间隔中三个参考品系WSB/EiJ, PWD/PhJ and CAST/EiJ的距离。这些距离被转换成代表可用SNP的局部贡献的分数,并如上所述以simplex表示。

    1.7 渗入区与平衡区

    a) Geometrical definition of regions with balanced and unbalanced frequencies
    of subspecific diagnostic SNPs. The simplex is divided into five regions. In the
    corners are regions that have unbalanced frequencies consistent with
    intersubspecific introgression. The central circle shown in grey contains the
    intervals with balanced frequencies. The remaining area (shown in white)
    defines intervals with undetermined status.

    如图,simplex被分割为5个区域,位于三角形顶点处的三个区域包含三种可能类型的不平衡间隔。在这些区域中,校正树上三个参考品系的最长和最短分支的长度之比大于4:1。在几何上,这对应于以simplex顶点为中心的三个圆的内部,圆半径为1 / sqrt(12)。

    通过HMM,区间被分类为潜在的亚种间渗入,来填充大的不平衡区块中独立的平衡区段,并移除独立的不平衡区段(即平滑)。HMM模型有4个隐状态,分别代表三种源于不同品系渗入模式,和“平衡”状态。此处,“真正的”渗入状态被视为隐状态。HMM的“输出”是一个指示器,指出了区段在simplex中所处的区域(位置)。HMM的参数被设置为99%的概率保持原状态。当HMM未发现一个区间是渗入区间,且最长分支与最短分支长度之比小于3:1时,认为该区间是平衡的。被HMM从推定的渗入区域中排除的区段,和位于simplex上不平衡区与平衡区之间的区域被视为undetermined regions。

    1.7 成对比较中的归一化差异

    在品系的成对比较中,作者采用校正后的系统发育树中的一对品系间的距离作为遗传变异的估计。在每个区间中,作者估计了三种参考品系间的差异。

    归一化值是给定近交菌株对之间的距离与来自不同亚种起源的所有成对菌株之间的平均距离之比(当前对距离/所有对距离的平均值)。

    对于基因组的平衡区域,亚种间平均值包括七个成对比较(三对参考品系之间的变异以及三个参考品系与来自不同亚种的两个经典品系的四种可能组合之间的变异)。

    对于基因组的不平衡区域,使用来自不同亚种的两对参考品系确定亚种间平均值。

    1.8 不平衡区段的亚种起源

    对于不平衡的区域,不可能将祖先亚种起源分配成每个经典品系的小片段。作者利用观察到的基因组平衡区内亚种间和亚种内变异的分布,推断出每个间隔中在所有经典品系内的祖先亚种的数量(Fig. 5)。具体来说,作者们计算了每对经典近交品系之间的比率以及两对没有渗入证据的野生源品系之间的平均距离,并认为,如果比率<0.73,则一对经典品系属于同一亚种;如果比率> 0.73,则它们具有源自不同亚种的单倍型。这个阈值来自于在经典品系中观察到的亚种内变异与亚种间变异的平均分布(Fig. 5)

    2 图片结论

    2.1 亚种特异性SNP频率分布

    2.2 SNP偏差与校正

    2.3 渗入鉴定结果

    2.4 经典品系与杂交品系的亚种起源

    2.5 在11个重测序品系中观察到的平均标准化遗传变异的频率和空间分布。

  • 相关阅读:
    ES6入门之Promise对象
    Iterator和ListIterator区别
    try_catch_return
    T-SQL查询进阶--详解公用表表达式(CTE)
    Node.js安装及环境配置之Windows篇
    Java中Lambda表达式的使用
    windows下redis 开机自启动
    IDEA快捷键(修改成eclipse版)+Templates
    oracle赋予一个用户具有查询另一个用户所有表数据
    sql触发器
  • 原文地址:https://www.cnblogs.com/esctrionsit/p/13740471.html
Copyright © 2011-2022 走看看