zoukankan      html  css  js  c++  java
  • 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)


    2020年10月张志武老师联合多家单位的大佬撰写的植物GS育种的最新进展,目前还只是预印版(改到第二版)。这篇综述涉及到GS在植物领域应用的最新进展,长达48页。不同于其他的综述描写空洞宽泛,这一篇特别对模型方法进行了介绍,正好解决了我的需求。缺点就是可能重点说明了他们自己开发的算法,其他模型算法介绍不够全面。这里仅记录要点,不当请指正。

    强烈建议阅读原文,虽然很长,但没有太多废话,是比较好的入门材料。
    Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review

    1. 简介

    GS利用所有的基因组标记,不论是否有显著效应。

    过去的GS综述主要描述了:

    • 实施步骤;
    • 训练-测试群的关系,标记属性;
    • 计算的挑战;
    • 物种及具体生产,包括植物、动物、饲草、乳业、小麦等。

    本篇综述的主要内容:

    • 提高GS准确性的方法发展:gBLUP——Bayesian——GWAS+GS;
    • 影响选择反应的三个因素:杂交育种——多性状——长期选择的变异保留;
    • 准确性评估的陷阱及分子育种应用。

    2. BLUP类模型

    • BLUP针对随机效应,BLUPE针对固定效应。
    • 一般而言,随机效应的水平数大于或等于观测(样本),为避免过拟合,混合线性模型MLM需要似然迭代(而非GLM模型中的最小二乘法),最大似然法在随机效应中可以有方差结构。
    • BLUP的发展:

    表型y,遗传效应u,残差e

    *表型y,遗传效应u,残差e*
    • 作物很少由于性别差异而表现不同,而且植物育种依赖于在同胞中选择(无系谱信息),因此BLUP的方法在植物中不如家畜那样常用,直到覆盖全基因组的分子标记出现使之成为可能。

    • 基于标记的亲缘关系矩阵优于基于系谱的矩阵,因为它捕获的是真实的kinship(包含了非系谱的部分,如孟德尔随机抽样和偏分离的误差)。

    • VanRaden的G矩阵:
      image.png
      W是中心化后的基因型矩阵,P是等位基因频率

    • 直接法(左)和间接法(右)比较:
      image.png
      直接法估计u,间接法估计标记效应g之和Mg;当K=M’且标记效应g是独立的正态分布(如上公式)时,间接法和直接法估计的育种值是一样的,即u=Mg。

    • ssBLUP(H矩阵):
      image.png
      权重w介于0-1之间,A22是系谱关系矩阵,ssBLUP比单独使用系谱的ABLUP准确性高

    • 把所有的标记设为随机效应,它们的和用来预测个体:当标记效应服从正态分布,均值为0,方差连续,模型变为岭回归;当方差假定为服从逆卡方分布的随机变量,模型变为贝叶斯方法。

    • rrBLUP和GBLUP预测相同。

    • TABLUP:亲缘关系矩阵中,不是所有的分子标记效应都相同,这些标记可根据具体性状的GWAS估计效应结果来赋予权重。

    • SUPER BLUP(sBLUP):沿用SUPER GWAS的思路(将标记降维为bin),TABLUP可进一步细化为少数基因控制的性状,这样kinship构建仅仅使用的是关联标记。

    • compressed BLUP(cBLUP):也是沿用的compressed GWAS思路,在kinship中考虑群体结构的影响,用group的遗传效应值来代替个体的值,用个体对应的组来进行预测。

    • 对于低遗传力的性状和有较大遗传结构的群体,cBLUP的结果优于gBLUP和sBLUP。

    3. Bayesian类模型

    • n>>p的问题:如果分子标记都作为固定效应,在固定效应模型中易造成过拟合,因此将它们作为随机效应。
    • 假定分子标记效应服从正态分布,均值为0,方差分布如下:
      image.png
    • 实际情况中,很少有全部标记效应都服从同一分布的情况(RRBLUP,限制最大)。除残差外,只有一个随机效应。Bayes方法则有更多的参数需要求解。
    • BayesA限制最小,即每个标记都有它自己的分布和不同的方差。
    • 贝叶斯方法计算的挑战原因是:大量的抽样需要达到收敛。
    • R包:BGLR,BayesR,MCMCglmm,LaplacesDemon,BMTME

    4. 机器学习

    亲缘关系矩阵kinship在工程领域定义为”核“,kernel。
    K自乘产生新的核K2=K’K,这个过程不断迭代直到不再变化。

    机器学习方法相对于传统统计方法的优势:

    • 能处理”大p小n“的问题;
    • 它是个黑箱,无需事先知道变量的分布或目标性状的遗传效应;
    • 考虑了多个体互作或者特征间的相关性;
    • 高准确性(允许重定义训练核验证集,交叉验证)。

    学习算法的目标是为了减少偏差和方差。

    Gadient Boosting Machine(GBM):梯度提升,弱学习算法。
    随机森林模型和GBM都是基于决策树的集成方法。

    非监督方法一般不直接应用于GS,只能提供特征。比如PCA。

    深度学习不论监督和非监督都可用。convolutional neural networks(CNNs),recurrent neural networks(RNNs)。

    不少研究已经比较了机器学习模型和统计模型的结果:整体而言,标准机器学习方法较传统统计模型优;单个方法中,GBM在复杂性状中表现突出,GBLUP在群体结构的群体中表现最好。

    对于加性模型的中低遗传力性状,机器学习和一般统计模型结果是一致的。但在加性和上位性效应的结果中,机器学习方法更优。

    一个较大的挑战:如何整合多点数据到预测模型中,特点是复杂遗传与环境及管理互作(GxExM)的数据。

    5. GWAS辅助的GS

    结合已验证和新发现的标记到模型可能会提升预测能力。

    将GWAS显著位点考虑进GS:

    • 直接的好处:维持多世代的预测能力(打破了LD和随机突变);
    • 间接的好处:增加已验证突变的数量。

    已验证位点加入GS模型的方法:

    • 将关联标记当作固定效应(下图d);
    • 将关联标记当作另一个随机效应(有它自己的kernel derived)(下图e);
    • 在传统GS模型的基因型亲缘关系矩阵中赋予标记的权重(下图c);
    • MultiBLUP方法,将染色体划为片段,每个片段构建的G矩阵分配为不同的随机效应(下图f)。
      image.png

    将显著关联信号纳入GS模型的固定效应(作为协变量),将会得到一个复杂的结果:如水稻中作为固定效应,准确性增加10%;小麦中增加3-14%;但其他报道增加较小,甚至减小。

    同样地,将其作为随机效应的结果也很复杂。

    因此,单纯地考虑将关联信号纳入模型不一定能提高准确性,具体表现应该和性状的遗传结构有关。

    6. 杂交育种

    低标记密度的GS杂交种应用可参考文献:
    Zhao, Y., Mette, M. F., and Reif, J. C. 2015. Genomic selection in hybrid breeding. Plant Breeding. 134(1): 1–10. DOI: 10.1111/pbr.12231
    本篇综述主要介绍高密度标记的GS在杂交种上的应用。

    • 杂交种,即F1代的GS预测,主要评价杂交种在产量相关性状的表现,必须考虑非加性效应(作物基因组中杂交位点急剧上升)。
    • 玉米的商业育种流程中,训练集:预测集=1:4,选择top10-20%。

    影响杂交种预测的几个因素:

    • 训练群和预测群的遗传背景需要一致。可通过父母本基因型构建进化树来验证。如果不一致,会出现过拟合。表型仅在一个点调查也会导致过拟合。
    • 系谱关系kinship和双亲的杂交模式应该一致。否则F1的杂交表现也会表达不充分,相关性结果不好。
    • 考虑GxE。包括宏观环境和微观环境,宏观环境主要影响开花时间,由几个主效基因控制光周期基因(可建模),应在最佳生态区域筛选亲本;微观环境太复杂无法准确建模,因此要将多位点性状的表型变异考虑进BLUP算法。

    杂种优势一般认为是显性和上位性效应(复杂等位基因/基因内/基因间互作)的结果。

    为了准确预测杂交种,所有加性和非加性效应需要考虑进模型。

    同时要注意杂种优势效应的组成也是随性状而变化的。不同性状的GS预测需要鉴定杂交QTL位点。

    由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F1正确的方法是分别考虑GCA和SCA。

    GCA模型就是基于gBLUP,重点在亲缘关系矩阵构建。环境效应也能整合进gBLUP,作为固定效应的协变量。

    SCA模型有两种方法:一是将杂优SNPs位点作为Panel整合进gBLUP模型中(作为固定效应);二是使用非线性模型,如Bayesian和机器学习。

    杂优SNP Panel如何鉴定?可用GWAS挖掘,以MPH(mid-parent heterosis,即F1表型与双亲均值之差)作为性状表型,Panel一般视显著QTL的数目来定,一般根据性状3-5 SNPs。

    7. 多性状

    多性状的选择multi-trait genomic selection (MT-GS) 一般是因为性状间共有某种程度的遗传结构,在遗传上是相关的。

    对低遗传力(伴随高遗传力性状相关)或者难以测量的性状,应用MT-GS。

    MT-GS模型同样可基于gBLUP,替换kinship即可。
    也可用贝叶斯方法,是一个典型的线性回归模型。可以扩展到多性状-多环境的贝叶斯模型,相关R包BMTME。

    除了gBLUP和贝叶斯框架的线性回归,也可基于非线性的机器学习和深度学习,如MTDLMP模型。

    8. 长期选择

    如何平衡遗传增益和遗传多样性的矛盾关系?

    • 提高罕见的有利等位基因,即赋予群体中低频的优良等位基因更高的权重,避免丢失。
    • 基因组最佳贡献选择(GOCS)
    • 基于潜在后代的选择
    • 标记密度和预测模型
    • 育种群体的设计

    9. 预测准确性评估

    交叉验证仍是评价预测能力的最主要方法之一。两种方法:hold,instant。

    系统偏差对结果有影响,如测试集选择,测试集和训练集关系,GWAS在划分交叉验证前的早期选择。正确的交叉验证实施步骤应该是:一开始就在整个群体中划分数据,然后GWAS只用训练群来做。下图是GWAS用全部数据和只用训练群数据的比较:
    image.png
    测试群体的表型只在最后计算准确性的时候用,在此之前都不应该用。

    10. GS到植物育种

    GS的提出其实植物(Bernardo 1994)比动物(Meuwissen,2001)更早。但因为分子标记的kinship在动物遗传评估系统中容易实施,导致gBLUP、ssBLUP等方法在动物中广泛应用。直到高通量数据(基因型和表型)的成本下降,植物的GS才开始有了突破。

    40多篇关于谷物的GS文章发表,非谷物的有7篇蔬菜,5篇克隆繁殖作物和13篇林木。这些文章基本达成共识:最好的GS模型视性状的遗传结构而定。

    GS相比表型选择,更便宜(实在话现在还是太贵了),利用基因型优势能预测多性状。

    GS的植物育种不再是一个能力问题,而是如何实施的问题。

    11. 未来展望

    一条龙:Genomics-Phenomics- Agronomics (GPA) paradigm

    表型组发展:代谢组学,高光谱成像,微型根管成像。

    GPA范例表现在五个方面:

    • 从亲本表现预测子代潜力;
    • 将预测范围扩展到加性效应,包括显性,上位性和遗传-环境相互作用效应;
    • 传统农艺性状和高通量表型之间多效性的利用;
    • 通过GWAS更深入地了解农艺性状的遗传结构,并将这些结构集成到GS模型中;
    • 新兴大数据和机器学习方法(尤其是基于人工神经网络的深度学习)在高通量、高维度
      数据的优势。
  • 相关阅读:
    108. Convert Sorted Array to Binary Search Tree
    107. Binary Tree Level Order Traversal II
    106. Construct Binary Tree from Inorder and Postorder Traversal
    105. Construct Binary Tree from Preorder and Inorder Traversal
    104. Maximum Depth of Binary Tree
    103. Binary Tree Zigzag Level Order Traversal
    102. Binary Tree Level Order Traversal
    系统和进程相关信息
    文件I/0缓冲
    系统编程概念(文件系统mount等函数的使用)
  • 原文地址:https://www.cnblogs.com/jessepeng/p/14209266.html
Copyright © 2011-2022 走看看