zoukankan      html  css  js  c++  java
  • 【代谢组学】4.生物标志物分析

    概念

    生物标志物,即传说中的biomarker,是一类可测量的,用来表征疾病状态的物质,通常用于表征:

    • 疾病的状态(是否为某种疾病/某种亚型);
    • 药物敏感性,用于用药指导;
    • 生理状态监测。

    类型

    • 预后指标
      预测疾病的预后效果(独立于治疗),如AB1-42可用于诊断老年痴呆预后。

    • 预测型标志物
      预测疾病类型/针对某种治疗的响应,如HER2、EGFR、 K-RAS等突变可用于预测肿瘤发生的几率。

    • 药物监测标志物
      对某治疗的实时评价,如血液中的CRP、 IL-6、TNFa 浓度可监控炎症的进展。

    效果评价

    受试者工作特征曲线(Receiver Operating Characteristic,ROC)是评估一个生物标志物的预测性能的有用的图形工具,指示一个生物标志物组区分两个群组(如实验组和对照组,疾病和健康)的能力。
    image.png

    如果把患病视为阳性,把健康视为阴性。敏感性(sensitivity)表示真阳性除以真阳性与假阴性之和,又称为真阳性率,如下图所示:
    image.png

    特异性(specificity)表示真阴性除以真阴性与假阳性之和,又称为真阴性率,如下图所示:
    image.png

    1-真阴性率=假阳性率,所以ROC曲线横轴是假阳性率,纵轴是真阳性率,曲线下的面积为AUC值,通常介于0.5-1之间,面积越大预测效果越好。
    image.png

    上图是单变量的ROC分析,针对单个代谢组分子或单组学数据。实际上,可以将多个代谢物或多个组学数据作为组合来进行预测,称之为多变量ROC分析。不同模型预测的结果也可以同时在一张图中比较。

    image.png

    微生物组和代谢组的ROC分析

    多变量ROC分析

    多变量ROC分析主要是用于探寻最佳的生物标志物组。通过选择RandomForest,SVM和PLS-DA 等多元统计分类算法,选择不同的代谢物排序组合,反复抽样的构建分类模型,获得最佳的生物标志物组。

    在多元ROC分析中,选择最佳的变量组合主要是通过重复随机抽样交叉验证(CV)的算法来识别变量重要性。在每次验证中,三分之二(2/3)的样本根据VIP评分(PLSDA)、精度下降(随机森林)或加权系数(线性支持向量机)来评价每个特征的重要性。选择排名前2,3,5,10,100(Max)重要特征用来建立分类/回归模型,并在1/3的剩余样本上进行验证。

    如下图:
    image.png
    上图是基于PLS-DA 分类方法,变量重要性依据PLS-DA分析的VIP值排序,分别选择前2个,前3个,前5个,前10个,前20个和全部变量的模型的ROC曲线和AUC值。可以看出,图中最佳的生物标志物组是基于PLS-DA分析VIP值排序的前2个代谢物组成的生物标志物组。

    验证

    验证上述筛选出的生物标志物组,或选择特定的生物标志物组,计算区分效果(AUC)值。可以从构建的最佳生物标志物组中进一步选择样本进行验证,也可以手动选择生物标志物组进行分析。

    如上例中筛选出的2个代谢物的为最佳生物标志物组进行验证下。
    image.png
    图中CV表示经过100次交互验证后的ROC曲线;Holdout 表示手动选择测试集后计算得到的ROC曲线,说明该生物标志物组预测效果良好。

    关于单变量和多变量ROC曲线分析的比较
    多变量ROC曲线是基于多元统计(SVM、PLS-DA或随机森林)的交叉验证结果。而经典的单变量ROC曲线是基于测试集中所有数据点内所有可能的截断点的综合效果。因此由交叉验证的ROC曲线得到的AUC更适合预测,而单变量ROC计算的AUC往往容易过拟合。换句话说,单变量ROC可以被看作是特征的区分“潜力”的一个指标,而不是它的实际表现。

    分析工具

    几个可以进行ROC分析的R包。
    image.png
    MetaboAnalyst也具有相应的分析模块。

    Ref:
    http://interact.majorbio.com/article/view/talk_id/345

  • 相关阅读:
    eclipse下切换svn用户
    Netty实现服务端客户端长连接通讯及心跳检测
    Spring Batch系列总括(转载)
    SQL中的Null深入研究分析
    MySQL报错“1366
    Memcache学习php完整一例
    Memcache学习笔记
    递归和迭代区别
    解决textarea 输出有空格问题
    解决mysql安装出现error Nr.1045问题
  • 原文地址:https://www.cnblogs.com/jessepeng/p/14210685.html
Copyright © 2011-2022 走看看