zoukankan      html  css  js  c++  java
  • 【代谢组学】3.数据分析

    非靶向代谢组实验设计

    1.代谢物提取,一般要求每组至少10个样;
    2.在所有提取好的样本中取等量混合作为QC;
    3.QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本

    得到质谱谱图数据经软件处理后得到峰表。
    峰表格式一般为:每行为一个m/z,每列为一个样本
    数值表示该样本中某个m/z的信号响应。
    image.png

    第一列为保留时间_质荷比来代表离子,如0.10_96.9574m/z

    数据分析流程

    一般有如下几点:
    1.数据预处理。如缺失值过滤填充、数据归一化等。
    2.数据质控。包括CV分布、QC等。
    3.统计分析。包括单变量、多变量等。
    4.功能分析。包括Pathway、网络分析、Biomarker筛选等。

    1.数据预处理

    缺失值处理
    1)缺失原因
    a. 信号很低检测不到;
    b. 检测错误,如离子抑制或者仪器性能不稳定;
    c. 提峰的算法限制,不能从背景中将低的信号提取出来;
    d. 解卷积时不能将重叠的峰全部解析出来。

    2)缺失值过滤
    比如:
    QC样本中缺失超过50%的去除;
    样本中缺失值超过80%的去除。

    3)缺失值填充
    -- 最小值填充
    -- 平均值/中值填充
    -- KNN( k-nearest neighbour)填充
    -- BPCA(Bayesian PCA)填充
    -- PPCA(probabilistic PCA)填充
    -- Singular Value Decomposition (SVD)
    一般推荐KNN。

    噪音信号去除
    一般是低质量的离子。
    1)低质量离子的确定:
    计算某个离子在QC样本中的RSD(标准差/均值);其值越小,说明偏差越小;

    2)判断标准:
    -- 对单个离子峰而言,RSD<0.3,则该离子峰合格,否则去除;
    -- 对于整体数据而言,RSD<0.3,峰所占比例>60%,则整体数据合格;

    样本归一化
    目的是为了提高样本间的可比性。
    样本间有差异性,如不同人的尿液浓度不同,不能直接拿来比较。

    可在采集前归一化,如肌酸酐归一化;也可在采集后归一化,如sum,pqn,quantile等。对于数据分析而言,通常是后者,如总和归一化(sum)。

    数据转换
    下游的分析一般要求数据为正态分布或者高斯分布;
    所以数据通常要进行Log转化或power转化,这两者都能够将极大值的抑制效应消除,并且能够调整数据的分布,如下图;

    image.png

    Log转化对0值比较敏感,必须首先去除零值。

    数据转换——scaling
    目的是消除极大值效应。
    对不同样本中同一个m/z的强度差异过大进行调整,极大值的存在往往会掩盖较低值的变化特征。

    可将某个m/z在所有样本中的强度的值,除以一个因子(SD值);
    方法如auto (uv),pareto(推荐),vast, range等。

    相当于上面样本归一化是为了样本可比,scaling是为了离子可比。

    2.数据质控

    QC样本的TIC重叠情况
    image.png
    上图分别是阴离子和阳离子模式下QC样本的TIC重叠情况。

    一般认为:
    所有的QC样本峰重叠良好;
    峰强度波动差别不大;

    QC样本中CV<30%的峰所占比例
    image.png

    PCA中QC样本的聚集程度
    image.png

    QC样本的相关性
    image.png
    上图分别为归一化前和归一化后的数据。

    3.统计分析

    单变量分析
    一次只分析一个变量,即一个m/z,考察不同组别不同样本的这个m/z表达有无差异?
    常见的方法有倍数分析,t检验,秩和检验,方差分析等。

    聚类分析
    核心思想就是根据具体的指标(变量)对所研究的样品进行分类;
    聚类分析需要设定一个方法来衡量样本间的相似性或者不相似性(常用欧式距离,相关性系数等);
    常见聚类的方法:系统聚类(层次聚类)、K-均值聚类等。

    K-均值首先要估计出将要分出几个类,然后将全部的基因按照相似性的距离,归入这几类中。
    K– means计算量要小得多,效率比层次聚类要高。

    无论哪种分类方法,最终要分成多少类,并不是完全由方法本身来决定,研究者应结合具体问题而定。
    聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同。
    使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。

    多变量分析
    1)PCA分析
    以下分别是得分图(样本在新的坐标系中的位置
    )和载荷图(loading图,原变量与主成分间的夹角)
    image.png

    PCA怎么看?

    • 组内差异
    • 组间差异
    • 异常样本
    • PC1与PC2得分

    2)偏最小二乘法
    PLSDA的图和PCA类似。只是一种监督学习的方法,事先给样本分类,最后看能否将不同组分开。

    用R2和Q2进行模型评价。
    R2是相关性系数,表示这个模型的拟合效果,是一个定量的测量(范围0-1),意味着所建立的模型能在多大程度上代表真实的数据;
    一般当R2在0.7-0.8表示模型解释能力较好,较差的模型的R2往往为0.2-0.3

    Q2表示PLS-DA模型的预测能力
    一般Q2大于0.5表示预测能力较好,并且R2与Q2的值应该比较接近。

    使用permutation test模型进行过拟合检验。

    VIP ( Variable Importance in Projection)变量重要性投影
    每一个m/z都有VIP值,表示这个m/z在某一个主成分上的投影,即重要程度
    一般我们使用第一、第二主成分的VIP来表示这个m/z对模型分型的贡献程度,VIP>=1被认为是具有显著贡献的

    代谢组学数据分析最后两部分内容——功能分析和生物标志物筛选见下节内容

  • 相关阅读:
    使用 asp.net mvc和 jQuery UI 控件包
    ServiceStack.Redis 使用教程
    HTC T8878刷机手册
    Entity Framework CodeFirst 文章汇集
    2011年Mono发展历程
    日志管理实用程序LogExpert
    使用 NuGet 管理项目库
    WCF 4.0路由服务Routing Service
    精进不休 .NET 4.0 (1) asp.net 4.0 新特性之web.config的改进, ViewStateMode, ClientIDMode, EnablePersistedSelection, 控件的其它一些改进
    精进不休 .NET 4.0 (7) ADO.NET Entity Framework 4.0 新特性
  • 原文地址:https://www.cnblogs.com/jessepeng/p/14210675.html
Copyright © 2011-2022 走看看