1.实验及质控
(1)项目流程
代谢组学分析的特点:
- 流程长;
- 样品量大,项目周期长;
- 个体差异大;
- 设备不稳定性;
- 样品复杂,基质效应显著。
所以,质量控制是代谢组学研究基础。
项目流程
样本制备——质谱仪分析——数据预处理——定量及统计分析——定性分析——生信及后续分析
(2)非靶代谢质控
质谱仪信号波动使非靶代谢信号随时间漂移。
原因:
- 电喷雾喷针老化
- 仪器设备入口毛细管污染
- 前级离子导引部件污染
- 检测器老化
- 质量分析器污染
信号随时间漂移或中途设备维护会严重影响多元统计分析效果,如PCA中样品分布不均匀,存在异常值。从而引起后续分析,如筛选生物标志物失败。
对非靶代谢信号时间漂移的重新校准,改善数据分析效果:
- 添加QC样本(前后+每隔10样)。
- 使用MetNormalizer校准(基于支持向量回归算法)。
(3)靶向代谢质控
不同出峰时间,对应不同的基质效应。
基质效应可能使绝对定量不准确。
无同位素内标:分析物与内标物基质效应不同;
有同位素内标:保留时间及表面活性的微小差别,仍会使分析物与内标物响应不同。
定量准确性质控:
加标回收实验:理论添加值约等于实测增加值(80-120%)。
设备灵敏度质控:
样品平均混合质控:设备灵敏度在合理范围内,未检出确实来源于内源性分析物浓度的下降。
(4)代谢组全流程质控
样本制备:
- 样本收样及存储标准化管理
- 高效有序的样品预处理流程
质谱仪分析:
- 非靶信号漂移QC实验方案
- 靶向双QC实验方案
数据预处理:
- 高效的数据校准方法
- Hotelling's T2筛出潜在异常点,分情况小心移除
定量及统计分析:
- 多元统计及单变量分析结合筛选生物标志物
- 加标回收实验确保定量结果准确
2.数据分析挖掘
(1)代谢组分类回顾
非靶:进行大规模、系统性研究,用于前期数据挖掘与筛选。
- 非靶组:通常所说的非靶代谢组学,指氨基酸类、核苷酸类、能量代谢、维生素类、神经递质类等及其衍生物。
- 脂质组:甘油脂类、磷酯类、鞘脂类、脂肪酸类、固醇类等。
靶向:验证非靶向分析的结果,对目标代谢物进行选择性、特异性定量与绝对定量。
非靶和靶向的样本制备、色谱体系、代谢物鉴定模式均不同。
(2)数据预处理
①数据完整性检查
- 保留通道值大于一半的数据
- 缺失值填充(10%以上填充)
-- 删除包含缺失值的变量
-- 对缺失值进行估计:KNN/PPCA/BPCA/SVD Impute
-- 固定值填充:最小值的一半
-- 按列填充:均值/中位数/最小值 - 过滤QC RSD>30%
②数据标准化
- 标准化(后面待续....)
- 归一化
(3)定量层面挖掘
①统计分析
- 单变量
- 多变量
②聚类分析
③共表达网络
(4)功能层面挖掘
通路分析