生物信息数据分析准则

zoukankan html css js c++ java

生物信息数据分析准则

从生物体中采集的数据总给人一种混乱不堪的感觉，因为生命系统本来就是一个超级复杂的系统，我们很难完全控制，目前只能观测。

完全不像物理化学数学那么明确，1就是1，2就是2.

所以在分析生物数据时，首先必须要了解数据。

在几个案例中阐述会比较明朗：

1. 人的单细胞转录组数据

测的是iPSC-derived细胞，最理想的数据是什么？就像小鼠一样，同性别、同遗传背景、同发育阶段，尽量保证只有突变上的差异（控制变量法）。但这是不可能的。

首先，每个人的遗传背景肯定是有差异的；其次就是性别差异；细胞发育阶段差异；然后就是突变的差异，我们人为对突变按表型进行了归类，表型本来就是个模糊的概念，突变更是多种多样。

目的是让你找出不同的pathway来表征表型的差异。

是不是有一种吃屎的感觉，这尼玛不是大杂烩吗？

没有正确的方法论的指导，你是肯定无法从混沌中找到真理的，我们必须量化一切的不确定性。

2. GWAS的QC

跑过GWAS流程的就知道它的QC有多繁琐了，就和第一个案例一样，归根结底就是要对数据区分对待，这样才能做出正确的推断。

3. 基因调控网络

别以为中心法则发现了、人基因组测完了、各种细胞基本结构上有所突破就nb了，真到了基因调控网络你就绝望了，这真TM是一个超级复杂却精准的系统，我们现在最前沿的发现可能是非常肤浅的，但是没办法，我们还处于非常初级的探索阶段，只能进行局部的探索，得出有偏的结论。

你要说这么复杂却精密的系统是进化而来的，我还真不信。

所以在分析你的大杂烩的数据前，我们必须要先量化一切的不确定性，这样你得出的结论才是稍微可信的。

怎么量化呢？

这个其实是生物统计考虑的事，具体就是实验设计那一部分。

生物统计有哪些经典教材？

我还在探索。。。

查看全文

相关阅读:
浅析数据库安全技术
 本站快捷付款方式
 VMware Workstation 官方正式版及激活密钥
 Win10真正好用之处
 我眼中的CentOS 下安全策略
 美团
 Tomcat connector元素常用配置(最大连接数等)
9.22面经：
9.7
合并两个有序数组为一个新的有序数组

原文地址：https://www.cnblogs.com/leezx/p/10842121.html