今天快速浏览了一遍Bioconductor Case Studies这本书的前半部分,大有相见恨晚之感。里面系统地阐释了很多microarray的东西,让我之前的一些疑问得到冰释。
1. 对于单通道microarray来讲,一般的预处理往往由三个步骤组成:
a) background correction: 把背景噪声去掉。
b) between array normalization: 每个芯片之间由于加样量、操作以及本身芯片制作时产生的差别,会有所不同,因此,将不同芯片之间进行标准化(normalization)后比较,才能更真实地反映出差别。
c) reporter summarization: 每个芯片的probe sets都是由数个或数十个probes组成,总和这些probes的信号,得到一个probe sets的信号的过程就是summarization。
对于Affy的expression芯片来讲,RMA即能够把这些东东统统囊括。还可以使用VSN 包。不过VSN 包的函数justvsn不包含summarization这一步。
2. eBayes
之前每次看到大名鼎鼎的limma包,总是能看到eBayes这个函数,一直没有太懂,今天终于明白:
以前microarray数量可能相对比较少,如果此时用t-test的话,variance的估计不会太准确,所以使用eBayes这个函数。
不过话说现在大家做microarray都很多了,一做做一堆,不许要考虑这个问题了~
3. Background correction以及Normalization的原理
这些东西在第五章有比较详细而且感觉蛮深入浅出地介绍~
现在还没读,一定要仔细读一读!
4. ROC曲线可以用来筛选gene marker,而且,sample越多,ROC筛选出来的基因反而越少!这一节有必要细读之!
5. Random Forest需要继续仔细研究!
总之,真的还有好多需要做的东西!