读paper的时候觉得自己就是个24K纯学渣(=。=)一大堆问题等着我去解决。。。所以在这里写一个Q&A好了,先列问题,逐步填充答案~
××××××××××××××××××我是分割线么么哒×××××××××××××××××××××××××××××××××××××××××××
1. PCoA: Principal coordinates analysis
如何绘制的?原理如何?
2. FDR: false discovery rate
如何计算的?
Ans:
在多重检验(multiple testing)中,可以通过控制FDR(False Discovery Rate)来决定p值的域值。
FDR: 表示了在所有R次拒绝中错误发现的期望比例
Ps: 我再另开一贴写统计、假设检验啥的吧=。=
http://www.cnblogs.com/pxy7896/p/5999633.html
3. COG richness(adjusted P=0.03)
指什么?如何计算?
Ans:
参考:http://blog.sina.cn/dpool/blog/s/blog_670445240102uxwy.html
COG,即Clusters of Orthologous Groups of proteins。构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此是
orthologs或者paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。
Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
COG是通过把所有完整测序的基因组的编码蛋白一个一个的互相比较确定的。在考虑来自一个给定基因组的蛋白时,这种比较将给出每个其他基因组的一个最相似的蛋白(因此需要用完整的基因组来定义COG。注1)这些基因的每一个都轮番的被考虑。如果在这些蛋白(或子集)之间一个相互的最佳匹配关系被发现,那么那些相互的最佳匹配将形成一个COG(注2)。这样,一个COG中的成员将与这个COG中的其他成员比起被比较的基因组中的其他蛋白更相像,尽管如果绝对相似性比较的。最佳匹配原则的使用,没有了人为选择的统计切除的限制,这就兼顾了进化慢和进化快的蛋白。然而,还有一个加的限制就是一个COG必须包含来自于3个种系发生上远的基因组的一个蛋白。
COG注释作用:1. 通过已知蛋白对未知序列进行功能注释;
2. 通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在;
3. 每个COG编号是一类蛋白,将query序列和比 对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。
4. Spearman correlation(补一下之前的笔记)
r, P指的是啥子哟?
P value adjusted for multivariables test with Benjamini and Hochberg method.
这方法是什么?是否已有代码或者函数?
Ans: 参见统计部分,有R的
5. cis-eQTL SNP,cis-affecting,cis-acting是指什么?
Ans:
eQTLs: 影响mRNA表达水平差异的基因位点
cis-: 分子结构为顺式。两个相同原子或基团在双键的同一侧。
trans-: 分子结构为反式。两个相同原子或基团在双键的两侧。
cis-acting element: 能调控自身基因表达活性的特异DNA序列。是RNA-pol和TF识别结合的位点。
据其在基因中的位置、转录激活作用的性质及发挥作用的方式分为:启动子,增强子和沉默子。
6. Fig S11看不懂
7. Multivariate analysis was performed using MaAsLin. P-value, Q-value
是什么?
Ans: 使用这个软件进行的多变量分析。