RNA测序的质量控制
- A+
ENCODE项目向我们揭示,人类基因组中超过70%能得到转录,只不过不会发生在同一个细胞里。为了研究如此多样的转录本,研究人员开发了许多技术,其中RNA测序(RNA-seq)是最全面也最有效的。
许多人相信,未来基因组数据将会对患者的治疗产生重要的影响。不过也有不少专家质疑基因组分析的准确性和可靠性。为此,美国FDA牵头了RNA测序质量控制(SEQC)项目,评估了多个试验室RNA-seq数据的可比性,评估了不同测序平台和数据分析法的表现,并将它们与DNA芯片进行比较。本期Nature Biotechnology特别关注了这一项目,发表了多篇相关文章。
这一项目检测了30个RNA测序实验室的现有技术和主要的方法。结果显示,在发现接头区域和分析差异性基因表达时,使用合适的生物信息学方法,不同研究组就可以获得可靠的可重复结果。不过RNA-seq在检测基因表达的绝对水平和选择性剪切的转录本时,还面临着一定的挑战。(原文:A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium)
ABRF(Association of Biomolecular Resource Facilities)用SEQC的样本进行了补充分析,他们使用了长读取和基于半导体的测序仪,还评估了不同的RNA制备方案。值得注意的是ABRF的研究表明,从严重降解的样本中也能准确提取和分析RNA,比如储存了多年的组织样本。能对福尔马林固定石蜡包埋组织进行有效的转录组分析,将大大有助于RNA测序的临床应用。(原文:Multi-platform assessment of transcriptome profiling using RNA-seq in the ABRF next-generation sequencing study)
RNA-seq和芯片在检测基因表达时是否一致,也是相关领域的一个大问题。本期Nature Biotechnology上的一篇文章,分析了经过化学毒素处理的大鼠肝脏样本。研究显示,RNA-seq与芯片数据的一致性取决于化学试剂的干扰强度。(原文:The concordance between RNA-seq and microarray data depends on chemical treatment and transcript abundance)
在比较多个RNA-seq数据集时需要避免测序位置、仪器和方案带来的偏向性,标准化是一个避免偏好的好办法。为此,SEQC对一系列标准化步骤进行了评估。(原文:Detecting and correcting systematic variation in large-scale RNA sequencing data)将外参RNA(spike-in control RNA)混入样本有助于标准化,不过实际上外参RNA也会受到实验偏好的影响,在此情况下研究人员开发了相应的算法。(原文:Normalization of RNA-seq data using factor analysis of control genes or samples)这些标准化研究无疑会让外参更易于使用。
SEQC项目代表了RNA-seq走向大规模应用的第一步,涉及了12个国家的150名研究者,华大基因也是该项目的主要参与者之一。这类研究不仅能帮助人们更加全面地理解RNA-seq数据,还能催生更多策略来增强RNA-seq的可重复性。本期杂志上的两篇观点性文章对此进行了展望(原文:The devil in the details of RNA-seq;Bringing RNA-seq closer to the clinic)。
原文来自:http://www.ebiotrade.com/newsf/2014-9/2014915164801350.htm