基因组学
基因组学(Genomics),或基因体学,是一门研究生物基因组以及如何利用基因的学科[1,2]。该领域包括努力来检测生物体的整个DNA序列和绘制精确的遗传图谱。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科利用已提供的基因组信息以及相关数据系统,试图解决生物,医学,和工业领域的重大问题。 基因组研究大致包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics),而功能基因组学又被称为后基因组(postgenome)研究,成为系统生物学的重要方法。该领域还包括研究的基因组内部导致的一些现象,如杂种优势,异位显性,和其他等位基因与基因部分之间的相互作用[3]。基因组学的主要工具和方法包含: 生物信息学(bioinformatics),遗传分析(Genetics analysis),基因表达(Gene expression)测量和基因功能(Gene function)鉴定。
1953年,沃森和克里克发现DNA的结构后,1955年桑格测得了胰岛素的DNA序列[4]。核苷酸序列成为了分子生物学家的主要工作重点。1964年,霍利和同事出版了丙氨酸转录RNA的核苷酸序列[5, 6]。对于此工作的延续,尼伦伯格和莱德发现了三联密码子[7]。1972年,菲儿和他的小组检测出第一个基因序列:噬菌体MS2的外蛋白的基因[8]。菲儿的团队随后在1976年和1978年,分别检测出了噬菌体MS2和Simian病毒的完全序列[9, 10]。而“基因组(Genomics)”这个概念由罗德里克于1986年提出[11]。 功能基因组学 基因组DNA测序是人类对自身基因组认识的第一步。随着测序的完成,功能基因组学研究成为研究的主流,它从基因组信息与外界环境相互作用的高度,阐明基因组的功能。功能基因组学的研究内容:人类基因组 DNA 序列变异性研究、基因组表达调控的研究、模式生物体的研究和生物信息学的研究等。 结构基因组学 结构基因组学是继人类基因组之后又一个国际性大科学热点,主要目的是试图在生物体的整体水平上(如全基因组、全细胞或完整的生物体)测定出(以实验为主、包括理论预测)全部蛋白质分子、蛋白质-蛋白质、蛋白质-核酸、蛋白质-多糖、蛋白质-蛋白质-核酸-多糖、蛋白质与其他生物分子复合体的精细三维结构,以获得一幅完整的、能够在细胞中定位以及在各种生物学代谢途径、生理途径、信号传导途径中全部蛋白质在原子水平的三维结构全息图。在此基础上,使人们有可能在基因组学、蛋白质组学、分子细胞生物学以致生物体整体水平上理解生命的原理。对疾病机理的阐明、对疾病的防治有重要应用意义。 基因组水平研究的方法有很多,主要有以下几类。 基因深度测序技术 序列不活测序及全基因组测序:利用安捷伦公司的SureSelect技术,设计目的基因片段或全外显子组的捕获探针,通过杂交捕获相应的基因组序列;利用Illumina的Solexa的测序技术,测定捕获区域的序列变异。适用于复杂疾病的相关基因突变等变异的研究。 454高通量基因测序:利用罗氏公司的焦磷酸测许技术,获得较长的测序读长,适合新物种的基因组和转录组的测序。 全基因组SNP芯片技术 SNP,全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,形成的遗传标记,其数量很多,多态性丰富。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为1 :2。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3×10E6个。 LOH,全称Loss of Heterozygosity,实际就是杂合子,一对染色体上某一个染色体上基因缺失,与之配对的染色体上仍然存在。根据这个基因的特点,表现出来的形状完全不同,比如人类一些疾病就是这样,如果这个缺失基因是隐性基因,杂合子或杂合性缺失会表现出来缺失。实际上这个基因不能继续表达。因为隐性基因只能在纯合子中表现(个别例外,如性染色体)。 Affymetrix whole Genome SNP6.0芯片:产品有超过1.8M的遗传标志探针,其中906600个SNP和946000个用于检测拷贝数变化的探针。除用于基于拷贝数研究外,还用于基因分型和LOH研究。 Illumina高通量SNP芯片,基于Infinium技术,进行独特的位点选择和探针设计,具有高重复性和特异性,芯片具有超高的密度,挤过具有高成功率和准确性,适合全基因组的SNP分型以及基因拷贝数变化研究。 比较基因组杂交芯片技术 安捷伦公司的比较基因组杂交芯片(Array CGH, aCGH)专门设计的优化探针覆盖所有基因组区域,分别有60K、180K、244K、1M等多种覆盖密度。可高精度地检测基因组水平或更小范围的DNA拷贝数变化,包括确实、扩增、染色体不平衡等。分别有针对人、小鼠、大鼠、鸡、牛、犬、猩猩、猕猴和睡到全基因组的专业芯片。 表观遗传学研究 DNA甲基化(英语:DNA methylation)为DNA化学修饰的一种形式,能在不改变DNA序列的前提下,改变遗传表现。为外遗传编码(epigenetic code)的一部分,是一种外遗传机制。DNA甲基化过程会使甲基添加到DNA分子上,例如在胞嘧啶环的5'碳上:这种5'方向的DNA甲基化方式可见于所有脊椎动物。在人类细胞内,大约有1%的DNA碱基受到了甲基化。在成熟体细胞组织中,DNA甲基化一般发生于CpG双核苷酸(CpG dinucleotide)部位;而非CpG甲基化则于胚胎干细胞中较为常见[1] [2]。植物体内胞嘧啶的甲基化则可分为对称的CpG(或CpNpG),或是不对称的CpNpNp形式(C与G是碱基;p是磷酸根;N指的是任意的核苷酸)。 特定胞嘧碇受甲基化的情形,可利用亚硫酸盐定序(bisulfite sequencing)方式测定。DNA甲基化可能使基因沉默化,进而使其失去功能。此外,也有一些生物体内不存在DNA甲基化作用。 Illumina甲基化芯片检测技术服务:450K Infinium Methylation BeadChip芯片含有45万多个甲基化位点,覆盖人类基因组的96%的CpG岛,每张芯片可平行检测12个样本。样本无需免疫功沉淀等特殊处理,直接检测到发生甲基化的准确位点。 MeDIP-Seq利用针对甲基化的特异性抗体,免疫功沉淀富集甲基化DNA片段,结合高通量测序进行高精度的甲基化研究。 转录组学 转录组学(transcriptomics),是一门在整体水平上研究细胞中基因转录的情况及转录调控规律的学科。简而言之,转录组学是从RNA水平研究基因表达的情况。转录组即一个活细胞所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。 是分子生物学的分支,负责研究在单个细胞或一个细胞群的特定细胞类型内所生产的mRNA分子。转录物组学的研究,也被称为“表达谱”,探讨了在一个特定的细胞群内的基因表达水平,通常采用基于DNA芯片技术的高通量技术。透过使用新一代测序技术来研究在核苷酸水平的转录物组,被称为“RNA-Seq”[12]。 以DNA为模板合成RNA的转录过程是基因表达的第一步,也是基因表达调控的关键环节。所谓基因表达,是指基因携带的遗传信息转变为可辨别的表型的整个过程。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。通过测序技术揭示造成差异的情况,已是目前最常用的手段。人类基因组包含有30亿个碱基对,其中大约只有5万个基因转录成mRNA分子,转录后的mRNA能被翻译生成蛋白质的也只占整个转录组的40%左右。 转录组水平研究的方法有很多,主要有以下几类。 RNA-Seq RNA-seq即转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。基于第二代测序技术的转录组学研究方法:首先提取生物样品的全部转录的RNA,然后反转录为c-DNA后进行的二代高通量测序,在此基础上进行片段的重叠组装,从而可得到一个个的转录本。进而可以形成对该生物样品当前发育状态的基因表达状况的全局了解(globle)。进一步说,若和下一阶段的生物样品的RNA-Seq转录组进行比较,则可以得到全部的(在转录层面)基因表达的上调及下调--这就形成了表达谱,针对关键基因则可以形成你要想要的pathway的构建。 454转录组深度测序:每次测序可获得80万条序列,读长可达400bp,尤其适合于新物种的基因组和转录组的测序。 Illumina转录组测序:基于HiSeq2000测序平台进行转录组的分析。具有铜梁高、数据准确、费用相对较低的特点,可大规模发现功能基因及识别小RNA、非编码RNA等新的转录本形式。 全基因组mRNA表达谱芯片 Agilent全基因组表达谱芯片:采用独特的Ink-Jet技术,探针长度60mer,提高了芯片的检出率,有利于检测低丰度表达的基因,芯片分为多个区域,适合8个样本的同时检测。除人及大鼠的8*60K的全基因组芯片外还有多个物种芯片。 Affymatrix基因表达谱芯片:光蚀刻原位合成技术是基因芯片的经典代表技术,每张芯片适用一个样本。芯片产品丰富多样,有多种物种芯片满足多元化的科研需求。 微小核酸(miRNA)检测芯片 miRNA,(MicroRNAs)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核苷酸。成熟的miRNAs是由较长的初级转录物经过一系列核酸酶的剪切加工而产生的,随后组装进RNA诱导的沉默复合体,通过碱基互补配对的方式识别靶mRNA,并根据互补程度的不同指导沉默复合体降解靶mRNA或者阻遏靶mRNA的翻译。最近的研究表miRNA参与各种各样的调节途径,包括发育、病毒防御、造血过程、器官形成、细胞增殖和凋亡、脂肪代谢等等。 作为miRNA芯片检测的后起之秀,Agilent公司的独特的miRNA标记技术和检测芯片,具有识别成熟miRNA的特点,且检测动态范围大,可跨5个log,对样品的需要量仅100ng总RNA且无需分理处miRNA,芯片上每个探针至少重复20次以上,保证了实验结果良好的重复性,分别有人和大小鼠等模式生物的芯片可选。 长链非编码合算(lncRNAs)芯片检测。 lnc RNA(long noncoding RNA, lncRNA),是一类长度在200-100000 nt之间的RNA分子,它们不编码蛋白,但是lncRNA参与细胞内多种过程调控,现在种类、数量、功能都不明确。 Agilent SurePrint G3 Human Gene Expression 8*60K涵盖27958条人的Entrez Gene RNA,还涵盖7419条lncRNA,适用于8个样本的同时检测。 Agilent SurePrint G3 Mouse Gene Expression 8*60K涵盖39430条人的Entrez Gene RNA,还涵盖16251条lncRNA,适用于8个样本的同时检测。 1. National Human Genome Research Institute (2010-11-08). "A Brief Guide to Genomics". Genome.gov. Retrieved 2011-12-03. 2. Concepts of genetics (10th ed ed.). San Francisco: Pearson Education. 2012. ISBN 9780321724120. 3. Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd ed ed.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851. 4. Ankeny, Rachel A. (2003-06). "Sequencing the genome from nematode to human: changing methods, changing science". Endeavour 27 (2): 87–92. doi:10.1016/S0160-9327(03)00061-9. ISSN 01609327. Retrieved 2012-06-18. 5. Holley RW, Everett GA, Madison JT, Zamir A. (1965 May). "Nucleotide Sequences In The Yeast Alanine Transfer Ribonucleic Acid". J Biol Chem 240 (5): 2122–8. PMID 14299636. 6. Holley RW, Apgar J, Everett GA, Madison JT, Marquisee M, Merrill SH, Penswick JR, Zamir A (1965-03-19). "Structure Of A Ribonucleic Acid.". Science 147 (3664): 1462–5. doi:10.1126/science.147.3664.1462. PMID 14263761 7. Nirenberg M, Leder P, Bernfield M, Brimacombe R, Trupin J, Rottman F, O'Neal C (May 1965). "RNA codewords and protein synthesis, VII. On the general nature of the RNA code". Proc. Natl. Acad. Sci. U.S.A. 53 (5): 1161–8. Bibcode:1965PNAS...53.1161N. doi:10.1073/pnas.53.5.1161. PMC 301388. PMID 5330357. 8. Min Jou W, Haegeman G, Ysebaert M, Fiers W (1972). "Nucleotide sequence of the gene coding for the bacteriophage MS2 coat protein". Nature 237 (5350): 82–88. doi:10.1038/237082a0. PMID 4555447 9. Fiers W, Contreras R, Duerinck F, Haegeman G, Iserentant D, Merregaert J, Min Jou W, Molemans F, Raeymaekers A, Van den Berghe A, Volckaert G, Ysebaert M (1976). "Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene". Nature 260 (5551): 500–507. 10. Fiers, W.; R. Contreras, G. Haegeman, R. Rogiers, A. Van de Voorde, H. Van Heuverswyn, J. Van Herreweghe, G. Volckaert, M. Ysebaert (1978-05-11). "Complete nucleotide sequence of SV40 DNA". Nature 273 (5658): 113–120. doi:10.1038/273113a0. ISSN 0028-0836. PMID 205802. Retrieved 2012-12-20. 11. Yadav, S. P. (2007). "The wholeness in suffix -omics, -omes, and the word om". Journal of biomolecular techniques : JBT 18 (5): 277. PMC 2392988. PMID 18166670. 12. Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics.. Nature Rev. Genetics. 2009, 10 (1): 57–63 |