概念
利用蛋白质组学数据,结合基因组数据(DNA)、转录组数据(RNA)来研究基因组注释问题,被称为蛋白质基因组学。“蛋白质基因组学”一词由Jaffe 等于2004 年首次提出,作者采用串联质谱数据匹配DNA翻译得到氨基酸序列的方法,在仅有810 kb 大小的细菌基因组上直接鉴定开放阅读框(open reading frame,ORF),验证并补充、修订了约10%的ORF。后来这种质谱数据结合DNA 和RNA 数据的分析方法被应用到注释病毒基因组、原核生物基因组以及真核生物基因组。
本来只是利用蛋白质组的质谱数据完善基因组注释的方法,近年来却因为“精准医疗”带火了。各种癌症利用这一方法砸钱发了一篇又一篇的CNS文章。
想更多了解,看综述文章:
Proteogenomics: concepts, applications, and computational strategies
Clinical Potential of Mass Spectrometry-Based Proteogenomics
Proteogenomics: From Next-Generation Sequencing (NGS) and Mass Spectrometry-Based Proteomics to Precision Medicine
Methods, Tools and Current Perspectives in Proteogenomics
技术背景
不讨论精准医疗方面的利用(聚焦于突变位点的研究),重点谈论蛋白质基因组中对基因组重注释的信息分析方法。
目前,基于质谱技术的蛋白组学对于研究生物体所有蛋白质在时间、空间的表达作出了重要的贡献。与核酸测序技术不同的是,蛋白组技术并不能一个一个氨基酸检测出来,而是通过质谱图与理论的蛋白序列来进行匹配。然而,这个技术必须建立这样的假设上:
- 1)该物种基因组被完全测序且的绝大多数基因注释都比较完善。
- 2)公共数据库含有较为完整的蛋白序列。
然而,目前并不是所有基因的注释都十分清楚,如氨基酸突变、新的蛋白编码位点和可变剪切。
蛋白质基因组学技术(Proteogenomics)旨在基于蛋白质谱数据,结合基因组和转录组的注释信息,在蛋白层次上挖掘、验证:
-
- 新的蛋白编码区域;
-
- 新的转录本;
-
- 氨基酸突变事件。
这些信息在物种基因组注释信息、提供基因模型表达证据、完善物种蛋白组序列数据库上有重要意义。
- 氨基酸突变事件。
分析方法和思路
利用蛋白基因组技术对物种基因组进行重注释,其中最重要的一环为氨基酸特征序列数据库的构建。“ 好”的构库方法能够保证后续能够验证到尽可能多的有效序列,同时不因数据库尺寸“过度膨胀”导致太多假阳性验证结果。
-
首先,需要对相应物种(某些组织)进行一定深度的转录组测序,然后基于基因组参考序列,比对原始数据并组装获取编码转录本、LncRNA、可变剪切位点、SNV等信息。利用上述一种或多种信息根据一定规则构建自定义的特征列数据库。通常情况下,推荐使用与蛋白质组实验相同样品进行转录组数据的采集。某些情况下,也可从已发表文献或公共数据库收集同一物种转录组数据辅助构库。
-
接着,针对该物种,获取蛋白表达数据,一方面可以利用质谱进行蛋白组学分析,另外一方面,可以从已发表数据获取,例如PRIDE,PeptideAtlas等。而谱图鉴定引擎将采集到的质谱数据与之前构建的数据库中的肽段进行肽谱匹配打分。
-
不同于常规蛋白鉴定质控过程,新特征序列数据库存在大量的冗余和随机序列。 因此需要更为严格的质控标准和验证方法才能保证鉴定到的新序列足够可信。
-
对鉴定好的新肽段进行筛选分类,统计不同事件的数目。进行人工检视辅助验证各事件的可靠性。最后完成事件的基因组定位及数据可视化展示。
输入
基因组信息:
-
物种的基因组全序列:genome.fasta
-
基因注释文件:gene.gff
转录组数据:
-
测序平台:Highseq2000, 4000, X Ten
-
下机原始数据:.fastq文件
-
测序量:>2.5G/样品 (二倍体)
蛋白组数据:
-
样品组织类型:与转录组配对
-
数据量:>200,000张图谱
-
质谱数据类型:iTRAQ/TMT,Label-free
-
质谱仪器:高分辨率质谱仪(qTOF, Orbitraq)
输出
1)经典蛋白鉴定
2)新基因鉴定
3) 新转录本鉴定
4)SAV鉴定
Ref:https://www.genebang.com/pl/details/vy1E9y
http://www.doc88.com/p-3167460031564.html