生物信息学方法的目的有二:1.常规找鉴定已知蛋白2.鉴定新蛋白
控制数据库大小可以通过增多酶切使得大数据库灵敏性增高数据量变小:
分步搜索是对于经典方法使用后找不到的新蛋白进行补充挖掘,预测蛋白与高可靠蛋白混合,高可靠蛋白变少,新蛋白检出率低:
NCBI使用的便是此方法。
nr是蛋白种类最多的数据库,但新蛋白新可变剪接是参考数据库中没有的:
整合数据库是据相似度纳入数据库,比如先纳入最可信的数据库,然后纳入的数据库要在纳入之后打分,如果分值降低则不纳入:
六相位翻译软件:
六相位翻译使得数据库大,改良时保留单相位增加灵敏度,此时保留的相位可依据PSM、密码子偏性、相似或使用软件得到该相位。最常用是使用软件:利用基因预测工具 (如Augustus) 或EST翻译软件 (如ESTScan 或 EORF)
拼接时最好使用据已有注释并使用外显子组合枚举法。
蛋白质基因组学可以矫正编码基因结构,对可变剪接注释,对基因组和转录组反验证。