大规模基因组测序中的信息分析 -- 拼接与注释
大规模测序是基因组研究的最基本任务,它的每一给环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体识别与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。
DNA测序仪,测的是光密度。每个碱基是四个不同颜色的光.所以一开始你就需要把光密度变成碱基图样。这是生物信息里面最基本的问题。
基本过程:
Sequencing-Basecalling(Phred,Phd2fasta)-Vector Mark(Crossmatch)-Assemble(Phrap)-Finishing(consed)->Repeat Mark(Repeatmasker,Glimmer,Blastx,Blastn,Clastal,tRNAscan)括号内的是目前在这些阶段用到的软件.
过程:测序仪一次能测的长度500bps-1kbps,怎么办,所以需要在测序之前需要把基因组打算,切断。切到500-1k才能测序.Basecalling称为碱基的读出.测序仪是化学反应。必须有一定量的序列在里面才能测出来。序列切断以后。需要克隆。放到载体里面,把载体扩增到一定的数量扩增好以后的序列,序列被放大了。克隆了。测的序不是我们真正需要的。而是加上了做克隆时候的载体的序列。BaseCalling不仅仅是要测的序列。还包含了载体的序列。但是载体的序列是已知的。因为载体是自己放的。所以要把载体序列从序列里切掉。就要做一个载体的数据库,载体是已知的。当测完以后。用载体的库和测好的序列去比,一样的就切掉。所以下一步就是载体的标识,过程之后得到的序列就是真正需要的序列。然后就是拼接,要把去掉载体以后真正的短序列拼接到基因组的原长,这是基因组序列的核心。关键步骤。拼接完以后,可能不能一次拼起来,然后可能还需要给没拼接起来的补起来。然后才得到全长序列。需要基因标注。这是一个什么基因。这就是获得一个完整基因组的一个整个的步骤。
30亿切成500-1000bps以后.上千万段,
如果有两份,用不同的方式切断。然后各自做样本,互相为模板就可以延长了。数学家统计只用两本书两种方法来拼接。是很难的。接着买3本,还是不行。统计学家一算,需要5个一样的,5个不同的办法来弄的话。理论上可以拼成90%。人类遗传密码的草图就是拼成原来的90%。把人类基因组测5遍。这个事情谁来做呢?请计算机专家写程序用超级计算机来搭。所以基因组研究中心都会有超级计算中心来进行拼接。
做完成图,覆盖率要达到99%,又测了5本,覆盖率从90%提高到了99%。
拼接与组装主要技术:序列比对,找到相同的序列连接到一起的过程。如果序列都接好了。就得到天书了。哪些地方是基因呢?哪些地方是启动子呢?怎么办。依赖于生物信息学的理论工作。怎么来识别基因组当中哪些是编码区。这两个部分是生物信息学非常重要的部分。
区别DNA中哪些是编码区?识别过程有两类的办法,1.依赖于信号.2依赖于组分。
基于那段序列的分布组成来识别:
1.基于统计的办法:所有编码蛋白质的部分都是三个碱基做成一个单位,因为三个碱基对应一个氨基酸,而不编码的地方不具有这个特征。但是氨基酸的组成不是20种氨基酸等概率出现。所以氨基酸的出现是有统计分布的。所以这段是编码蛋白质的时候。翻译成氨基酸的时候。这个翻译成的氨基酸的总体组成。如果按照3个碱基翻译接近蛋白质中氨基酸的含量分布。就很像了。那这就是外显子。三联体特征。
2.基于序列对比的办法:测一段以后和已知的比一下,就可以了。缺点是一个新的都发现不了。数据库有的就行。没有就没办法了。每发现一个序列就和现有的数据库对比一下。
神经网络的办法也可以:
序列对比的基本办法:1.任何测一段序列都要和已知的比一比。基本算法是什么?
Sequence Analysis-Pairwise Alignment.
碱基对碱基联配的办法.
动态规划算法:(耗时)
实际上你有一个序列,我有一个序列.两个序列放一起,看怎么叠合效果最好.这个办法对两个序列来讲.数学上有严格解,可以找到最佳解.数学上用动态规划算法.这个算法可以严格的把两个序列放一起得到最好的比对.怎么样的放的位置是两个序列得到最大的叠合才是需要的结果.
实际现在的算法都是对动态规划算法的简化算法。简化的算法实际上是牺牲掉一些精度而得到了速度。
国际上公认通用的简单算法BLAST.把序列送进去他就自动给你对比.
稍微复杂一下FSATA(准确性精确性高一点).
Basic Local Alignment Search Tool :BLAST,两个序列像不像的方法.
神经网络的办法:
构造一个神经网络,1.硬的.2.软的.
第一层:输入源:输入序列
第二层:输出源
第三层:序列