对初步组装进行polish
以FASTA和BAM文件作为输入,根据比对结果对输入的参考基因组进行提高,包括
- 单碱基差异
- 小的插入缺失(indels)
- 较大的插入缺失或者block替换
- 填充参考序列中的N
- 找到局部的错误组装
最后输出polish后的FASTA文件
利用第二代数据和第三代数据进行混装(Hybrid assembly),这种方法充分发挥了第二代数据质量高和第三代数据片段长的优势,组装出来的结果质量普遍比较高。混装策略的其中一种是先用第二代数据对第三代片段进行纠错,然后将第三代长片段组装成contigs,最后基于第二代的mate-paired数据生成scaffolds,如Pilon[41]软件支持该方法。2016年Jeong-Sun等[42]使用后一种方法完成了韩国人基因组的组装,组装完成之后的contigs和scaffolds N50分别达到17.9 Mb和44.8 Mb。
consensus得到的fa与consensus+pilon得到的fa, 由于N50反映的是序列的长度,不能反映polion所做的修改单碱基差异等提升效果。Busco理论上可以反映提升效果,局部错误纠正后理论的busco值应该更大了。
参考来源:
https://www.jianshu.com/p/cceeb7d1f413
卢鹏, 金静静, 李泽锋, 等. 基于第三代测序技术的基因组组装方法及其在烟草中的应用. 烟草科技, 2018, 51(2): 87-94.