phred-scale quality score起源于人类基因组计划,最初是用来评估碱基质量分数,后来,被广泛的推广到基因领域的其他内容。
phred-scalequality score表示这件事情做对的可能性,值越高,则做对的可能性越高。一般说来,值可以从0到无穷大。
phred-scale quality score的计算公式:Q=-10 * logE ;Q表示score ,E表示这件事情出错的概率。
下表为一一对应的Q值和E值:
下图为上表的曲线图:
可以看得出来,phred score超过20以后,正确率的曲线趋势于一条无变化的直线,即超过20以后,正确率的变化不大。所以很多事情的阈值都定在Q20,比如常说的下机数据中Q20的比率有多大。
phred-scale quality score最常用于两个地方:
1、碱基质量分数
2、variant quality score,在GATK中是QUAL列。