zoukankan      html  css  js  c++  java
  • 测序基础知识--整理

    测序:

      如何计算测序深度,或产出的数据量?

        10的9次方=1G

         如果测序的read是pair-end的、且每条read长150bp,则,平均测序深度为=(reads数×150bp×2)/(3*10的10次方)。

          即:测序得到的碱基总数/人类基因组的碱基对数=平均测序深度。

          比如,我想得到30x的测序数据,那么需要的数据量是90G的数据。(此处,还不甚了解,我觉得应该是900G的数据啊)

          (人类基因组有30亿个碱基对(3*10的10次方))

           

      测序错误率:一般选择的阀值是10的-3次方,即测序错误率是0.001。(PCR的错误率是10的-6次方)

      coverage与depth的概念:coverage指的是测序数据覆盖的人类基因组的碱基数。depth指的是平均每个碱基被测序read覆盖的次数(即被测到的次数)。

      index的含义:index用来区分不同的样本。单端index共6个碱基,排列组合,共4的6次方个碱基,无法区分66个样本。故,需要采用双端index。

          双端index,分为i5和i7端。i5端有8个碱基,i7端有12个碱基。

      测序的cycle:一个cycle读取一个碱基。也称为:base call。若有index序列,则测序仪会多读几个cycle。 

      文库构建:

        加Y型adapter的目的:1)区分read1和read2,即DNA链的两端;2)防止adapter自连。

        Y型adapter不是互补的,两端的序列不一致。

        10ng的DNA就可以建库,测序。 

      WGS:

        全基因组的重复率是20%,用picard统计duplicate的工具(原理:map位置相同,cigar值相同)。

        建库流程:提取全基因组,打断、末端不平加A,加adapter,PCR扩增,测序。

            区别cfDNA的靶向建库:cfDNA已经是断裂的片段,所以不需要打断、末端补平加A的步骤,只要提取游离DNA后,用引物扩增即可。

      target sequencing:

        只对特定区域的进行测序。对cfDNA测序时,不需要打断、末端加A的处理。因为cfDNA已经是片段化的了。

      测序仪:

        一个flowcell可以看做是一个板(看做一个房间)。一个flowcell上有8条lane(像管子一样),一条lane可产生60G的数据(1条lane测多少数据是固定的)。每条lane上有很多个tile,每个tile都有(x,y)坐标位置,即read长簇的位置。

        Xten测序仪只能测单端index,无法测双端index。

        边合成边测序。dnTP。参照下面的两张图:

      

       

  • 相关阅读:
    javascript实现根据时间段显示问候语的方法
    视觉会议收藏一
    cv的期刊和会议
    CVPR2016 Paper list
    CVPR 2017 Paper list
    关注的牛人
    cvpr2016论文
    linux命令技巧:scp多文件远程拷贝
    linux命令技巧--df -lh:查看磁盘占用情况
    spark--01编译安装spark1.3.1
  • 原文地址:https://www.cnblogs.com/zypiner/p/12578991.html
Copyright © 2011-2022 走看看