测序基础知识--整理

zoukankan html css js c++ java

测序基础知识--整理

测序：

　　如何计算测序深度，或产出的数据量？

　　　　10的9次方=1G

　　　　如果测序的read是pair-end的、且每条read长150bp，则，平均测序深度为=（reads数×150bp×2）/（3*10的10次方）。

　　　　　　即：测序得到的碱基总数/人类基因组的碱基对数=平均测序深度。

　　　　　　比如，我想得到30x的测序数据，那么需要的数据量是90G的数据。（此处，还不甚了解，我觉得应该是900G的数据啊）

　　　　　　（人类基因组有30亿个碱基对（3*10的10次方））

　　　　　　

　　测序错误率：一般选择的阀值是10的-3次方，即测序错误率是0.001。（PCR的错误率是10的-6次方）

　　coverage与depth的概念：coverage指的是测序数据覆盖的人类基因组的碱基数。depth指的是平均每个碱基被测序read覆盖的次数（即被测到的次数）。

　　index的含义：index用来区分不同的样本。单端index共6个碱基，排列组合，共4的6次方个碱基，无法区分66个样本。故，需要采用双端index。

　　　　　　双端index，分为i5和i7端。i5端有8个碱基，i7端有12个碱基。

　　测序的cycle：一个cycle读取一个碱基。也称为：base call。若有index序列，则测序仪会多读几个cycle。

　　文库构建：

　　　　加Y型adapter的目的：1）区分read1和read2，即DNA链的两端；2）防止adapter自连。

　　　　Y型adapter不是互补的，两端的序列不一致。

　　　　10ng的DNA就可以建库，测序。

　　WGS：

　　　　全基因组的重复率是20%，用picard统计duplicate的工具（原理：map位置相同，cigar值相同）。

　　　　建库流程：提取全基因组，打断、末端不平加A，加adapter，PCR扩增，测序。

　　　　　　　　区别cfDNA的靶向建库：cfDNA已经是断裂的片段，所以不需要打断、末端补平加A的步骤，只要提取游离DNA后，用引物扩增即可。

　　target sequencing：

　　　　只对特定区域的进行测序。对cfDNA测序时，不需要打断、末端加A的处理。因为cfDNA已经是片段化的了。

　　测序仪：

　　　　一个flowcell可以看做是一个板（看做一个房间）。一个flowcell上有8条lane（像管子一样），一条lane可产生60G的数据（1条lane测多少数据是固定的）。每条lane上有很多个tile，每个tile都有（x，y）坐标位置，即read长簇的位置。

　　　　Xten测序仪只能测单端index，无法测双端index。

　　　　边合成边测序。dnTP。参照下面的两张图：

　　

　　

查看全文

相关阅读:
Python中的时间
 Python + Selenium 自动化环境搭建过程
 HTML手写课程表，练基础
 temp2
Jenkins配置文件
 Jenkins安装Slave节点
 Jenkins管理插件
 常见的linux上的服务重启脚本
 测试感慨
 docker的安装

原文地址：https://www.cnblogs.com/zypiner/p/12578991.html