zoukankan      html  css  js  c++  java
  • 求Read Depth

    如何划窗统计测序数据的reads数(depth):https://blog.csdn.net/shenshenwu666/article/details/80936374

    方法1,用samtools depth。但是这个方法仅仅局限于对单个位点进行depth进行统计

    samtools depth -b bed_file sample.bam > sample.depth

           bed 用来指定统计区间,运行后输出指定区间每一个碱基的测序深度(由于涉及所有碱基,因此文件很大)

    方法2,用samtools bedcov方法

    samtools bedcov bed_file samplename.bam > sample.bedcov

    输出的文件中计算了bed文件每一个区间的碱基总数,这里并不是reads的条数

    方法3,bedtools软件。。需要使用滑动窗口来对区间进行统计,这样可以观察在整条染色体上测序深度的变化趋势:

    1). bedtools makewindows -g genome.txt -w 10000000 -s 1000000 > windows.bed

        #bedtools makewindows用来自动生成划窗区间。-g genome.txt是要划分的基因组,格式为两列:染色体、染色体长度;-w 10000000为窗口大小为10M;-s 1000000为步长为1M,即窗口在染色体上每次向右平移1M的距离;windows.bed为输出文件,格式为三列:染色体、区间开始位点、区间结束位点。

    2). bedtools coverage -a windows.bed -b xxx.sort.bam > xxx.depth.txt

        #bedtools coverage对划分好的每个滑动窗口进行reads数(depth)的统计。-a windows为上一步划分好的区间;-b xxx.sort.bam为测序数据mapping到参考基因组的比对文件;xxx.depth.txt为统计结果的输出文件,格式为7列:染色体、区间起始位点、区间结束位点、该区间内的reads数、该区间内的碱基数、区间大小、该区间的平均覆盖度。

        #关于xxx.sort.bam文件的几点说明:

        1. 一般将测序数据mapping到参考基因组之后的输出文件为sam文件格式,需要先用samtools view -bS xxx.sam > xxx.bam转换为bam格式

        2.xxx.bam还需要进行排序和建立索引才能用于后续的统计:

        samtools sort xxx.bam xxx.sort   ##输出结果为xxx.sort.bam

        samtools index xxx.sort.bam      ##输出结果为xxx.sort.bam.bai
    ---------------------
    作者:wu伸伸
    来源:CSDN
    原文:https://blog.csdn.net/shenshenwu666/article/details/80936374

     方法4,https://www.jianshu.com/p/82ed6e27f571

    方法5, GATK软件

    java -Xmx30g -XX:ParallelGCThreads=6 -jar /opt/GenomeAnalysisTK.jar -T DepthOfCoverage -R /path/genome.fna -I /path/sample.bam -o /path/sample.DepthOfCoverage -nt 10 -ct 5 -ct 1 -ct 10 -ct 30 -ct 50 --omitDepthOutputAtEachBase --omitIntervalStatistics --omitLocusTable

    使用DepthOfCoverage模块统计测序深度和覆盖度。与samtools depth 一样,统计每个碱基的测序深度。 -ct指定统计测序深度的阈值,如 -ct 1 统计测序深度为1 的碱基占比。

    https://mp.weixin.qq.com/s/7KiXyvKgQ35wHfEiDLvLyQ

    GCdepth散点图绘制:

    https://blog.csdn.net/huangliangbo0805/article/details/51165943?utm_source=blogxgwz2

    滑窗口统计基因组GC含量的分布:

    https://blog.csdn.net/hugolee123/article/details/38441927?utm_source=blogxgwz1

  • 相关阅读:
    边工作边刷题:70天一遍leetcode: day 58-1
    边工作边刷题:70天一遍leetcode: day 58
    边工作边刷题:70天一遍leetcode: day 59
    边工作边刷题:70天一遍leetcode: day 90
    边工作边刷题:70天一遍leetcode: day 60-2
    边工作边刷题:70天一遍leetcode: day 60-1
    边工作边刷题:70天一遍leetcode: day 60
    边工作边刷题:70天一遍leetcode: day 61-7
    边工作边刷题:70天一遍leetcode: day 61-6
    边工作边刷题:70天一遍leetcode: day 61-5
  • 原文地址:https://www.cnblogs.com/lyyao/p/9875754.html
Copyright © 2011-2022 走看看