zoukankan      html  css  js  c++  java
  • 变异检测

    一、Indel

     Pindel:跟其他Call Indel的软件不大一样,Pindel用的是一个叫pattern growth的算法来检测Indel以及其他的结构变异(所以才叫P-Indel的吧),具体算法:http://gmt.genome.wustl.edu/packages/pindel/引用次数还算可以,说明还是有一定优势的

    samtools view LXZ_final.bam | sam2pindel - LXZ_pindel_output 350 tumor 0 Illumina-PairEnd
    

     需要六个参数:

      1. Input sam file or - for cin.(-表示标准输入作为input)

      2. Output for pindel.

      3. insert size.

      4. tag

      5. number of extra lines (not start with @) in the beginning of the file. 

      6. Which sequence platform: Illumina-PairEnd or Illumina-MatePair.

     

    pindel -f human_g1k_v37.fasta -p LXZ_pindel_output -c ALL -T 8 -o LXZ

      -p 是输入文件(上一步的输出结果)

      -c 用来设定区域范围,-c ALL就表示整个基因组

      -T是线程数

      -o 输出结果的前缀,默认情况下会输出所有的插入缺失或者结构变异类型,分别生成以下后缀名结尾的文件:

        D = deletion 缺失序列

        SI = short insertion 短的插入序列

        INV = inversion 转位

        TD = tandem duplication 串联重复

        LI = large insertion 长的插入序列,这个文件的格式跟其他文件的很不相同

        BP = unassigned breakpoints 没有分到上面任意一种类型剩下来的断点

      pindel2vcf这个程序把这些文件转换成我们常用的vcf文件,方便下游处理:

    pindel2vcf -p LXZ_D -r human_g1k_v37.fasta -R 1000GenomesPilot-NCBI37 -d 20100517 -v LXZ_del.vcf -G

      -R需要为参考序列的设定一个名称

      -d还要设定日期(就是这个参考序列生成的日期),当然随便设应该也没什么问题,主要还是为了规范化

      -v是生成的vcf文件的文件名。生成的vcf文件不是那么的标准,用GATK这种软件处理的时候可能不太方便,可以加上-G这个参数来让它尽可能符合GATK输入文件的要求。

  • 相关阅读:
    APPCAN   版本控制SVN
    关于 java中的换行符
    BCompare中文版安装包
    netstat
    springboot mybatis generator
    mysql删除表的方式
    jdbc写入和读取过程
    hadoop全排序和二次排序
    mapreduce之数据倾斜
    hdfs切片的计算方式
  • 原文地址:https://www.cnblogs.com/always-fight/p/9076834.html
Copyright © 2011-2022 走看看