zoukankan      html  css  js  c++  java
  • lumpy-sv

    安装程序:

    # 使用conda安装lumpy-sv,报错:
    # CondaHTTPError: HTTP 000 CONNECTION FAILED for url <http://mirrors.ustc.edu.cn/anaconda/pkgs/free/noarch/repodata.json>
    # Elapsed: -
    # An HTTP error occurred when trying to retrieve this URL.
    # HTTP errors are often intermittent, and a simple retry will get you on your way.
    # 报错原理:
    # conda无法创建虚拟环境并且无法安装其他第三方包
    # 默认镜像源访问速度过慢,会导致超时从而导致更新和下载失败。、
    # 解决方案:
    # 更换镜像源为清华镜像源,并且删除默认镜像源。可以通过修改condarc文件
    # 结果发现清华镜像2019就停止服务了,改成可以服务的中科大镜像!
    # 安装:
    conda install -c bioconda lumpy-sv
    # 查看rc文件位置:
    conda config --show-sources

    创建python2.7的虚拟环境:

    # 创建lumpy-sv使用的python2.7虚拟环境
    conda create -n Python2.7 python=2.7
    source activate Python2.7
    # 如果无法成功激活,那么source activate 虚拟环境完整路径名
    conda install -c bioconda lumpy-sv
    conda install -c bioconda samblaster

    lumpy-sv分析之前数据预处理:

    #lumpy分析之前的数据预处理:
    bwa mem -R "@RG	ID:${sample_id}	SM:${sample_t}	LB:lib" ${ref} ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R1.clean.fastq.gz ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R2.clean.fastq.gz
        | samblaster --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 
        | samtools view -S -b - 
        > ${result_dir}/${sample_t}.bam
    # bwa命令:
    # "@RG	ID:$sample	SM:$sample	LB:WES	PL:Illumina"的read group信息,用于区分不同的样本,
    # 其中ID每个group的唯一ID, 
    # SM表示样本名称, 
    # LB代表library,表示文库的名字,
    # PL代表platform, 表示测序平台的名字,可选值有Illumina, Pacbio
    # --maxSplitCount    INT Maximum number of split alignments for a read to be included in splitter file. 
    # --minNonOverlap    INT Minimum non-overlaping base pairs between two alignments for a read to be included in splitter file.
    # samblaster命令:
    # 比对完成之后需要用samblaster处理一下,
    # 主要对bam文件不正常的比对结果进行标记,以便接下里进行处理。
    samtools view -b -F 1294 sample.bam | samtools sort - > sample.discordants.sorted.bam
    # 将discordant的比对提取出来
    # -F 1294:samtools flags 1294
    # 可以发现1294表示"PROPER_PAIR,UNMAP,MUNMAP,SECONDARY,DUP",
    # 带上-F意味着以上这些标记在我们筛选的联配记录中都不会出现,
    # 也就意味着筛选的记录要符合下面要求
    # 不能是PROPER_PAIR: 就是比对工具认为都正确比对到基因组上,在同一条染色体,在同一条链的情况,常见的就是83,147和99,163
    # 不能是UNMAP和MUNMAP,也就是配对的短读至少有一个能够比对到参考基因组上
    # 也不能是SECONDARY, 也就是他必须是主要联配
    # 光学重复,DUP, 就更加不能要了
    samtools view -h sample.bam | scripts/extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort -   > sample.splitters.sorted.bam
    # 使用lumpy软件自带的extractSplitReads_BwaMem将splitreads提取出来,如果conda下载的lumpy找不到该脚本,重新去github再下载一下源代码包就好

    lumpy分析:

    lumpyexpress -B tumor.bam,normal.bam -S tumor.splitters.bam,normal.splitters.bam -D   tumor.discordants.bam,normal.discordants.bam -o tumor_normal.vcf
    # 使用lumpyexpress 进行 variant calling,有tumor-only模式,也有tumor-normal配对模式,以上代码需要修改,不能直接用
    May we all proceed with wisdom and grace. https://www.cnblogs.com/YlnChen/
  • 相关阅读:
    XP IIS COM+ 应用程序无法打开
    SQL 连接字符串
    WebSocket
    一个很详细的web.xml讲解
    Maven+SpringMVC+SpringFox+Swagger整合示例
    poj 1691 Painting A Board (DFS/状态压缩DP)
    poj 3373 Changing Digits (DFS+剪枝)
    hdu 1171 Big Event in HDU (母函数)
    鸽巢定理
    poj 1724 ROADS
  • 原文地址:https://www.cnblogs.com/YlnChen/p/12667431.html
Copyright © 2011-2022 走看看