安装程序:
# 使用conda安装lumpy-sv,报错: # CondaHTTPError: HTTP 000 CONNECTION FAILED for url <http://mirrors.ustc.edu.cn/anaconda/pkgs/free/noarch/repodata.json> # Elapsed: - # An HTTP error occurred when trying to retrieve this URL. # HTTP errors are often intermittent, and a simple retry will get you on your way. # 报错原理: # conda无法创建虚拟环境并且无法安装其他第三方包 # 默认镜像源访问速度过慢,会导致超时从而导致更新和下载失败。、 # 解决方案: # 更换镜像源为清华镜像源,并且删除默认镜像源。可以通过修改condarc文件 # 结果发现清华镜像2019就停止服务了,改成可以服务的中科大镜像! # 安装: conda install -c bioconda lumpy-sv # 查看rc文件位置: conda config --show-sources
创建python2.7的虚拟环境:
# 创建lumpy-sv使用的python2.7虚拟环境 conda create -n Python2.7 python=2.7 source activate Python2.7 # 如果无法成功激活,那么source activate 虚拟环境完整路径名 conda install -c bioconda lumpy-sv conda install -c bioconda samblaster
lumpy-sv分析之前数据预处理:
#lumpy分析之前的数据预处理: bwa mem -R "@RG ID:${sample_id} SM:${sample_t} LB:lib" ${ref} ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R1.clean.fastq.gz ${data_dir}/S008_dnahezi-A_HX20-${sample_id}-cfDNA_AHYHJHDSXX_S1_L001_R1_001.R2.clean.fastq.gz | samblaster --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 | samtools view -S -b - > ${result_dir}/${sample_t}.bam # bwa命令: # "@RG ID:$sample SM:$sample LB:WES PL:Illumina"的read group信息,用于区分不同的样本, # 其中ID每个group的唯一ID, # SM表示样本名称, # LB代表library,表示文库的名字, # PL代表platform, 表示测序平台的名字,可选值有Illumina, Pacbio # --maxSplitCount INT Maximum number of split alignments for a read to be included in splitter file. # --minNonOverlap INT Minimum non-overlaping base pairs between two alignments for a read to be included in splitter file. # samblaster命令: # 比对完成之后需要用samblaster处理一下, # 主要对bam文件不正常的比对结果进行标记,以便接下里进行处理。 samtools view -b -F 1294 sample.bam | samtools sort - > sample.discordants.sorted.bam # 将discordant的比对提取出来 # -F 1294:samtools flags 1294 # 可以发现1294表示"PROPER_PAIR,UNMAP,MUNMAP,SECONDARY,DUP", # 带上-F意味着以上这些标记在我们筛选的联配记录中都不会出现, # 也就意味着筛选的记录要符合下面要求 # 不能是PROPER_PAIR: 就是比对工具认为都正确比对到基因组上,在同一条染色体,在同一条链的情况,常见的就是83,147和99,163 # 不能是UNMAP和MUNMAP,也就是配对的短读至少有一个能够比对到参考基因组上 # 也不能是SECONDARY, 也就是他必须是主要联配 # 光学重复,DUP, 就更加不能要了 samtools view -h sample.bam | scripts/extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort - > sample.splitters.sorted.bam # 使用lumpy软件自带的extractSplitReads_BwaMem将splitreads提取出来,如果conda下载的lumpy找不到该脚本,重新去github再下载一下源代码包就好
lumpy分析:
lumpyexpress -B tumor.bam,normal.bam -S tumor.splitters.bam,normal.splitters.bam -D tumor.discordants.bam,normal.discordants.bam -o tumor_normal.vcf
# 使用lumpyexpress 进行 variant calling,有tumor-only模式,也有tumor-normal配对模式,以上代码需要修改,不能直接用