zoukankan      html  css  js  c++  java
  • 生信软件安装

    二、比对

     1)Blat:全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具",对于DNA序列,BLAT是用来设计寻找95%及以上相似至少40个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。

      Blat 的主要特点就是:速度快,共线性输出结果简单易读。Blat 把相关的呈共线性的比对结果连接成为更大的比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,blat 得到了广泛的应用

      Blat的比对速度之所以能比Blast快几百倍,是因为此两者之间的比对机制有着本质的差别。Blast是将查询序列索引化,然后线性搜索庞大的目标数据库,期间频繁地访问硬盘数据,时间和空间上的数据相关性较小

      Blat则将庞大的目标数据库索引,然后线性搜索查询序列,这种搜索方式在时间和空间上的数据相关性比较大。

      Blat将数据库索引一次性读入内存,可以反复地高速调用,无需访问硬盘,占用的系统资源很少。只要索引建立,查询序列的量越大,Blat的优势就越明显。

    wget -c https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip
    unzip blatSrc35.zip 
    cd blatSrc
    uname -a
    export MACHTYPE="x86_64"
    mkdir ~/bin/$MACHTYPE
    mkdir $MACHTYPE
    make
    

      注意:Why do I get the error "BLAT CALL FAILED!" even if I have put BLAT to my $PATH when I am running AlignGraph? The current version of BLAT (v35) is not compatible with AlignGraph, so you would have to use an earlier version to avoid this error. 

     2)AlignGraph:AlignGraph is a software that extends and joins contigs or scaffolds by reassembling them with help provided by a reference genome of a closely related organism.

    git clone https://github.com/baoe/AlignGraph.git
    

     注意:AlignGraph输入序列是fa格式的

     4)SPAdes:主要用于进行单细胞测序的细菌基因组组装,当然也能用于非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads,或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads 数据的输入:http://cab.spbu.ru/software/spades/

    #解压直接使用
    wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
    
    #老版本
    wget http://spades.bioinf.spbau.ru/release3.1.0/SPAdes-3.1.0-Linux.tar.gz
    

     5)QUAST :Quality Assessment Tool for Genome Assemblies

    wget https://downloads.sourceforge.net/project/quast/quast-5.0.0.tar.gz
    tar -xzf quast-5.0.0.tar.gz
    cd quast-5.0.0
    
    sudo python setup.py install#或者查看README.md查看安装信息 
    

    三、变异检测

     1)vt:A tool set for short variant discovery in genetic sequence data:https://github.com/atks/vt下载后make即可

    四、注释工具

     1)VEP注释工具:

      VEP(Variant Effect Predictor): 最初发布于2010年(PMID:20562413),16年(PMID:27268795)又发布了新的版本做了很大改进,现在主要可以进行序列变异和结构变异注释.(基于perl)

    wget https://github.com/Ensembl/ensembl-vep/archive/release/92.zip

      该软件的安装依赖于perl及perl模块DBI:

    wget https://cpan.metacpan.org/authors/id/T/TI/TIMB/DBI-1.641.tar.gz
    tar -xzvf DBI-1.641.tar.gz
    cd DBI-1.641
    perl Makefile.PL PREFIX=/perl/Module/DBI
    make 
    make test
    make install
    #然后
    cd VEP
    perl INSTALL.pl

     2)GEMINI:https://gemini.readthedocs.io/en/latest/ or https://github.com/arq5x/gemini

    git clone https://github.com/arq5x/gemini.git

      安装依赖好多包,而且也要升级包,升级方法去看我的博客Python文件夹,其中出现如下错误:

    #ImportError: Tornado requires an up-to-date SSL module. This means Python 2.7.9+ or 3.4+ (although some distributions have backported the necessary changes to older versions).
    #解决方法:https://stackoverflow.com/questions/51000512/import-error-tornado-requires-an-updated-ssl-module-on-ubuntu-14-04
    #不想更新python版本
    pip install tornado==4.*
    pip install jupyter
    

      其中依赖cyvcf2,该包安装成功,但import cyvcf2的时候报错:cyvcf2.so: undefined symbol: EVP_sha1

      排错过程比较纠结,但是可以尝试locate EVP_sha1,看是否出来了多条结果,尝试删除其他条,保留/usr/share/man/man3/EVP_sha1.3ssl.gz,sudo vi /var/lib/mlocate/mlocate.db去掉删除的其他条结果。然后再重新安装pip install cyvcf2

    gemini load --cores 4 -t snpEff -v RUN-CTRL14.snpeff.clean.vcf.gz gemini.db
    '''
    ValueError: GEMINI configuration file gemini-config.yaml not found in ['/usr/local/share/gemini', '/home/user01/.gemini'].
    Please ensure the GEMINI data is installed using the install-data.py script
    http://gemini.readthedocs.org/en/latest/content/installation.html
    '''
    #尝试
    sudo python gemini/install-data.py /usr/local/share/
    

       gemini需要grabix

    git clone https://github.com/arq5x/grabix.git
    make
    

      

     3)prokka:细菌基因组、宏基因组的基因注释

    git clone https://github.com/tseemann/prokka.git
    
    sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
    
    #安装perl包XML
    sudo bash
    export PERL_MM_USE_DEFAULT=1
    export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
    perl -MCPAN -e 'install "XML::Simple"'
    
    # 添加环境变量
    export PATH=$PATH:prokka/bin
    # 自动搜索并添加数据库
    prokka --setupdb
    # 测序数据库
    prokka --listdb
    

     4)InterVar:A bioinformatics software tool for clinical interpretation of genetic variants by the ACMG-AMP 2015 guidelines

    git clone https://github.com/WGLab/InterVar.git
    #安装使用后需要annovar软件,看云盘
    

      参考:http://www.sohu.com/a/126228397_152537

  • 相关阅读:
    CodeForces 460B
    CodeForces 456A
    CodeForces462B
    HDU1394(线段树||树状数组)
    HDU1541(树状数组)
    HDU1556(树状数组)
    HDU5726(RMQ&&二分)
    POJ1182(并查集)
    HDU4496(并查集)
    HDU3038(并查集)
  • 原文地址:https://www.cnblogs.com/always-fight/p/9485929.html
Copyright © 2011-2022 走看看