zoukankan      html  css  js  c++  java
  • 生信软件安装

    二、比对

     1)Blat:全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具",对于DNA序列,BLAT是用来设计寻找95%及以上相似至少40个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。

      Blat 的主要特点就是:速度快,共线性输出结果简单易读。Blat 把相关的呈共线性的比对结果连接成为更大的比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,blat 得到了广泛的应用

      Blat的比对速度之所以能比Blast快几百倍,是因为此两者之间的比对机制有着本质的差别。Blast是将查询序列索引化,然后线性搜索庞大的目标数据库,期间频繁地访问硬盘数据,时间和空间上的数据相关性较小

      Blat则将庞大的目标数据库索引,然后线性搜索查询序列,这种搜索方式在时间和空间上的数据相关性比较大。

      Blat将数据库索引一次性读入内存,可以反复地高速调用,无需访问硬盘,占用的系统资源很少。只要索引建立,查询序列的量越大,Blat的优势就越明显。

    wget -c https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip
    unzip blatSrc35.zip 
    cd blatSrc
    uname -a
    export MACHTYPE="x86_64"
    mkdir ~/bin/$MACHTYPE
    mkdir $MACHTYPE
    make
    

      注意:Why do I get the error "BLAT CALL FAILED!" even if I have put BLAT to my $PATH when I am running AlignGraph? The current version of BLAT (v35) is not compatible with AlignGraph, so you would have to use an earlier version to avoid this error. 

     2)AlignGraph:AlignGraph is a software that extends and joins contigs or scaffolds by reassembling them with help provided by a reference genome of a closely related organism.

    git clone https://github.com/baoe/AlignGraph.git
    

     注意:AlignGraph输入序列是fa格式的

     4)SPAdes:主要用于进行单细胞测序的细菌基因组组装,当然也能用于非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads,或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads 数据的输入:http://cab.spbu.ru/software/spades/

    #解压直接使用
    wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
    
    #老版本
    wget http://spades.bioinf.spbau.ru/release3.1.0/SPAdes-3.1.0-Linux.tar.gz
    

     5)QUAST :Quality Assessment Tool for Genome Assemblies

    wget https://downloads.sourceforge.net/project/quast/quast-5.0.0.tar.gz
    tar -xzf quast-5.0.0.tar.gz
    cd quast-5.0.0
    
    sudo python setup.py install#或者查看README.md查看安装信息 
    

    三、变异检测

     1)vt:A tool set for short variant discovery in genetic sequence data:https://github.com/atks/vt下载后make即可

    四、注释工具

     1)VEP注释工具:

      VEP(Variant Effect Predictor): 最初发布于2010年(PMID:20562413),16年(PMID:27268795)又发布了新的版本做了很大改进,现在主要可以进行序列变异和结构变异注释.(基于perl)

    wget https://github.com/Ensembl/ensembl-vep/archive/release/92.zip

      该软件的安装依赖于perl及perl模块DBI:

    wget https://cpan.metacpan.org/authors/id/T/TI/TIMB/DBI-1.641.tar.gz
    tar -xzvf DBI-1.641.tar.gz
    cd DBI-1.641
    perl Makefile.PL PREFIX=/perl/Module/DBI
    make 
    make test
    make install
    #然后
    cd VEP
    perl INSTALL.pl

     2)GEMINI:https://gemini.readthedocs.io/en/latest/ or https://github.com/arq5x/gemini

    git clone https://github.com/arq5x/gemini.git

      安装依赖好多包,而且也要升级包,升级方法去看我的博客Python文件夹,其中出现如下错误:

    #ImportError: Tornado requires an up-to-date SSL module. This means Python 2.7.9+ or 3.4+ (although some distributions have backported the necessary changes to older versions).
    #解决方法:https://stackoverflow.com/questions/51000512/import-error-tornado-requires-an-updated-ssl-module-on-ubuntu-14-04
    #不想更新python版本
    pip install tornado==4.*
    pip install jupyter
    

      其中依赖cyvcf2,该包安装成功,但import cyvcf2的时候报错:cyvcf2.so: undefined symbol: EVP_sha1

      排错过程比较纠结,但是可以尝试locate EVP_sha1,看是否出来了多条结果,尝试删除其他条,保留/usr/share/man/man3/EVP_sha1.3ssl.gz,sudo vi /var/lib/mlocate/mlocate.db去掉删除的其他条结果。然后再重新安装pip install cyvcf2

    gemini load --cores 4 -t snpEff -v RUN-CTRL14.snpeff.clean.vcf.gz gemini.db
    '''
    ValueError: GEMINI configuration file gemini-config.yaml not found in ['/usr/local/share/gemini', '/home/user01/.gemini'].
    Please ensure the GEMINI data is installed using the install-data.py script
    http://gemini.readthedocs.org/en/latest/content/installation.html
    '''
    #尝试
    sudo python gemini/install-data.py /usr/local/share/
    

       gemini需要grabix

    git clone https://github.com/arq5x/grabix.git
    make
    

      

     3)prokka:细菌基因组、宏基因组的基因注释

    git clone https://github.com/tseemann/prokka.git
    
    sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
    
    #安装perl包XML
    sudo bash
    export PERL_MM_USE_DEFAULT=1
    export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
    perl -MCPAN -e 'install "XML::Simple"'
    
    # 添加环境变量
    export PATH=$PATH:prokka/bin
    # 自动搜索并添加数据库
    prokka --setupdb
    # 测序数据库
    prokka --listdb
    

     4)InterVar:A bioinformatics software tool for clinical interpretation of genetic variants by the ACMG-AMP 2015 guidelines

    git clone https://github.com/WGLab/InterVar.git
    #安装使用后需要annovar软件,看云盘
    

      参考:http://www.sohu.com/a/126228397_152537

  • 相关阅读:
    OleDbCommand 的用法
    递归求阶乘
    C#重写窗体的方法
    HDU 5229 ZCC loves strings 博弈
    HDU 5228 ZCC loves straight flush 暴力
    POJ 1330 Nearest Common Ancestors LCA
    HDU 5234 Happy birthday 01背包
    HDU 5233 Gunner II 离散化
    fast-IO
    HDU 5265 pog loves szh II 二分
  • 原文地址:https://www.cnblogs.com/always-fight/p/9485929.html
Copyright © 2011-2022 走看看