zoukankan      html  css  js  c++  java
  • 基因家族分析之同源基因的寻找

    Blast进行同源基因的寻找

    参考博客:

    基于蛋白的比对结果,寻找某一个蛋白家族的同源基因,使用如下的参数

    • identity >30%;
    • e-value <1e-10;
    • score>200
    • overlap >60%

    首先对感兴趣的基因家族蛋白序列建立索引

    makeblastdb -in test.fsa -parse_seqids -dbtype prot -out test_db
    

    然后使用blastp比对到建立好索引的数据库

    -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs"
    
    blastp -query Bju.chr.modified_id.pep.fa -db MAGL_pep -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs" -max_hsps 1  -num_alignments 1 -evalue 1e-10 -num_threads 30  -out Bju.MAGL.v2.txt
    

    如果需要blast比对返回一个最优的比对结果,需要控制-max_target_seqs , -num_alignments 和 -max_hsps 选项:

    -max_target_seqs <Integer, >=1>Maximum number of aligned sequences to keepNot applicable for outfmt <= 4* Incompatible with: num_descriptions, num_alignments 
    -num_alignments <Integer, >=0>Number of database sequences to show alignments for* Incompatible with: max_target_seqs
    

    分割NR子库

    NCB blast-2.8版本可支持用NCBI自带代码分割的NR子库的索引作为比对的库,使用比较方便

    NR库也要重新下载了ftp://ftp.ncbi.nlm.nih.gov/blast/db/v5/

    如果只想比对到单一物种人9606

    blastp –db nr –query query.fasta –taxids 9606 –outfmt 6 –out blast.outfm6
    

    比对NR子库哺乳动物的话,需要先建个哺乳动物子库tax_id索引

    get_species_taxids.sh -t 40674 > 40674.txids
    

    将序列比对至NR哺乳动物子库

    blastp –db nr –query query.fasta –taxidlist 40674.txids –outfmt 6 –out blast.outfm6
  • 相关阅读:
    状压DP
    数位dp
    浅谈网络最大流
    Luogu p2456 二进制方程
    dp基础√
    双联通分量与二分图
    是时候再写一篇新的博客了
    神仙网络最大流
    状态压缩dp相关
    图论 test solution
  • 原文地址:https://www.cnblogs.com/raisok/p/12425008.html
Copyright © 2011-2022 走看看