zoukankan      html  css  js  c++  java
  • 基因家族分析之同源基因的寻找

    Blast进行同源基因的寻找

    参考博客:

    基于蛋白的比对结果,寻找某一个蛋白家族的同源基因,使用如下的参数

    • identity >30%;
    • e-value <1e-10;
    • score>200
    • overlap >60%

    首先对感兴趣的基因家族蛋白序列建立索引

    makeblastdb -in test.fsa -parse_seqids -dbtype prot -out test_db
    

    然后使用blastp比对到建立好索引的数据库

    -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs"
    
    blastp -query Bju.chr.modified_id.pep.fa -db MAGL_pep -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs" -max_hsps 1  -num_alignments 1 -evalue 1e-10 -num_threads 30  -out Bju.MAGL.v2.txt
    

    如果需要blast比对返回一个最优的比对结果,需要控制-max_target_seqs , -num_alignments 和 -max_hsps 选项:

    -max_target_seqs <Integer, >=1>Maximum number of aligned sequences to keepNot applicable for outfmt <= 4* Incompatible with: num_descriptions, num_alignments 
    -num_alignments <Integer, >=0>Number of database sequences to show alignments for* Incompatible with: max_target_seqs
    

    分割NR子库

    NCB blast-2.8版本可支持用NCBI自带代码分割的NR子库的索引作为比对的库,使用比较方便

    NR库也要重新下载了ftp://ftp.ncbi.nlm.nih.gov/blast/db/v5/

    如果只想比对到单一物种人9606

    blastp –db nr –query query.fasta –taxids 9606 –outfmt 6 –out blast.outfm6
    

    比对NR子库哺乳动物的话,需要先建个哺乳动物子库tax_id索引

    get_species_taxids.sh -t 40674 > 40674.txids
    

    将序列比对至NR哺乳动物子库

    blastp –db nr –query query.fasta –taxidlist 40674.txids –outfmt 6 –out blast.outfm6
  • 相关阅读:
    yii 引入文件
    CodeForces 621C Wet Shark and Flowers
    面试题题解
    POJ 2251 Dungeon Master
    HDU 5935 Car(模拟)
    HDU 5938 Four Operations(暴力枚举)
    CodeForces 722C Destroying Array(并查集)
    HDU 5547 Sudoku(dfs)
    HDU 5583 Kingdom of Black and White(模拟)
    HDU 5512 Pagodas(等差数列)
  • 原文地址:https://www.cnblogs.com/raisok/p/12425008.html
Copyright © 2011-2022 走看看