zoukankan      html  css  js  c++  java
  • 利用毒株的accession号,批量下载fasta格式的文件

    一、安装好Entrez Driect

    见:http://www.cnblogs.com/lmt921108/p/8087474.html

    二、在NCBI官网找到需要下载的文件的accession号

    二.创建bash脚本文件

    1.下载全基因组fasta序列(get_comseq.sh)

     1 #!/bin/bash
     2 
     3 cat $1 | while read line
     4 do
     5 efetch -db nucleotide -id $line -format fasta > $line.fasta
     6 done
     7 
     8 #利用bash的for循环实现fasta文件的批量下载
     9 #局限,需要知道毒株的acession号
    10 #代码解释,第三行:逐行读取文件,得到变量line--保存了每行文件的内容。

    运行:bash  get_comseq.sh  accession.txt

    2.下载各个区段的碱基序列(get_genecds.sh)

    1 #!/bin/bash
    2 
    3 cat $1 | while read line
    4 do
    5 efetch -db nucleotide -id $line -format gene_fasta > gene$line.fasta
    6 done

    运行:bash   get_genecds.sh   accession.txt

    3.下载各个区段的氨基酸序列(get_protcds.sh)

    1 #!/bin/bash
    2 
    3 cat $1 | while read line
    4 do
    5 efetch -db nucleotide -id $line -format fasta_cds_aa  > cds$line.fasta
    6 done

    运行:bash  get_protcds.sh   accession.txt

    四、accession文件格式

    AB007451.1
    AB022288.1
    AB022289.1
    AB548618.1
    AB548619.1

    一行只能有一个号

  • 相关阅读:
    FusionCharts 2D柱状图和折线图的组合图调试错误
    FusionCharts 2D柱状图和折线图的组合图
    Action写法心得
    SSH2三大框架SQL查询
    JUnit4测试出错(一)
    Java兔子问题
    FusionCharts重写单系列图
    Java中的Calendar方法
    Java的Random总结
    rtsp协议详解
  • 原文地址:https://www.cnblogs.com/lmt921108/p/8136417.html
Copyright © 2011-2022 走看看