zoukankan      html  css  js  c++  java
  • 利用毒株的accession号,批量下载fasta格式的文件

    一、安装好Entrez Driect

    见:http://www.cnblogs.com/lmt921108/p/8087474.html

    二、在NCBI官网找到需要下载的文件的accession号

    二.创建bash脚本文件

    1.下载全基因组fasta序列(get_comseq.sh)

     1 #!/bin/bash
     2 
     3 cat $1 | while read line
     4 do
     5 efetch -db nucleotide -id $line -format fasta > $line.fasta
     6 done
     7 
     8 #利用bash的for循环实现fasta文件的批量下载
     9 #局限,需要知道毒株的acession号
    10 #代码解释,第三行:逐行读取文件,得到变量line--保存了每行文件的内容。

    运行:bash  get_comseq.sh  accession.txt

    2.下载各个区段的碱基序列(get_genecds.sh)

    1 #!/bin/bash
    2 
    3 cat $1 | while read line
    4 do
    5 efetch -db nucleotide -id $line -format gene_fasta > gene$line.fasta
    6 done

    运行:bash   get_genecds.sh   accession.txt

    3.下载各个区段的氨基酸序列(get_protcds.sh)

    1 #!/bin/bash
    2 
    3 cat $1 | while read line
    4 do
    5 efetch -db nucleotide -id $line -format fasta_cds_aa  > cds$line.fasta
    6 done

    运行:bash  get_protcds.sh   accession.txt

    四、accession文件格式

    AB007451.1
    AB022288.1
    AB022289.1
    AB548618.1
    AB548619.1

    一行只能有一个号

  • 相关阅读:
    闪回flashback
    Oracle数据文件在open状态被删除的恢复记录
    从浅到深掌握Oracle的锁
    Oracle 11g 11201_RHEL5.5_RAC_VBOX 详细搭建步骤
    AWR Report 关键参数详细分析
    16、Xtrabackup备份与恢复
    17、percona-toolkit
    插入排序
    选择排序
    冒泡排序
  • 原文地址:https://www.cnblogs.com/lmt921108/p/8136417.html
Copyright © 2011-2022 走看看