一、安装好Entrez Driect
见:http://www.cnblogs.com/lmt921108/p/8087474.html
二、在NCBI官网找到需要下载的文件的accession号
二.创建bash脚本文件
1.下载全基因组fasta序列(get_comseq.sh)
1 #!/bin/bash 2 3 cat $1 | while read line 4 do 5 efetch -db nucleotide -id $line -format fasta > $line.fasta 6 done 7 8 #利用bash的for循环实现fasta文件的批量下载 9 #局限,需要知道毒株的acession号 10 #代码解释,第三行:逐行读取文件,得到变量line--保存了每行文件的内容。
运行:bash get_comseq.sh accession.txt
2.下载各个区段的碱基序列(get_genecds.sh)
1 #!/bin/bash 2 3 cat $1 | while read line 4 do 5 efetch -db nucleotide -id $line -format gene_fasta > gene$line.fasta 6 done
运行:bash get_genecds.sh accession.txt
3.下载各个区段的氨基酸序列(get_protcds.sh)
1 #!/bin/bash 2 3 cat $1 | while read line 4 do 5 efetch -db nucleotide -id $line -format fasta_cds_aa > cds$line.fasta 6 done
运行:bash get_protcds.sh accession.txt
四、accession文件格式
AB007451.1 AB022288.1 AB022289.1 AB548618.1 AB548619.1
一行只能有一个号