如何从NCBI下载基因组数据

zoukankan html css js c++ java

如何从NCBI下载基因组数据
- 本文关于如何在 NCBI 的 FTP 里下载需要的基因组数据。
已知信息
- 例如：我从文献里看到作者测了 Escherichia coli ATCC 25922 的基因组，想从NCBI下载。
原文提供的信息是：

This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.

我们获得的关键信息：
1. 物种和菌株名字：Escherichia coli ATCC 25922；
2. Accession number：ASHD00000000;
3. Version：ASHD01000000。
理论
- 平时下载单条序列常常是直接从页面选择导出fasta文件，对于基因组则应该找到它在 FTP 中的位置，然后将整个文件夹下载下来。
实际操作
- 在All database 里搜索 Escherichia coli ATCC 25922后发现在Genome数据库中有1条信息。开心的点开后发现是所有大肠杆菌的基因组信息，一共有9610个。进入list之后搜索25922没有任何结果。
问题：这里不支持模糊搜索，如果要得到结果，你需要精确的输入 Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1。谁会知道这么详细的信息？
- 正确操作：输入 25922 之后按 上下箭头，会自动补齐。
此时你应当在表中找到：
1. 可以点进FTP的链接。
2. Assembly：GCA_000401755.1 。
3. WGS：ASHD01。
说明
- 其实我想找的就是这个Assembly No.，因为它直接对应基因组在 FTP 中的文件夹位置。
- 点开FTP链接，你会进入以下文件夹：
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/

也就是在路径 genomes → all → GCF → 000 → 401 → 755 中，F 代表这个地方的是 reference sequences。
实际上在 genomes → all → GCA → 000 → 401 → 755 中有一份一样的。
- 如果原文提供的是 Assembly No ，你就不需要再去 NCBI 查找了，直接能通过 FTP 地址找到，我一般使用 FileZilla 来下载。
- 如果下载多个 genomes 也能根据 Assembly No 写简单代码批量下载代码 link。
- 而 WGS 里面你可以单独的看到每个蛋白质，cotig 等的信息，实际上就是把 FTP 里面能下的内容拆开了，并且是页面下载的。
- NCBI 里面新旧命名系统，一个东西在不同的库里面有不一样的名字很是让新手头痛。
参考

[1] WGS页面，此处应搜索ASHD01。
[2] 所有大肠杆菌基因组汇总，此次使用25922补齐信息搜索。
[3] NCBI提供的如何下载基因组说明。
[4] 实现批量下载。
----ฅ(*ΦωΦ)ฅ---- cognata ad sidera tendit...
查看全文

相关阅读:
[.net 面向对象程序设计深入]（2）UML——在Visual Studio 2013/2015中设计UML用例图
 [.net 面向对象程序设计深入]（1）UML——在Visual Studio 2013/2015中设计UML类图
 [.net 面向对象程序设计进阶] (28) 结束语——告别2015
[.net 面向对象程序设计进阶] (27) 团队开发利器（六）分布式版本控制系统Git——在Visual Studio 2015中使用Git
[.net 面向对象程序设计进阶] (26) 团队开发利器（五）分布式版本控制系统Git——图形化Git客户端工具TortoiseGit
[.net 面向对象程序设计进阶] (25) 团队开发利器（四）分布式版本控制系统Git——使用GitStack+TortoiseGit 图形界面搭建Git环境
 [.net 面向对象程序设计进阶] (24) 团队开发利器（三）使用SVN多分支并行开发(下)
[.net 面向对象程序设计进阶] (23) 团队开发利器（二）优秀的版本控制工具SVN(上)
[.net 面向对象程序设计进阶] (22) 团队开发利器（一）简单易用的代码管理工具VSS
[.net 面向对象程序设计进阶] (21) 反射(Reflection)（下）设计模式中利用反射解耦

原文地址：https://www.cnblogs.com/Xeonilian/p/genome-download-NCBI.html

如何从NCBI下载基因组数据

已知信息

理论

实际操作

说明

参考