zoukankan      html  css  js  c++  java
  • 如何从NCBI下载基因组数据

    • 本文关于如何在 NCBIFTP 里下载需要的基因组数据。

    已知信息

    • 例如:我从文献里看到作者测了 Escherichia coli ATCC 25922 的基因组,想从NCBI下载。

    原文提供的信息是:

    This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.

    我们获得的关键信息:

    1. 物种和菌株名字:Escherichia coli ATCC 25922
    2. Accession number:ASHD00000000;
    3. Version:ASHD01000000

    理论

    • 平时下载单条序列常常是直接从页面选择导出fasta文件,对于基因组则应该找到它在 FTP 中的位置,然后将整个文件夹下载下来。

    实际操作

    • All database 里搜索 Escherichia coli ATCC 25922后发现在Genome数据库中有1条信息。开心的点开后发现是所有大肠杆菌的基因组信息,一共有9610个。进入list之后搜索25922没有任何结果。

    问题:这里不支持模糊搜索,如果要得到结果,你需要精确的输入 Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1。谁会知道这么详细的信息?

    • 正确操作:输入 25922 之后按 上下箭头,会自动补齐。

    此时你应当在表中找到:

    1. 可以点进FTP的链接。
    2. Assembly:GCA_000401755.1 。
    3. WGS:ASHD01。

    说明

    • 其实我想找的就是这个Assembly No.,因为它直接对应基因组在 FTP 中的文件夹位置。
    • 点开FTP链接,你会进入以下文件夹:

    ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/

    也就是在路径 genomes → all → GCF → 000 → 401 → 755 中,F 代表这个地方的是 reference sequences
    实际上在 genomes → all → GCA → 000 → 401 → 755 中有一份一样的。

    • 如果原文提供的是 Assembly No ,你就不需要再去 NCBI 查找了,直接能通过 FTP 地址找到,我一般使用 FileZilla 来下载。

    • 如果下载多个 genomes 也能根据 Assembly No 写简单代码批量下载 代码 link

    • WGS 里面你可以单独的看到每个蛋白质,cotig 等的信息,实际上就是把 FTP 里面能下的内容拆开了,并且是页面下载的。

    • NCBI 里面新旧命名系统,一个东西在不同的库里面有不一样的名字很是让新手头痛。

    参考

    [1] WGS页面,此处应搜索ASHD01。
    [2] 所有大肠杆菌基因组汇总,此次使用25922补齐信息搜索。
    [3] NCBI提供的如何下载基因组说明。
    [4] 实现批量下载。



    ----ฅ(*ΦωΦ)ฅ---- cognata ad sidera tendit...
  • 相关阅读:
    JavaEE各种Javadoc的下载
    Failed to stop Abandoned connection cleanup thread
    检查Encoding-name是否合法
    flex 实现图片播放 方案一 图片全部预加载放内存
    Example 2
    ncl 实例参考
    flex 动画笔记
    Example 1
    给DBGrid动态赋值后,如何用程序指定某行某列为当前焦点?(100分)
    能详细说一下action:=cafree这句吗?好多书都没说清楚!
  • 原文地址:https://www.cnblogs.com/Xeonilian/p/genome-download-NCBI.html
Copyright © 2011-2022 走看看