zoukankan      html  css  js  c++  java
  • NCBI SRA数据库

    简介

    SRA数据库美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)DNA数据库 日本(DDBJ)。 提交给三个组织中的任何一个的数据都是共享的。

    SRA数据库数据来自高通量测序平台(Roche 454 GSSystem®,Illumina GenomeAnalyzer®,Applied Biosystems SOLiDSystem®,HelicosHeliscope®,CompleteGenomics®和Pacific BiosciencesSMRT®)的原始测序数据和比对信息,储存的测序数据在研究团体间可重复使用,并通过比较数据集来实现新发现。

    典型的下一代测序工作流程

    2017-09-18-next-generation-sequencing-workflow.png

    SRA数据库和NCBI其它的数据库

    NCBI开发和维护了35个以上生物数据类别数据库,包括科学文献、健康、基因组、基因、蛋白质和化学品六个大类。

    每个数据库都有自己的最小可发布单元。 例如,PubMed的最小可发布单位是一篇文章,而在SRA中,最小可发布单位是一个实验(以SRX#的形式登录)。 SRA实验包括序列数据和有关生物样品如何测序的(元数据)。

    2017-09-18-gquery.png

    SRA数据库与其它数据库的交互

    所有NCBI数据库都是互连的。 这种相互关联可以实现强大的搜索功能。 例如:

    查找PubMed中引用SRA研究的文章: “pubmed sra”[Filter]

    查找发表在PubMed的SRA实验:“sra pubmed”[Filter]

    同样,您可以找到与其他NCBI数据库的SRA连接,反之亦然。

    点击SRA查找,更多例子

    SRA数据

    SRA接受来自各种测序项目的数据,包括涉及人类受试者或其基因组的临床重要研究,其可能含有人类序列。 这些数据通常通过dbGaP(基因型和表型数据库)进行受控访问。

    2017-09-18-sra_access_types.png

    SRA数据下载

    1.SRA Toolkit工具下载

    下载安装

    2.下载数据

    首先去NCBI里面搜索并找到你想要的数据的SRA地址,然后写脚本批量下载。

    $ while read line ; do wget $line; done<sra_ftp.txt

    2017-09-18-sra_ftp.png

    然后解压*.sra文件

    $ for i in $(ls *.sra) ;do echo $i ; fastq-dump –split-3 $i ; done

    2017-09-18-sra_to_fastq.png

    查看fastq文件

    2017-09-18-fastq.png

    【参考文献】

    SRA

  • 相关阅读:
    Chap5:操作文件和目录[The Linux Command Line]
    ABC3
    ABC2
    ABC
    Spring MVC / Boot
    Usefull Resources
    [ Learning ] Design Pattens
    [ Learning ] Spring Resources
    URL Resources
    [ Windows BAT Script ] BAT 脚本获取windows权限
  • 原文地址:https://www.cnblogs.com/yahengwang/p/9332491.html
Copyright © 2011-2022 走看看