zoukankan      html  css  js  c++  java
  • NCBI_GEO数据上传攻略

    python机器学习生物信息学,博主录制,2k超清
    腾讯课堂报名入口

    网易云课堂报名入口

    (腾讯课堂新营业,报名可领取20元优惠券)

    (原创课程,版权所有,项目合作QQ:231469242,微信公众号:pythonEducation)

    GEO数据库全称GENE EXPRESSION OMNIBUS,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递数据上传的数据库之一。

    数据上传需要提交各种类型的数据、表格和资料,过程比较繁琐。以下是一份详细的数据上传指南,每一步都有详细的说明,一看就会,再也不用担心数据上传。下面主要介绍RNA-seqChIP-seq的上传流程。

    注册账号

    首先需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/geo/submitter/),GEO账号,如果已经有账号,可以直接点击登录。
    https://www.ncbi.nlm.nih.gov/geo/info/submission.html

    数据准备

    选择需要上传的高通量数据


    需要上传的数据有三种

    1. Metadata spreadsheet

    该文件是关于整个研究中样本和实验的相关信息。

    • 1.1 SERIES

    主要包含文章的标题、概述、实验整体设计、共同作者、补充材料和SAR号(SRA号为选填,如果已经上传了SRA,则填上,否则空着即可)。此项需要填写的稍微详细一点,不然后面GEO可能发邮件要求补充abstract。



    • 1.2 SAMPLE

    样品的详细信息,包括样品名称、来源、器官、年龄、表达值数据和原始数据等,如果是ChIP-seq,还需要提供相关的抗体信息。

    1.3 PROTOCOLS

    样品的实验和提取建库详细信息。


    1.4 DATA PROCESSING PIPELINE

    数据处理步骤,参考基因组详细信息。

    1.5 PROCESSED DATA FILES

    RNA-seq或者ChIP-seq等实验,通常需要提供一些额外的数据文件,比如基因表达量,基因信号文件和MD5(用来核实真伪)等。

    1.6 RAW FILES

    原始数据详细信息

    1.7 PAIRED-END EXPERIMENTS

    双端测序序列详细信息,此项可不填。

    2. Processed data files

    经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。

    3 Raw data files

    原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)。

    准备好所有数据之后选择Uploading your submissionTranster Files

    数据上传

    数据上传,小编推荐FileZillahttps://filezilla-project.org/可以先在此处下载)。打开FileZilla,主机(H) 框填写上图中host对应的内容ftp-private.ncbi.nlm.nih.gov,用户名(U)填写geoftp,密码填写rebUzyi1(此项可能不定期更新),端口号可不填,全部填好后,点击快速连接按钮。

    • 3.1 连接成功后,在远程站点下的文件名展示中创建自己的文件,例如ABC,将本地站点中需要上传的数据拖入右下角的方框内。
    • 3.2 快速连接后,也可能显示“错误: 读取目录列表失败”,此时可忽略该项,直接在远程站点输入数据存放地址,然后回车,该地址会在选择Uploading your submissionTransfer Files后自动弹出。然后同样将本地站点中需要上传的数据拖入FileZilla右下角的方框内即可。

    注意:使用FileZilla上传要注意进行相关设置,不然会一直中断,导致上传失败。选择编辑中的设置,连接,在重连设置中进行以下设置。



    通知GEO数据上传完成

    数据上传完成后,需要通过以下方式通知GEO:

    也可以给GEO(geo@ncbi.nlm.nih.gov)发送邮件,邮件内容可以参考下方:

    一般GEO第二天就会回复邮件,5个工作日以内会告知具体的GEO号。

     
    文章转自微信公众号:嘉因生物

     

    欢迎访问讲师教学主页:

    腾讯课堂

    网易云课堂主页

  • 相关阅读:
    Intellij IDEA 打开文件tab数量限制的调整
    Mysql处理中文乱码的问题
    MIT算法导论笔记
    算法导论-排序(一)-插入排序、归并排序
    leetcode题解:Search for a Range (已排序数组范围查找)
    leetcode 题解:Merge Sorted Array(两个已排序数组归并)
    leetcode题解:Construct Binary Tree from Inorder and Postorder Traversal(根据中序和后序遍历构造二叉树)
    leetcode题解:Construct Binary Tree from Preorder and Inorder Traversal (根据前序和中序遍历构造二叉树)
    c++11 std::prev、std::next、std::advance与auto 使用
    (转)指针的引用(*&)与指针的指针(**)
  • 原文地址:https://www.cnblogs.com/webRobot/p/14130052.html
Copyright © 2011-2022 走看看