zoukankan      html  css  js  c++  java
  • GEO Gene Expression Omnibus

    GEO  Gene Expression Omnibus 基因表达数据库

    网址:https://www.ncbi.nlm.nih.gov/geo/

    GEO的数据存储方式

    GEO数据库具体存放四类数据:GSE、GDS、GSM、GPL

    GEO Series Study  GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能会涉及不同平台。

    GEO DataSet  GDS号(GDSxxx)对应的是一个同一平台的数据集,这些包括包括从微整列和高通量序列技术生成的数据。

    GEO Sample  GSM号(GSMxxx)对应单一样本的数据信息,它只能是单一平台的数据

    GEO Platform GPL号(GPLxxx)对应一个平台的信息,一般不接触

    通常 GSE和GDS中会包含多个GSM数据

    另外,GEO Profiles数据库是GEO的工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表达情况。

    GEO数据检索与下载

    GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索

    R包的安装与下载数据

    GEOquery 的官网 http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html

    if (!requireNamespace("BiocManager", quietly = TRUE))
        install.packages("BiocManager")
    
    BiocManager::install("GEOquery")

    利用 GSE 号下载

    通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:

    > library(GEOquery)
    > # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
    > GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

    利用GDS号下载

    > GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

    利用GSM号下载

    利用GSM号下载的是单样本的表达数据,例如GSM1394594

    > GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

    利用GPL号下载

    针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:

    > GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

    参考

    https://www.jianshu.com/p/0d32fd410bcf

  • 相关阅读:
    徐丽君 20191017-1 每周例行报告
    徐丽君 20191010-2 每周例行报告
    徐丽君 20190919-1 每周例行报告
    徐丽君 20190919-4 单元测试结对
    20191128-1 总结
    20191121-1 每周例行报告
    20191114-1 每周例行报告
    20191107-1 每周例行报告
    20191031-1 每周例行报告
    20191024-1 每周例行报告
  • 原文地址:https://www.cnblogs.com/0820LL/p/11115728.html
Copyright © 2011-2022 走看看