GEO Gene Expression Omnibus 基因表达数据库
网址:https://www.ncbi.nlm.nih.gov/geo/
GEO的数据存储方式
GEO数据库具体存放四类数据:GSE、GDS、GSM、GPL
GEO Series Study GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能会涉及不同平台。
GEO DataSet GDS号(GDSxxx)对应的是一个同一平台的数据集,这些包括包括从微整列和高通量序列技术生成的数据。
GEO Sample GSM号(GSMxxx)对应单一样本的数据信息,它只能是单一平台的数据
GEO Platform GPL号(GPLxxx)对应一个平台的信息,一般不接触
通常 GSE和GDS中会包含多个GSM数据
另外,GEO Profiles数据库是GEO的工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表达情况。
GEO数据检索与下载
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索
R包的安装与下载数据
GEOquery 的官网 http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html
if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("GEOquery")
利用 GSE 号下载
通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:
>
library
(GEOquery)
>
# destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
> GSE57820 <-
getGEO
(
"GSE57820"
, GSEMatrix =
TRUE
, destdir =
"."
, getGPL = T, AnnotGPL = T)
利用GDS号下载
> GDS6100 <-
getGEO
(
"GDS6100"
, GSEMatrix =
TRUE
, destdir =
"."
, getGPL = T, AnnotGPL = T)
利用GSM号下载
利用GSM号下载的是单样本的表达数据,例如GSM1394594
> GSM1394594 <-
getGEO
(
"GSM1394594"
, GSEMatrix =
TRUE
, destdir =
"."
, getGPL = T, AnnotGPL = T)
利用GPL号下载
针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:
> GPL10558 <-
getGEO
(
"GPL10558"
, GSEMatrix =
TRUE
, destdir =
"."
, getGPL = T, AnnotGPL = T)
参考
https://www.jianshu.com/p/0d32fd410bcf