下载TCGA的方法比较多,这里采用GDC下载数据。
步骤一:进入官网:https://portal.gdc.cancer.gov/
步骤二:点击Repository
第三步:点击Files或Case
Case主要包括:Primary site(肿瘤起始位置,原位癌)、Program(数据来源)、Project()、Disease Type(疾病类型)、Gender(性别)、Age At Diagnosis(诊断年龄)等等筛选条件。
Files主要包括:Data Category(测序reads、拷贝数变异、DNA甲基化和临床信息等)、Data Type(比对reads、原始体细胞突变数据、体细胞突变注释等数据)、Experimental Strategy(实验策略)、Workflow Type、Data Format、Platform等
根据自己需要选好数据,一般下载的数据包括:临床信息、RNA表达或DNA甲基化数据等、(一般Case选好后不用动,只需要在Files里面进行相关数据的选择进行下载)
第四步:数据选好后,点击Manifest进行下载
第五步:在下载好的数据里面进行所需数据的提取和整理,这需要在Linux里面进行相关处理,这时主要看各位对对文本处理的功底了。
第四步