zoukankan      html  css  js  c++  java
  • TCGA数据挖掘基本教程

    没办法了,生信博士毕业了,很尴尬,方法做不来,实验做不了,自己最能把握的就是公共数据挖掘。

    灌水也是没办法的,新人要生存啊,前3年要玩命干,灌水也能快速熟悉领域基本情况,当然也要有能拿得出手的paper,NAR、GB、NC等。

    生信公共数据挖掘的几大方向:

    • TCGA
    • GEO
    • 单细胞
    • UKBB
    • 文献挖掘 - 基因互作
    • 数据库构建,灌水NAR

    有好多人开始卖铲子了,出了TCGA数据挖掘的系列课程,基本都是收费的,咱们都是生信专家了,怎么可能花钱去买,咱水平基本看标题就能给你写出一篇新的,还有代码。

    几个可供参考的课程【看看提纲即可】:

    微信公众号有很多文章套路讲解实例,这个最容易学习和模仿。


    这里只列出课程整体的逻辑框架,具体细节再单独开篇。

    TCGA数据分析全攻略(第二期) - 生信控

    【这个教程确实很low,相关性都能将一节课,我一行代码搞定】

    Rstudio

    TCGA RNA表达数据下载与整理

    RNA差异表达分析

    ROC曲线

    TCGA临床数据下载与整理

    基因表达与临床因素相关性

    临床分组表达量分析

    生存分析

    COX分析

    列线图模型

    基因表达拷贝数甲基化

    成熟体miRNA表达数据下载与整理

    miRNA差异表达分析

    靶基因分析

    基因与miRNA表达相关性分析

    miRNA生存分析

    GSEA分析

    cBioPortal分析复现

    TCGA数据挖掘5天授课(2021)

    11-15-1 TCGA介绍和R语言基础复习

    00:01:24 - TCGA 流程
    00:18:00 - 新建Rmd
    00:20:26 - 介绍Rmd文件渲染/导出
    00:25:10 - 代码块 option
    00:26:22 - 运行代码块
    00:27:41 - markdown基本语法
    00:28:02 - 导出的 html 文件打开以及修改
    00:32:38 - 复习R语言


    11-15-2 TCGA-数据下载与整理

    00:00:42 - 差异分析的起点 counts reads
    00:04:21 - 拿不到counts
    00:07:49 - TCGA癌症类型
    00:09:46 - RNA-seq样本数量 肿瘤远远多于正常
    00:12:00 - TCGA+GTEX的样本数量
    00:15:00 - Xena
    00:15:45 -TCGA差异分析的输入数据整理
    00:19:00 - Xena演示
    00:21:44 - 表达矩阵
    00:23:44 - 为什么临床数据和RNA-seq数据数量不一样多
    00:24:59 - 脚本组织方式演示
    00:30:32 - HTML展示TCGA数据下载和整理


    11-15-3 TCGA-其他来源的数据整理

    00:02:13 - gdc - client数据下载步骤
    00:07:59 - GDCRNATools 数据下载步骤
    00:14:20 - 其他数据来源GEO
    00:29:51 - 三大R包差异分析
    00:32:57 - 差异分析
    00:40:30 - 两个函数


    11-16-1 TCGA-转录组数据差异分析及其可视化

    00:01:30 - 总结上一节的流程
    00:04:10 - 三大R包差异分析
    00:06:00 - 三大R包差异分析HTML讲解DESeq2
    00:22:28 - edgeR
    00:25:00 - limma
    00:28:06 - 验证差异基因是否正确
    00:51:16 - patchwork拼图
    00:52:24 - 分组聚类热图 组内聚类


    11-16-2 TCGA生存分析介绍和文献解读

    00:01:30 - 生存分析
    00:04:36 - Kaplan-Meier生存分析
    00:08:06 - meta--临床信息表格
    00:13:48 - Cox回归
    00:21:24 - 数据挖掘文章解读(GBM)
    00:24:24 - 数据挖掘文章解读(OSCC)
    00:35:52 - 数据挖掘文章解读(肺癌)
    00:45:09 - 数据挖掘文章解读(黑色素瘤)


    11-16-3 TCGA-文献解读和生存分析数据准备

    00:00:51 - 胶质瘤 内质网应激相关基因
    00:23:48 -肺癌 免疫浸润
    00:25:33 -生存分析前的数据处理
    00:46:50 - 答疑


    11-18-1 TCGA-KMplot和对基因批量生存计算

    00:01:06 - 本节课概览
    00:03:50 - 生存分析
    00:07:15 - KM-plot
    00:11:50 - 连续变量离散化
    00:23:37 - long-rank test
    00:30:31 - 批量单因素cox
    00:38:33 - 总结
    00:40:18 - lasso回归


    11-18-2 TCGA-lasso回归和多因素cox

    00:01:42 - lasso模型预测和评估
    00:06:10 - ROC曲线
    00:12:00 - 切割数据构建模型并预测
    00:17:47 - 切割数据
    00:22:07 - 构建模型
    00:22:43 - 模型预测
    00:26:50 - 多因素cox
    00:34:53 - 构建 coxph模型
    00:39:15 - 逐步回归法
    00:45:24 - 模型可视化--森林图
    00:50:25 - 模型预测
    00:54:29 - 切割数据验证模型


    11-18-3 TCGA-其他模型和可视化

    00:00:40 - 本节课概览
    00:04:16 - 随机森林
    00:09:25 - svm
    00:14:28 - timeROC
    00:21:06 - 三图联动三个图的含义
    00:24:08 - 划分高低风险
    00:25:50 - 风险因子三图联动
    00:41:03 - 答疑


    11-19-1 TCGA-文章图表复现-1

    00:03:09 - 肺癌免疫浸润 文章解读
    00:04:00 - 差异分析 富集分析 hub基因
    00:15:50 - Hub基因的验证
    00:20:28 - 生存分析
    00:21:09 - 免疫分析
    00:32:54 - Lasso和cox回归构建
    00:46:02 - 模型可视化与GESA
    00:48:54 - Riskscore和免疫浸润的关系
    00:58:11 - tinyarray 代码简化操作


    11-19-2 TCGA图表复现-2

    00:00:30 - tinyarray 函数解释
    00:03:38 - 本节课概览
    00:05:02 - 文献复现-
    00:05:02 - 下载数据
    00:09:00 - 芯片表达矩阵行名转换
    00:16:00 - 数据合并
    00:19:35 - 批次效应处理
    00:23:56 - 差异分析
    00:25:40 - goplot富集分析与PPI网络
    00:36:22 - hub基因的各种可视化


    11-19-3 TCGA-文章图表复现-3

    00:00:05 - 相关性热图
    00:00:05 - 突变频谱图
    00:03:05 - 7基因生存分析
    00:11:57 - 免疫分析
    00:12:28 - ssGSEA
    00:15:54 - estimate
    00:20:40 - 相关性热图
    00:26:30 - 相关性图
    00:28:12 - 模型构建
    00:46:51 - 答疑


    11-20-1 TCGA-突变数据分析

    00:02:08 - riskstore与免疫
    00:11:54 - 免疫数据验证
    00:33:34 - 突变数据
    00:58:50 - 突变数据添加分组信息(超级难)
    01:02:06 - 突变特征


    11-20-2 单细胞-基础流程和文献讲解

    00:01:16 - 任意基因的分组比较
    00:08:12 - 根据基因是否突变分组比较(跨组学)
    00:14:51 - 两个基因表达量相关性
    00:18:39 - 单细胞入门
    00:21:09 - 单细胞入门文献 食管癌
    00:34:17 - Seurat流程
    00:39:59 - 读取数据
    00:44:40 - 质控
    00:45:23 - 过滤
    00:53:00 - 寻找高变基因


    11-20-3 单细胞-基础流程和文献代码复现

    00:00:26 - 标准化 降维
    00:03:51 - PCA
    00:07:03 - UMAP
    00:07:34 - 寻找marker基因
    00:10:28 - 细胞类型注释
    00:11:44 - 文献2 常规Seurat流程
    00:16:40 - 文献3
    00:27:02 - 文献2 代码复现
    00:34:12 - monocle 和scater


    11-20-4 数据挖掘结束语

    00:00:33 - 数据技术在更新,但是基础基本不变
    00:06:33 - 答疑

    免费视频课程:#新课预售!#【生信技能树】TCGA肿瘤数据库知识图谱

    配套文字版:jmzeng1314/tcga_example

    公众号上有#TCGA系列文章

    其他资源:

    待续~

  • 相关阅读:
    解释器模式
    享元模式
    中介者模式
    职责链模式
    命令模式
    桥接模式
    Java迭代器Iterator
    [Swift]LeetCode1247. 交换字符使得字符串相同 | Minimum Swaps to Make Strings Equal
    [Swift]LeetCode1248. 统计「优美子数组」| Count Number of Nice Subarrays
    [Swift]LeetCode1239. 串联字符串的最大长度 | Maximum Length of a Concatenated String with Unique Characters
  • 原文地址:https://www.cnblogs.com/leezx/p/15748541.html
Copyright © 2011-2022 走看看