目录
3C简介
技术类型及区别
数据下载
基本应用
3C简介
核心理念就是把真核细胞核里的DNA三维折叠结构给测序出来,一个最经典的模型就是远距离enhancer可以促进转录。
真核生物细胞核中的染色质通过折叠成高度动态、复杂的高级结构,调控基因的转录、复制,以及损伤修复等重要功能。理解染色质在细胞核内如何折叠,基因组的三维空间结构如何调控基因转录、复制和修复等生物学功能,以及探索核染色质在遗传、发育、分化、癌变等生物学过程中的变化规律是当前三维基因组学(Three-Dimensional Genomics)研究领域的主要内容。
核心的技术就是3C(Chromosome Conformation Capture)实验技术。
染色质构象首先被甲醛交联固定;随后,基因组被限制性内切酶消化;存在相互作用的染色质由于空间接近,在重新连接酶消化后的基因组时,存在相互作用的染色质将被连接到一起;解交联纯化DNA后,针对感兴趣的两个特定基因组区域分别设计引物,并对重连接产物进行PCR扩增;最后通过PCR条带的强度,可对这两个区域的相互作用情况进行定性或定量评估。
一个关键的发现是TAD(Topological Associated Domains)
在每个染色体内部还存在更小尺度(平均约800 kb)的拓扑相关结构域(Topological Associated Domains, TAD),TAD内部的DNA元件之间形成了较为紧密的相互作用,而不同TAD之间的相互作用则较弱。相邻TAD的边界上结合有染色质结构蛋白,如CTCF蛋白、cohesin蛋白复合体等,这些蛋白起到组织染色质结构并隔离两个相邻的TAD之间互作的功能 。
比较:
- 3C技术适用于评估两个目标区域之间的空间相互作用
- 4C技术适用于捕获染色质某一区域与全基因组其他区域间相互作用(一对多)
- 5C技术适用于同时捕获染色质多个区域之间相互作用(多对多)
技术类型及区别
看看yue lab网站上的几种数据:
- Hi-C
- Virtual Hi-C
- ChIA-PET
- Capture Hi-C
- Compare Hi-C
- PLAC-Seq
在Hi-C技术中,限制性内切酶消化后的染色质在末端补平时连入biotin,用于标记重组信号,重组片段通过生物素富集后建库测序。Hi-C技术可以同时捕获全基因组染色质间的相互作用。
Hi-C更适用于研究大尺Hi度上的染色质结构,而不适用于研究转录调控元件之间的相互作用。
为了更好的捕获基因组转录调控元件之间的远距离相互作用,结合转录调控元件检测技术的其他染色质构象捕获方法被提出。这些方法主要包括三类。
第一类,是转录相关蛋白介导的染色质相互作用的捕获技术(Chia-PET,HiChIP,PLAC-seq)。在这类技术中,最早被提出的是阮一骏等开发的嘉PET技术。Chia-PET作为一种可以有效富集蛋白介导的染色质间相互作用的技术。
第二类,是目的探针所在区域的染色质相互作用的捕获(Capture Hi-C)。这类技术以启动子捕获Hi-C技术为代表,根据启动子区域设计RNA探针,在Hi-C实验的基础上加入了一步探针的富集,检测启动子探针所在区域的染色质相互作用。
第三类,是基于开放染色质间相互作用的捕获。
比较
- ChIA-PET,HiChIP,PLAC-seq 仅能捕获某一种蛋白介导的染色质间的相互作用;
- Capture Hi-C技术通过特异性探针,捕获探针所在区域(如启动子区)染色质间相互作用;
- DNase Hi-C虽然可以富集开放染色质之间的相互作用,但是由于DNase I整合效率非常高,高度片段化的染色质之间自连或随机连接,减少了真实相互作用的捕获比例.
- BL-Hi-C捕获了10000多个高GC区域的染色质相互作用,这些相互作用大多是CTCF HiChIP及RNAPII HiChIP的子集。
这些技术虽然各有优势,然而大都依赖目的蛋白,探针序列,酶切偏好。综上所述,一种不依赖于探针序列及蛋白抗体,用染色质开放程度为富集条件,直接高效富集全基 组活跃转录调控元件间相互作用的技术需要被开发。
数据下载
下载 Capture Hi-C 数据,用于找cGene
玩玩下面NG里的数据
Accession codes.
Raw data and significant interactions are available in the ArrayExpress database under accession E-MTAB-2323.
可以下载四个文件:
TS5_CD34_promoter-other_significant_interactions.txt TS5_GM12878_promoter-other_significant_interactions.txt TS5_CD34_promoter-promoter_significant_interactions.txt TS5_GM12878_promoter-promoter_significant_interactions.txt
数据格式:
chr bait start bait end bait Symbol Ensembl Gene ID expresssion quartile chr start end raw count log(observed/expected) chr16 1300375 1307582 TPSD1-002|TPSD1-001 ENSG00000095917 4 chr16 1276549 1286070 53 15.1072090072489 chr1 1648711 1672992 CDK11A-008|CDK11A-001|CDK11A-003|CDK11A-004|CDK11A-005|CDK11A-009|CDK11A-007|CDK11A-011|CDK11A-202|CDK11A-201|CDK11A-203 ENSG00000008128|ENSG00000215790|ENSG00000226628|ENSG00000227775|ENSG00000244250 na chr1 1583927 1585571 49 15.088711195213
就是两个bed文件的cbind,左边就是TSS region,也有注释到的基因;右边就是远距离的区域。
简单明了。
更全的数据:http://www.3div.kr/capture_hic
需要用filezilla登陆ftp服务器下载。
Unclicking “Display P/O” interactions will remove Promoter-Other interactions, leaving purple arcs (Promoter-Promoter interactions) only.
可以猜到pp和po的含义
基本应用
找cGene
如果某个SNP落在了右边的区域,那么左边的3D 交互的基因就是该SNP的 cGene(Conformation gene)。
参考:
Yue Lab - lab网页
3D Genome Browser - 数据中心
三维基因组中的开放染色质互作网络(一) - 良心入门教程
三维基因组中的开放染色质互作网络(二) - 良心入门教程
北大李程组综述:三维基因组学及在疾病中的应用 - 综述,好好看下
Mapping long-range promoter contacts in human cells with high-resolution capture Hi-C - NG - 2015
A (continuously updated) collection of references to Hi-C data - GitHub
GSDB: a database of 3D chromosome and genome structures reconstructed from Hi-C data