zoukankan      html  css  js  c++  java
  • KEGG数据库

    参考:KEGG数据库中文教程 - 博奥  &【学习笔记】KEGG数据库 - 微信

    学习一个技能最主要的事情你必须知道,那就是能通过它来做什么?

    1. KEGG数据库里面有什么?
    2. 如何查询某一特定的代谢途径(pathway)的信息,例如Glycolysis / Gluconeogenesis?
    3. 如何查询某一化合物的信息,例如Pyruvate?
    4. 如何查询Pyruvate涉及了哪些生化反应?
    5. 如何查询某一基因的信息,例如gltA ?
    6. 如何知道Bacillus subtilis是否有gltA?
    7. 如何查询 gltA在其他物种中的同源基因?
    8. 如何列出某一代谢途径中涉及的所有的酶?例如cytrate cycle pathway(TCA循环)
    9. 如何知道人类的cytrate cycle中pyruvate carboxylase这种酶有多少化合物与其发生相互作用?
    10. 如何查询人类由Citrate生成Acetyl-CoA的可能步骤?
    11. 有一条未知的序列,如何查询KEGG数据库中是否有基因或酶与其对应?

    生物信息的最上游就是测序,测序直接得到的就是序列信息,然后通过组装就可以得到基因组或转录组信息,接下来就会得到基因的信息,以及基因表达的信息。

    那么,我们知道了测出来的物种中的某个基因的序列,及其在转录中的表达情况,我们如何确定该基因的功能呢? 百度 知乎

    这种思路是不对的,基本没有人挨个去研究验证计算机得到的基因,因为太漫无目的,没人有那么多金钱精力。

    现实的是,我对某个重要的现象感兴趣(意义重大,好发文章),然后控制该现象最主要的基因,去发现基因的功能,这才是可行的套路。

    所以一般是先有表型再去找基因,也就是所谓的正向遗传学。当然你也可以用反向遗传学,挨个敲掉基因看有没有你要的表型。因为科学家一般只关注自己感兴趣的基因,所以不会出现你说的那种情况,就是不会追着一个基因非要知道它的功能,而是有目的地找他所关心的基因。

    基因功能定位这个很复杂,可以专门开一篇文章了,暂且到此。

    假设我们现在有了基因序列及其功能,我们接下来也会知道该基因合成了哪些蛋白,参与了哪些化学反应。

    代谢是细胞内各种化学反应的总称,一个代谢途径包括代谢的前提、产物和酶。

    正文

    KEGG就是用来查询代谢途径、酶、酶编码基因和代谢物的,此外还有GenMAPPBioRag等同类型数据库。

    KEGG还可以通过BLAST来查询未知序列的代谢途径信息,主要就是同源比对,找相似信息吧。

    KEGG网站的逻辑框架:(问题1:KEGG数据库里面有什么?)

    目前KEGG太大了,所以拆成了很多子数据库,其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。

    image

    PATHWAY(代谢途径数据库),可以查询各种代谢途径。 
    BRITE(代谢通路及同源基因数据库),这个数据与PATHWAY数据库不同的是,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。  
    GENES(基因数据库), 可以查询不同的基因或基因组的信息。  
    LIGAND(配体数据库), 可以查询反应中各种化合物的信息。

    PATHWAY数据库的使用


    点击进入后会发现KEGG收录了如下代谢途径:

    image

    在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems),其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种子 pathway;第三层即为其代谢通路图;第四层为每个代谢通路图的具体注释信息。

    问题2:如何查询某一特定的代谢途径(pathway)的信息,例如Glycolysis / Gluconeogenesis?

    可以直接在首页上搜索Glycolysis / Gluconeogenesis,也可以点击Carbohydrate Metabolism中的Glycolysis / Gluconeogenesis

    怎么看懂代谢途径图:

    方框中表示的是反应中的酶,例如2.7.1.41,这是酶的EC number,国际酶学委员会的编号。
    小圆圈代表的是反应中的化合物,例如α-D-Glucose-1P。
    箭头代表的是反应的方向。
    虚线表示此反应可以通过中间产物与其他途径发生联系。

    还可以选择相对应的物种,如Homo Sapiens(human)。

    还可以点进去了解指定酶的详细信息

    以ko04151为例:

    imageimage

    ORTHOLOGY 数据库的使用

    在 KEGG ORTHOLOGY(直系同源) 数据库中,将行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。

     

    LIGAND数据库的使用
    GENES数据库的使用
    KO数据库的使用
    LinkDB的使用
    PathComp的使用
    BLAST的使用

    代谢通路可视化

    使用 pathview, KEGGREST和KEGGgraphR包绘制

    正确认识代谢通路富集分析(转)

    我一直建议不要仅仅基于Pathway富集分析的结果解读数据,人为的解读和挑选是必不可少的。因为生物数据的解读,在现阶段更多是生物学问题,而不是数学问题。原因大体如下:

    (1)基因调控是个系统,不要仅仅看成1个孤立的pathway。

    在今年参加的第二届植物抗逆会议上,1个教授说了一句话,我认为很有道理。“在植物体内其实根本就不存在pathway,什么脱落酸通路,水杨酸通路,其实这些调控因子都是相互联通,相互影响的,是个整体。只是我们人类为了研究方便,人为将这些系统拆分各个子集。 ” 所以,如果你真的将pathway看成1个个破碎的途径,以为某种处理只会影响某个pathway,富集分析必须在数学上或统计学上得到1个指向性很强的结论,那是不大可能的。
    具体说了,说基因调控是个系统,可以从两个层面进行解读:

    a)1个基因的改变可以造成整个系统的改变;
    举几个例子:把1个生命活动必须的蛋白敲除后,整个细胞会发生紊乱。而植物抗病应激,也往往是1个受体蛋白识别了病原的外源蛋白,然后导致整个细胞系统的变化。
    b)1个基因往往有多个功能,但执行具体的功能往往是不同蛋白复合物共同作用的结果。
    例如,基因X理论上在不同情况下,有可能参与A、B、C通路。在某个生物处理下,或许基因X 只在A通路里起作用。但如果进行基因注释的话,X同样也会被注释到B、C。所以,富集分析的结果总是会涉及特别多的通路。例如,研究人的项目,无论什么研究背景,常常会富集到帕金森综合症通路。不是你的材料真的得了帕金森综合症,只是那些与你实验处理相关的基因,在一定条件下也可以参与到帕金森综合症的过程,所以被注释到了这个通路里。
    小结:所以,我们也看到了。无论什么实验处理,总有可能导致整个系统的变化。同时,基因的通路注释也有欺骗性。那么,从这一堆冗余信息中,想得到与我们研究相关的结论,离不开人为的筛选也解读。从那个复杂的整体中,筛选出核心的局部片段,这是个技术活。“这样的话是否存在一个问题就是在结果的解释上比较主观,也会因自身背景知识的不足而漏掉一些新颖的结果”。那当然,同样的结果1个外行可能什么都没有看见。但1个资深的学者可能会把握到很精彩的内容。好像任何领域都是如此,除了提高内功好像没有其他捷径。
    (2)pathway富集分析的统计假设,并非在任何情况下都适用

    pathway富集分析,在生物学上的假设是:1个pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达,达到统计学上富集的效果。但很多pathway中,基因A、B、C并不是相互调控的关系,而是共同参与某个过程的不同部分。
    例如,代谢物X的合成修饰。基因A、B、C分步骤参与合成的3个步骤。基因A给X前体加了羟基,然后传递到下游;基因B又给X前体加了苯环,再传递到下游;基因C又给X的前体加了个乙酰基,完成X的合成。那么,基因A、B、C是参与了的相同的通路。如果基因A发生表达量变化,会直接调控影响B、C的表达量变化吗? 看来很有可能不会,所以从RNA-seq差异分析的富集分析结果中,这个通路是不显著的。那么基因A的表达变化是否有生物学意义? 当然有,因为代谢物X的合成的确受影响了。
    类似的例子,理论上DNA差异甲基化的结果,就不能看pathway富集分析的结果。1个pathway 1个基因的DNA甲基化变化,就足以改变这个通路的基因表达,而不需要整个通路的甲基化都发生变化。DNA甲基化、组蛋白CHIP-seq的结果,其实只看功能注释、或通路注释就足够了,不需要考虑富集。
    所以,我们还是要观察、理解某个核心pathway中基因的相互作用,才能判断其中的基因变化是否有生物学意义, 而不仅仅看富集分析的p value或Q value。

    (3)目前的pathway是不完整的。

    目前KEGG等数据库,收录的是已有的研究结果。但这些pathway的信息,远没有到达完善的水准。大部分通路只是了解1个大概的调控途径,而中间有什么转录因子参与、是否还有其他代谢物的生成,都是不知道的。这些通路的完整性,也会影响pathway富集分析结果。例如,基因A发生变化了,看起来下游基因没有变化。也许是还有其他的调控在起作用,只是这些调控作用现在还不知道而已。
    总结:pathway 和 GO富集分析结果的解读,应该从生物学意义的角度出发,P value 和 Q value只是个参考而已,那些不显著的通路也值得解读(从功能注释的角度解读,而不是从富集分析的角度解读)。只要结果可以解释,有意义,不用太迷信P value。

  • 相关阅读:
    洛谷P5979 [PA2014]Druzyny
    洛谷P5592 美德的讲坛
    BZOJ4231 回忆树
    Python爬虫〇二———从几个简单的爬虫开始
    Flink实例(115):自定义时间和窗口的操作符(十四)窗口操作符(四)触发器(Triggers) (二)
    商业化数据分析师(三十二):平台商品画像实战项目(三)购物篮分析
    商业化数据分析师(三十一):平台商品画像实战项目(二)如何构建商品画像-- 以移动电源为例
    商业化数据分析师(三十):平台商品画像实战项目(一)简介
    商业化数据分析师(二十九):平台用户画像实战项目(二)如何构建平台用户的用户画像
    商业化数据分析师(二十八):平台用户画像实战项目(一)什么是用户画像体系以及商户用户画像和平台用户画像的区别
  • 原文地址:https://www.cnblogs.com/leezx/p/6221621.html
Copyright © 2011-2022 走看看