zoukankan      html  css  js  c++  java
  • KEGG数据库

    参考:KEGG数据库中文教程 - 博奥  &【学习笔记】KEGG数据库 - 微信

    学习一个技能最主要的事情你必须知道,那就是能通过它来做什么?

    1. KEGG数据库里面有什么?
    2. 如何查询某一特定的代谢途径(pathway)的信息,例如Glycolysis / Gluconeogenesis?
    3. 如何查询某一化合物的信息,例如Pyruvate?
    4. 如何查询Pyruvate涉及了哪些生化反应?
    5. 如何查询某一基因的信息,例如gltA ?
    6. 如何知道Bacillus subtilis是否有gltA?
    7. 如何查询 gltA在其他物种中的同源基因?
    8. 如何列出某一代谢途径中涉及的所有的酶?例如cytrate cycle pathway(TCA循环)
    9. 如何知道人类的cytrate cycle中pyruvate carboxylase这种酶有多少化合物与其发生相互作用?
    10. 如何查询人类由Citrate生成Acetyl-CoA的可能步骤?
    11. 有一条未知的序列,如何查询KEGG数据库中是否有基因或酶与其对应?

    生物信息的最上游就是测序,测序直接得到的就是序列信息,然后通过组装就可以得到基因组或转录组信息,接下来就会得到基因的信息,以及基因表达的信息。

    那么,我们知道了测出来的物种中的某个基因的序列,及其在转录中的表达情况,我们如何确定该基因的功能呢? 百度 知乎

    这种思路是不对的,基本没有人挨个去研究验证计算机得到的基因,因为太漫无目的,没人有那么多金钱精力。

    现实的是,我对某个重要的现象感兴趣(意义重大,好发文章),然后控制该现象最主要的基因,去发现基因的功能,这才是可行的套路。

    所以一般是先有表型再去找基因,也就是所谓的正向遗传学。当然你也可以用反向遗传学,挨个敲掉基因看有没有你要的表型。因为科学家一般只关注自己感兴趣的基因,所以不会出现你说的那种情况,就是不会追着一个基因非要知道它的功能,而是有目的地找他所关心的基因。

    基因功能定位这个很复杂,可以专门开一篇文章了,暂且到此。

    假设我们现在有了基因序列及其功能,我们接下来也会知道该基因合成了哪些蛋白,参与了哪些化学反应。

    代谢是细胞内各种化学反应的总称,一个代谢途径包括代谢的前提、产物和酶。

    正文

    KEGG就是用来查询代谢途径、酶、酶编码基因和代谢物的,此外还有GenMAPPBioRag等同类型数据库。

    KEGG还可以通过BLAST来查询未知序列的代谢途径信息,主要就是同源比对,找相似信息吧。

    KEGG网站的逻辑框架:(问题1:KEGG数据库里面有什么?)

    目前KEGG太大了,所以拆成了很多子数据库,其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。

    image

    PATHWAY(代谢途径数据库),可以查询各种代谢途径。 
    BRITE(代谢通路及同源基因数据库),这个数据与PATHWAY数据库不同的是,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。  
    GENES(基因数据库), 可以查询不同的基因或基因组的信息。  
    LIGAND(配体数据库), 可以查询反应中各种化合物的信息。

    PATHWAY数据库的使用


    点击进入后会发现KEGG收录了如下代谢途径:

    image

    在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems),其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种子 pathway;第三层即为其代谢通路图;第四层为每个代谢通路图的具体注释信息。

    问题2:如何查询某一特定的代谢途径(pathway)的信息,例如Glycolysis / Gluconeogenesis?

    可以直接在首页上搜索Glycolysis / Gluconeogenesis,也可以点击Carbohydrate Metabolism中的Glycolysis / Gluconeogenesis

    怎么看懂代谢途径图:

    方框中表示的是反应中的酶,例如2.7.1.41,这是酶的EC number,国际酶学委员会的编号。
    小圆圈代表的是反应中的化合物,例如α-D-Glucose-1P。
    箭头代表的是反应的方向。
    虚线表示此反应可以通过中间产物与其他途径发生联系。

    还可以选择相对应的物种,如Homo Sapiens(human)。

    还可以点进去了解指定酶的详细信息

    以ko04151为例:

    imageimage

    ORTHOLOGY 数据库的使用

    在 KEGG ORTHOLOGY(直系同源) 数据库中,将行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。

     

    LIGAND数据库的使用
    GENES数据库的使用
    KO数据库的使用
    LinkDB的使用
    PathComp的使用
    BLAST的使用

    代谢通路可视化

    使用 pathview, KEGGREST和KEGGgraphR包绘制

    正确认识代谢通路富集分析(转)

    我一直建议不要仅仅基于Pathway富集分析的结果解读数据,人为的解读和挑选是必不可少的。因为生物数据的解读,在现阶段更多是生物学问题,而不是数学问题。原因大体如下:

    (1)基因调控是个系统,不要仅仅看成1个孤立的pathway。

    在今年参加的第二届植物抗逆会议上,1个教授说了一句话,我认为很有道理。“在植物体内其实根本就不存在pathway,什么脱落酸通路,水杨酸通路,其实这些调控因子都是相互联通,相互影响的,是个整体。只是我们人类为了研究方便,人为将这些系统拆分各个子集。 ” 所以,如果你真的将pathway看成1个个破碎的途径,以为某种处理只会影响某个pathway,富集分析必须在数学上或统计学上得到1个指向性很强的结论,那是不大可能的。
    具体说了,说基因调控是个系统,可以从两个层面进行解读:

    a)1个基因的改变可以造成整个系统的改变;
    举几个例子:把1个生命活动必须的蛋白敲除后,整个细胞会发生紊乱。而植物抗病应激,也往往是1个受体蛋白识别了病原的外源蛋白,然后导致整个细胞系统的变化。
    b)1个基因往往有多个功能,但执行具体的功能往往是不同蛋白复合物共同作用的结果。
    例如,基因X理论上在不同情况下,有可能参与A、B、C通路。在某个生物处理下,或许基因X 只在A通路里起作用。但如果进行基因注释的话,X同样也会被注释到B、C。所以,富集分析的结果总是会涉及特别多的通路。例如,研究人的项目,无论什么研究背景,常常会富集到帕金森综合症通路。不是你的材料真的得了帕金森综合症,只是那些与你实验处理相关的基因,在一定条件下也可以参与到帕金森综合症的过程,所以被注释到了这个通路里。
    小结:所以,我们也看到了。无论什么实验处理,总有可能导致整个系统的变化。同时,基因的通路注释也有欺骗性。那么,从这一堆冗余信息中,想得到与我们研究相关的结论,离不开人为的筛选也解读。从那个复杂的整体中,筛选出核心的局部片段,这是个技术活。“这样的话是否存在一个问题就是在结果的解释上比较主观,也会因自身背景知识的不足而漏掉一些新颖的结果”。那当然,同样的结果1个外行可能什么都没有看见。但1个资深的学者可能会把握到很精彩的内容。好像任何领域都是如此,除了提高内功好像没有其他捷径。
    (2)pathway富集分析的统计假设,并非在任何情况下都适用

    pathway富集分析,在生物学上的假设是:1个pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达,达到统计学上富集的效果。但很多pathway中,基因A、B、C并不是相互调控的关系,而是共同参与某个过程的不同部分。
    例如,代谢物X的合成修饰。基因A、B、C分步骤参与合成的3个步骤。基因A给X前体加了羟基,然后传递到下游;基因B又给X前体加了苯环,再传递到下游;基因C又给X的前体加了个乙酰基,完成X的合成。那么,基因A、B、C是参与了的相同的通路。如果基因A发生表达量变化,会直接调控影响B、C的表达量变化吗? 看来很有可能不会,所以从RNA-seq差异分析的富集分析结果中,这个通路是不显著的。那么基因A的表达变化是否有生物学意义? 当然有,因为代谢物X的合成的确受影响了。
    类似的例子,理论上DNA差异甲基化的结果,就不能看pathway富集分析的结果。1个pathway 1个基因的DNA甲基化变化,就足以改变这个通路的基因表达,而不需要整个通路的甲基化都发生变化。DNA甲基化、组蛋白CHIP-seq的结果,其实只看功能注释、或通路注释就足够了,不需要考虑富集。
    所以,我们还是要观察、理解某个核心pathway中基因的相互作用,才能判断其中的基因变化是否有生物学意义, 而不仅仅看富集分析的p value或Q value。

    (3)目前的pathway是不完整的。

    目前KEGG等数据库,收录的是已有的研究结果。但这些pathway的信息,远没有到达完善的水准。大部分通路只是了解1个大概的调控途径,而中间有什么转录因子参与、是否还有其他代谢物的生成,都是不知道的。这些通路的完整性,也会影响pathway富集分析结果。例如,基因A发生变化了,看起来下游基因没有变化。也许是还有其他的调控在起作用,只是这些调控作用现在还不知道而已。
    总结:pathway 和 GO富集分析结果的解读,应该从生物学意义的角度出发,P value 和 Q value只是个参考而已,那些不显著的通路也值得解读(从功能注释的角度解读,而不是从富集分析的角度解读)。只要结果可以解释,有意义,不用太迷信P value。

  • 相关阅读:
    Codeforces 992C(数学)
    Codeforces 990C (思维)
    Codeforces 989C (构造)
    POJ 1511 Invitation Cards(链式前向星,dij,反向建边)
    Codeforces 1335E2 Three Blocks Palindrome (hard version)(暴力)
    POJ 3273 Monthly Expense(二分)
    POJ 2566 Bound Found(尺取前缀和)
    POJ 1321 棋盘问题(dfs)
    HDU 1506 Largest Rectangle in a Histogram(单调栈)
    POJ 2823 Sliding Window(单调队列)
  • 原文地址:https://www.cnblogs.com/leezx/p/6221621.html
Copyright © 2011-2022 走看看