zoukankan      html  css  js  c++  java
  • gene ID转换(gene ID转为protein ID) pathway注释 string数据库的方法 UniProt

    如果转载,请注明出处。

    GSEA、David与KEGG、GO数据库的区别:

    1.KEGG数据库、GO数据库是知识库。它们记录了通路、生物学过程等的信息。

    2.GSEA、David是做富集分析的数据库。它们使用KEGG、GO数据库中的信息,再结合你输入的基因列表,对输入基因列表进行富集分析,给出结果(比如,富集到哪些通路、富集到哪些生物学过程)。

    比如,David数据库,它用fisher exact检验,计算富集的通路的pvalue,只输出p-value达到一定阀值的通路。详细过程:David数据库中有30000+个基因,每条通路的富集基因也知道。你输入的基因列表,比如200个,这200个有100富集到hippo通路。David数据库中hippo通路有150个基因。那么,这四个数做fisher检验,即得出p-value。

    比如,GSEA数据库,它除了使用KEGG、GO数据库,还有自己的数据集,比如hallmark gene sets。

    如果我想知道,这些基因都属于哪些通路?通常基因个数少。那么,用KEGG可以。它可以给出每个基因的通路。如果用GSEA、David,富集程度不够的通路不会显示。你也无法得知每个基因所属的通路。

    如果我想知道,这些基因富集到哪些通路中?通常基因个数多。那么,用GSEA、David可以实现。

    gene  symbol转换为protein ID:

    参考资料:https://www.cnblogs.com/wangshicheng/p/11171058.html

    工具网站:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php

    David数据库的详细用法说明:

    https://david.ncifcrf.gov/helps/functional_annotation.html#summary

    David数据库使用fisher exact test,得到一个p_value。

    步骤:

    1. 主页选择“Function annotation”;

    2.点击Upload。粘贴基因列表。如果基因多(比如2000+),需要上传文件。文件格式为一列基因列表;

    3.点击submit。(注意:先点击upload,再点击submit);

    4.选择物种,点击“Select Species”;

    5.在“Annotation Summary Results”页面,点击‘Pathways’,点击’Chart‘,弹出注释结果的页面;(对其它的条目,如“Gene_Ontology"也可以做同样选择,下载数据)

    6.在该弹出页面,右键单击“Download file”,选择“链接另存为”。即可将注释结果的txt格式下载到本地。(曾经我在此步卡住了,╮(╯▽╰)╭)

    注意:

    1.David也可以设置“Background”基因列表,在其中进行注释。

    GSEA的用法

    1.注释

    选择“Molecular Signatures Database”和“Investigate gene sets”。看到输入gene标识的输入框。

    输入gene 列表,最多不超过2000个。

    选择各种数据库,比如:KEGG、GO、Hallmark gene sets等。

    一定记得选择物种!一定记得选择物种!Species:Human   Mouse

    q_value可以设置0.1 或者0.05(默认)。

    点击“Compute overlaps”即可。

    2.富集 

    需要下载一个.jar的包。

    需要属于基因列表,以及每个基因的value值。比如,RNA-seq用cuffdiff跑完后的value值。

    执行命令,即可得到曲线样子的功能富集图。

    String数据库:

    https://string-db.org/cgi/input.pl?sessionId=wNQljxzwVv2e&input_page_show_search=on

    选择“Multiple proteins”,在右边的框中输入gene symbol,选择物种(小鼠:Mus Musculus;人:Homo species)。点击“search”。

    进入新的页面后,点击“continue”。看到生成的蛋白互作图。

    可以看到该图的Legend,还可以导出该图。

    UniProt数据库:

    1. 问题:在UniProt数据库查询某物种某个基因(比如,mouse,TP53)的protein ID时,经常有多个protein ID出现。

     原因:查看每个protein ID的“status”,发现有Reviewed和Unreviewed两种状态。如果筛选“Reviewed”,则只有一个protein ID出现。Unreviewed protein 有很多。

     继续提问:为何有UniProt会有这两种类型的protein ID呢?

     原因:UniProtKB有两部分。UniProt数据库中手工挖掘的、且经过管理员review过的记录,属于UniProtKB/Swiss-Prot部分(Reviewed);计算机注释和挖掘的部分,属于UniProtKB/TrEMBL部分(Unreviewed)。

        一个gene在UniProt中会有多个Reviewed protein ID。比如,基因Hibadh有三个protein ID:Q99L13A0ZNJ2Q8BJY2。其中,第一、三个是Reviewed状态;第二个是Unreviewed。(KEGG中只有输入Q99L13时,才能被检索到,并注释到通路中。输入第三个时,在KEGG中注释不到)

        参考资料:https://www.uniprot.org/help/uniprotkb_sections  https://www.uniprot.org/help/entry_status

     关联问题:为何将“蛋白鉴定表”的Protein ID列的部分Protein ID输入KEGG注释,与全部Protein ID输入KEGG注释的结果不同呢?

     原因:KEGG对每个基因只有一个protein ID,即UniProt数据库中reviewed的protein ID。如果在KEGG中输入Unreviewed protein ID,KEGG不会搜索到该ID,也无法给出该ID的注释。

    bioDBnet: db2db ID转换时,给出的结果不全。

    比如:sept7只给出了7个结果。而蛋白鉴定表中有10Protein ID

  • 相关阅读:
    AngularJS Insert Update Delete Using PHP MySQL
    Simple task manager application using AngularJS PHP MySQL
    AngularJS MySQL and Bootstrap Shopping List Tutorial
    Starting out with Node.js and AngularJS
    AngularJS CRUD Example with PHP, MySQL and Material Design
    How to install KVM on Fedora 22
    Fake_AP模式下的Easy-Creds浅析
    河南公务员写古文辞职信
    AI
    政协委员:最大愿望是让小学生步行上学
  • 原文地址:https://www.cnblogs.com/zypiner/p/11702730.html
Copyright © 2011-2022 走看看