zoukankan      html  css  js  c++  java
  • gene ID转换(gene ID转为protein ID) pathway注释 string数据库的方法 UniProt

    如果转载,请注明出处。

    GSEA、David与KEGG、GO数据库的区别:

    1.KEGG数据库、GO数据库是知识库。它们记录了通路、生物学过程等的信息。

    2.GSEA、David是做富集分析的数据库。它们使用KEGG、GO数据库中的信息,再结合你输入的基因列表,对输入基因列表进行富集分析,给出结果(比如,富集到哪些通路、富集到哪些生物学过程)。

    比如,David数据库,它用fisher exact检验,计算富集的通路的pvalue,只输出p-value达到一定阀值的通路。详细过程:David数据库中有30000+个基因,每条通路的富集基因也知道。你输入的基因列表,比如200个,这200个有100富集到hippo通路。David数据库中hippo通路有150个基因。那么,这四个数做fisher检验,即得出p-value。

    比如,GSEA数据库,它除了使用KEGG、GO数据库,还有自己的数据集,比如hallmark gene sets。

    如果我想知道,这些基因都属于哪些通路?通常基因个数少。那么,用KEGG可以。它可以给出每个基因的通路。如果用GSEA、David,富集程度不够的通路不会显示。你也无法得知每个基因所属的通路。

    如果我想知道,这些基因富集到哪些通路中?通常基因个数多。那么,用GSEA、David可以实现。

    gene  symbol转换为protein ID:

    参考资料:https://www.cnblogs.com/wangshicheng/p/11171058.html

    工具网站:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php

    David数据库的详细用法说明:

    https://david.ncifcrf.gov/helps/functional_annotation.html#summary

    David数据库使用fisher exact test,得到一个p_value。

    步骤:

    1. 主页选择“Function annotation”;

    2.点击Upload。粘贴基因列表。如果基因多(比如2000+),需要上传文件。文件格式为一列基因列表;

    3.点击submit。(注意:先点击upload,再点击submit);

    4.选择物种,点击“Select Species”;

    5.在“Annotation Summary Results”页面,点击‘Pathways’,点击’Chart‘,弹出注释结果的页面;(对其它的条目,如“Gene_Ontology"也可以做同样选择,下载数据)

    6.在该弹出页面,右键单击“Download file”,选择“链接另存为”。即可将注释结果的txt格式下载到本地。(曾经我在此步卡住了,╮(╯▽╰)╭)

    注意:

    1.David也可以设置“Background”基因列表,在其中进行注释。

    GSEA的用法

    1.注释

    选择“Molecular Signatures Database”和“Investigate gene sets”。看到输入gene标识的输入框。

    输入gene 列表,最多不超过2000个。

    选择各种数据库,比如:KEGG、GO、Hallmark gene sets等。

    一定记得选择物种!一定记得选择物种!Species:Human   Mouse

    q_value可以设置0.1 或者0.05(默认)。

    点击“Compute overlaps”即可。

    2.富集 

    需要下载一个.jar的包。

    需要属于基因列表,以及每个基因的value值。比如,RNA-seq用cuffdiff跑完后的value值。

    执行命令,即可得到曲线样子的功能富集图。

    String数据库:

    https://string-db.org/cgi/input.pl?sessionId=wNQljxzwVv2e&input_page_show_search=on

    选择“Multiple proteins”,在右边的框中输入gene symbol,选择物种(小鼠:Mus Musculus;人:Homo species)。点击“search”。

    进入新的页面后,点击“continue”。看到生成的蛋白互作图。

    可以看到该图的Legend,还可以导出该图。

    UniProt数据库:

    1. 问题:在UniProt数据库查询某物种某个基因(比如,mouse,TP53)的protein ID时,经常有多个protein ID出现。

     原因:查看每个protein ID的“status”,发现有Reviewed和Unreviewed两种状态。如果筛选“Reviewed”,则只有一个protein ID出现。Unreviewed protein 有很多。

     继续提问:为何有UniProt会有这两种类型的protein ID呢?

     原因:UniProtKB有两部分。UniProt数据库中手工挖掘的、且经过管理员review过的记录,属于UniProtKB/Swiss-Prot部分(Reviewed);计算机注释和挖掘的部分,属于UniProtKB/TrEMBL部分(Unreviewed)。

        一个gene在UniProt中会有多个Reviewed protein ID。比如,基因Hibadh有三个protein ID:Q99L13A0ZNJ2Q8BJY2。其中,第一、三个是Reviewed状态;第二个是Unreviewed。(KEGG中只有输入Q99L13时,才能被检索到,并注释到通路中。输入第三个时,在KEGG中注释不到)

        参考资料:https://www.uniprot.org/help/uniprotkb_sections  https://www.uniprot.org/help/entry_status

     关联问题:为何将“蛋白鉴定表”的Protein ID列的部分Protein ID输入KEGG注释,与全部Protein ID输入KEGG注释的结果不同呢?

     原因:KEGG对每个基因只有一个protein ID,即UniProt数据库中reviewed的protein ID。如果在KEGG中输入Unreviewed protein ID,KEGG不会搜索到该ID,也无法给出该ID的注释。

    bioDBnet: db2db ID转换时,给出的结果不全。

    比如:sept7只给出了7个结果。而蛋白鉴定表中有10Protein ID

  • 相关阅读:
    phpstrom中Terminal窗口打开
    window安装reidis完成之后,想要把数据存入redis,必须开扩展,不然报错,redis windows phpstudy 安装扩展
    Windows 安装 Anaconda3+PyCharm
    表单序列化+ajax跨域提交
    微信小程序无法获取到unionId(专业踩坑20年)
    支付宝的同步和异步的区别
    layui多图上传
    多图上传控制器及模型代码(2)thinkphp5+layui实现多图上传保存到数据库,可以实现图片自由排序,自由删除。
    【JZOJ4816】【NOIP2016提高A组五校联考4】label
    【JZOJ4815】【NOIP2016提高A组五校联考4】ksum
  • 原文地址:https://www.cnblogs.com/zypiner/p/11702730.html
Copyright © 2011-2022 走看看