zoukankan      html  css  js  c++  java
  • 生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM

    rsid

    common SNP的ID,一般以rs开头,其实完全可以用坐标代替,那样可读性就很差了。

    我们来看看一个SNP有哪些基本信息?

    • Position,最基本的,染色体,坐标,可见一个SNP就是一个基因组site
    • annotation:取决于它落到了哪一个区间,可能有多种注释,因为一个genomic的region可以有多种注释
    • Alleles:这个很重要,对于双倍体,大部分只有两个alleles,如果跟疾病有关,那一个就是protective,一个是risk allele。【一个mutation如何才能变为一个SNP?】
    • Frequency:就是一个allele在一个物种里的频率,排第二的就是MAF,MAF太小的GWAS就分析不了了,技术限制

    Gene ID

    这个标准比较多,有Ensembl ID,HGNC ID,Entrez ID(NCBI),Refseq ID

    Ensembl:https://asia.ensembl.org/index.html

    HGNC:https://www.genenames.org/

    Entrez:https://www.ncbi.nlm.nih.gov/gene/672 【案例】

    Refseq:https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物种,很少用】

    HUGO symbol

    Gene symbol

    这部分极其麻烦,急需统一。 给基因取名字是比较随意的事情,导致一个基因在历史上有很多Aliases [ˈeɪliəs]

    https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2

    在gtf文件里这个基因叫FAM208B,在VEP注释结果里这个基因叫TASOR2,他们的ENSG ID都是ENSG00000108021【无意发现VEP的symbol有一半无法与gtf里的symbol匹配,才发现这个问题】

    如果不负责任,简单的remove掉不匹配的,也可以出结果,但会丢失掉很多信息。

    接下来我就要想办法,如何用R包来统一不同系统的symbol。

    Multi-symbol checker 完美解决这个问题【HGNC提供】

    接下来把gtf里的Previous symbol导出来,用这个工具就可以得到Approved symbol。

    统计得出gtf里的34153个symbol,有11290是在HGNC里找不到名字的,其中1162个是alias,可见gene symbol的历史复杂性,想统一是何其的难。

    下载最新的HGNC symbol,以及对应的ENSG ID,https://www.genenames.org/download/custom/。 

    Transcript ID

    isoform

    ENST

    现有的ID都是已知的,由于技术的更新,这部分会飞速更新。

    Protein ID

    Uniprot ID to other ID (ENSG etc.)

    Uniprot里提供了哪些信息:

    • 参与的具体的生化反应
    • 涉及到的所有化合物
    • 信息太多了,看不过来

    发现:一个 Uniprot ID可能对应多个ENSG ID,但基因名却是一样的。

    LOX5_HUMAN	ENSG00000012779  ALOX5
    LOX5_HUMAN	ENSG00000275565  ALOX5
    

     这是为啥?

    因为一个蛋白可能是由多个DNA序列产生的,这里就是,ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】,而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】

    而且产生的transcript的名字也不一样。

    这里可以明白:一个protein对应一个gene,但一个gene可以对应多个基因组区域,而ENSG ID则可以区别不同区域的同名gene。

    uniprot ID也存在重名的情况,但是很少。【有统一标准】

    E9PEK4_HUMAN	ENSG00000182578
    CSF1R_HUMAN	ENSG00000182578

    OMIM ID

    某个基因对应的疾病的信息

    https://omim.org/entry/113705

    pathology病理学,从病的角度来看一切。

    看看这个数据库里有还什么信息:

    • Cytogenetic location,细胞遗传学位置,如:17q21.31  
    • Genomic coordinates
    • Phenotype,疾病的名字
    • 历史研究,189篇文献引用,相当于文献综述。

    会详解这些ID之间的相互转换

    待续~

  • 相关阅读:
    loadrunner Message函数
    loadrunner informational函数
    loadrunner database函数
    loadrunner CommandLine函数
    loadrunner重播函数
    loadrnner header函数
    KVM虚拟机的xml配置文件
    cinder-backup驱动配置
    Areon 删除linux软raid方法
    Mdadm命令详解
  • 原文地址:https://www.cnblogs.com/leezx/p/14511763.html
Copyright © 2011-2022 走看看