NPInter数据集的奇葩标号的出坑秘籍

zoukankan html css js c++ java

NPInter数据集的奇葩标号的出坑秘籍

这篇恐怕是有始以来命名最无奈标题了。需要写一下攻略。

业内人士都熟知NPInter,但是该数据库一直以来访问受限。不过终于能访问得到数据集。

但是蛋疼的是2.0的数据库id的命名方法实在奇葩，想了很多办法都难以攻破瓶颈。于是想到用3.0的数据库ID联查一下ncIdentifier。

终于ncIdentifier被验证可行，但是问题又来了：noncode数据库里找不到其中的一些序列。

先得读读核酸研究，搞明白命名方法。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3965073/

先后尝试用12个数据库中的8个，终于LNCipedia算是良心库，http://www.oebiotech.com/Article/lncrnabtsj.html

12个数据库的相关文章：

www.360doc.com/content/17/0310/11/19913717_635515733.shtml

经过十动然拒，不过最终结果虽然称不上喜大普奔，但是回想起郁闷地想办法找序列，还算是细思恐极的过程。

此外，找到序列还是有遗留工作，得把序列从网上爬取下来存成fasta。

***

补充一下，中科院这种格式的ID还有一个数据库可查NPInter的序列，是印度加尔各答珀色研究所搞的。 bicresources.jcbose.ac.in/cgi-bin/lncrbase

追评一下这个数据库，有坑。比如n410143，查到的序列号是另外一种格式，需要再对照图寻找

**

最新探坑进展：ipedia和jcbose库里都没有的，比如n381557得用联查法，得到noncode序列ID格式从Noncode数据库里找

**

今天终于收集完了所有RNA数据。

总结：

第一步，先根据2.0已有的github数据提取所有目标序列；

第二步，抽取出未查找到的ID表；

第三步，到印度的数据库去进行查找 http://bicresources.jcbose.ac.in/zhumur/lncrbase；

第四步，到noncode在线查找第三步仍未找到的序列；

第五步，到NPInter下载2.0和3.0两个库，对第四步仍未查找到的序列，通过联查法获取3.0的noncode格式ID，到NPInter在线查找，找到对应RPI号，再跳转到noncode对应RNA转录序列的列表，选取序列

第六步，使用根特大学的数据库进行补充验证(可选)

*******

没想到两周之后遇到新的坑：superfamily的某些id得再uniprot里面猜。探坑结束再发。找了一些资源

GDB、GenBank、SWISS-PROT、PIR等可查询蛋白质的其它信息；
PDB主要应用于蛋白质结构预测和结构同源性比较。NRL-3D数据库则是PDB数据库中所有蛋白质序列的信息。http://www.rcsb.org/pdb/

******

最近又看到两个数据库：http://www.cuilab.cn/lncrnadisease

http://rtools.cbrc.jp/LncRRIsearch/help.cgi

下面还有篇科普文：http://www.sohu.com/a/144748065_786581

以及使用基因通路和其他几何方法的方法

http://blog.sciencenet.cn/blog-430956-917432.html

https://www.slideserve.com/nimrod/phd-prof-chun-ting-zhang-center-of-bioinformatics-tianjin-university

查看全文

相关阅读:
关于Javascript的有趣的3个小知识
 linux支持串口(serial)登录配置方法
 Silicom Linux BypassSD Control Utilitybypass command
USB隨身碟版的Clonezilla live
如何將Clonezilla live放到一個已經有其他作業系統存在的硬碟中
 clonezilla for usb as ghost or backup，auto ghost,auto backup（再生龙一键还原(备份)的制作）
典型PC机上各种操作的近似时间
 linux网络问题子网掩码与网关不在同一段的处理
 Linux family member.(AS/ES/WS)
华为交换机常用命令

原文地址：https://www.cnblogs.com/ubiwind/p/9241372.html