生物信息学软件:
NCBI:BLAST,设定k-mer
默认是全局比对,Blastn是局部比对。
PSI-BLAST最灵敏的BLAST,选中部分矩阵后在数据库中查找相应蛋白。
PHI-BLAST找氨基酸motif ,参数有-db 数据库,-query 输入文件,-cut输出文件
Ensembl模式生物数据库;biomark
UCSC genome browser,各种基因组参数:CG content等可以展开。
Ebi:ensembl也在其中。
一个gene:
DNA水平:基因名字UCSC找位置,找染色体区域,看该位置的gene family情况,(在同一区域内的gene family成员比较相关),gene结构外显子内含子剪接,gene转座元件(转座子比较活跃,需要被甲基化silence,但未被甲基化的部分会影响基因功能),组蛋白修饰,非编码RNA调控,找motif(原件预测软件:softberry中有软件集。)
RNA水平,比对之后找microRNA(病毒利用宿主中的蛋白质,制造自己的microRNA,对付病毒本身的免疫反应),gene expression:EGO;ENCODE;GTEx(人类基因在人体上的表达区域),RNA修饰。
蛋白水平:蛋白结构PDB;UniProt;domain(NCBI&smart&ExPay)
多个gene
多序列比对是有多种解的,clustalx,可以在合理知识储备下对序列进行匹配。Bootstrap就是把这些序列按照碱基含量分类,找近似,来作为进化树的验证。
作图;
细胞构成和亚细胞定位,AmiGO输入细胞类型找相关gene
高通量数据分析:IGV&Galaxy
生物学问题要先判断合理性,然后调研Gene&protein。