zoukankan      html  css  js  c++  java
  • SAINT学习笔记

    SAINT的介绍

    SAINT(Significance Analysis of INTeractome)是一种概率方法,用于在亲和纯化-质谱(AP-MS)实验中对阴性对照的诱饵-猎物相互作用进行打分,从而获取与靶向蛋白具有可能互作关系的蛋白。
    SAINTexpress是SAINT的改进版,具有更简单的统计模型和更快的评分算法,显著提高了计算速度和评分的敏感性,下面简单介绍一下这个软件的使用。

    SAINTexpress的使用

    下载与安装

    wget https://sourceforge.net/projects/saint-apms/files/SAINTexpress_v3.6.3__2018-03-09.tar.gz
    tar xf SAINTexpress_v3.6.3__2018-03-09.tar.gz
    cd SAINTexpress_v3.6.3__2018-03-09 && make
    

    输入文件的准备

    主要有三个输入文件

    • Bait file
      第一列是 IP name IP蛋白的名称,可以理解为具体的
      第二列是 bait name 靶向蛋白的名称 我的理解为第一列是具体
      第三列是 标识分组的 T标识test C 标识control

    • Prey file
      第一列是 prey name 蛋白的名称 可以为GI号或者Uniprot号
      第二列是 prey protein length 蛋白的长度
      第三列是 prey gene name 基因的名称 可以与蛋白名称一样

    • Interaction file
      第一列是 IP name
      第二列是 bait name
      第三列是 prey name
      第四列是 spectral counts

    软件的运行与参数

    SAINTexpress-spc [OPTIONS] <interaction data> <prey data> <bait data> 
    

    -L 用来设置虚拟的对照值。例如,如果我们想获得对照的最大的4个光谱值

    SAINTexpress-spc –L4 inter.dat prey.dat bait.dat
    

    -R 设置计算时每一个baits使用重复的数量。当一些baits的重复多余其他的baits时,这个参数很有用,默认为100

    合并已知交互关系的数据

    可以输入一个GO格式的文件计算一个TopoAvgP的得分,需要提供包含两列的交互数据库文件,如下图的GO.txt文件。
    第一列是GO id 应该可以为其他的id
    第二列是属于这个GO term的基因id 用空格分隔开,id名称与prey file的第一列一样

    SAINTexpress-spc –L4 inter.dat prey.dat bait.dat GO.txt 
    

    输出文件格式

    输出的文件有16列,每一列的具体解释如下
    Bait: bait identifier bait 文件里面的第二列
    Prey: prey identifier 蛋白的名称
    PreyGene: additional prey identifier 蛋白对应的基因名
    **Spec: **spectral counts for the bait-prey pair 每一个样的光谱定量值
    SpecSum: sum of the spectral counts 定量的和
    AvgSpec: average spectral counts over replicates 平均定量值
    NumReplicate: number of replicate purifications for the given bait 重复数
    ctrlCounts: spectral counts in the negative controls 阴性对照的定量值
    AvgP: main probability score 主要的打分值
    **MaxP: **maximal probability score of the interaction over replicates 基于重复互作的最大概率得分
    TopoAvgP: topology-aware probability score incorporating known interaction data 包含已知交互数据的拓扑感知概率得分
    TopoMaxP: topology-aware maximal probability score over replicates 基于拓扑感知的重复最大概率得分
    **SaintScore: **larger of AvgP and TopoAvgP AvgP和TopoAvgP中的较大值
    **FoldChange: **average spectral count in test interaction divided by the average in controls 处理的平均光谱值处理对照的平均光谱值
    Boosted_by: indicates which known interactors of the same bait contributed to TopoAvgP 基于同一诱饵的已知互作关系得到的一个TopoAvgP共享值,具体不太清楚,需要使用GO.txt文件才会得到这个值
    FDR: Bayesian false discovery rate 矫正值
    logOddsScore: 得分值,应该是指示互作的概率?一般取log

  • 相关阅读:
    如何基于Azure平台实现MySQL HA(方法论篇)
    如何对Azure磁盘性能进行测试
    Azure底层架构的初步分析
    聊聊Azure的安全性
    关于Azure带宽的测试
    JavaScript 优化
    SQL时间段查询
    win7+64位+Oracle+11g+64位下使用PLSQL+Developer+的解决办法
    putty 使用方法,中文教程
    怎样才能专心工作
  • 原文地址:https://www.cnblogs.com/raisok/p/11910657.html
Copyright © 2011-2022 走看看