zoukankan      html  css  js  c++  java
  • 论文阅读1:QUBIC2 A novel and robust biclustering algorithm for analyses

    //没更新完QAQ

    文章地址:

    QUBIC a bioconductor package for qualitative biclustering analysis of gene co-expression data.pdf
    QUBIC2 A novel and robust biclustering algorithm for analyses and interpretation of large-scale RNA-Seq data

    名词注释

    • functional gene modules (FGMs) 基因功能模块
      每个模块都被定义为特定基因集上的高度结构化表达模式
    • transcriptional regulatory signals (TRSs) 转录调控信号
    • single-cell RNA-seq scRNA-seq

    QUBIC

    introduction

    在大型转录组数据集中,双聚类广泛用于所有条件的子集下识别共表达基因。QUBIC程序被认为是生物数据解释中最有效的双聚类方法之一。但是,它的可用性仅限于C实现和低吞吐量web接口。
    

    该文介绍了一种QUBIC的R实现,它有两个独特的特点:

    1. 通过重构和优化QUBIC的源代码C代码,平均提高了82%的效率;
      该算法功能包括:具有数据分析功能、数据离散化、查询双聚类、双聚类扩展、双聚类比较比较、热图可视化分析等功能

    cell poputation
    |(1)
    mrna expression patterns
    |(2)
    identify co-expressed(or con-regulated) genes

    在(1)中进行DNA微阵列 DNA mircroarrays,测量大量基因的表达水平

    DNA mircroarrays
    DNA微阵列(通常也称为基因芯片、DNA芯片或生物芯片)是附着在固体表面的微型DNA点的集合。科学家使用DNA微阵列同时测量大量基因的表达水平。

    在(2)中进行聚类 biclustering,双聚类、协聚类(co-clustering)或双模式聚类是数据挖掘技术,它是允许同时对矩阵的行和列进行聚类。

    多种类型的聚类
    a)具有恒定值的双聚类
    b)行上具有常数值的双聚类
    c)列上为常数的双聚类
    d)相参的双聚类(相加)
    (e)相参的双聚类(相乘)


    在这里插入图片描述
    (图片来源于网络,作者:yang li)

    key step

    关键步骤表示使用定性矩阵的微阵列数据集
    最重的未使用的边(作为种子)
    →迭代招募新边通过一个接一个地找到这个矩阵中的所有双聚类

    优点

    1.优化了代码,提高了执行效率
    优化了代码,提高了代码的可移植性
    改变了原c代码成cpp代码,改变了许多数据结构,运用了cpp中stl替换了原c中的许多内容,显著提高了程序的效率

    2.如果在某个步骤中忽略了双聚类
    3.QUBIC可以通过使用其他边缘作为双聚类的种子来进行补救
    4.QUBIC既能发现共同表达基因,也能发现共调控基因
    5.QUBIC可以同时发现正相关基因和负相关基因
    6.QUBIC可以找到一组特定基因(种子)的相关基因
    7.QUBIC通过使用多个起点(种子)来摆脱局部最优的限制

    缺点

    总结

    双聚类算法QUBIC有助于研究人员在其基因表达数据集中识别共表达基因子集, 可以很好的成为解释基因表达谱数据的一种方法

    QUBIC2

    借助QUBIC2算法可以有效的检测多零表达或者多低表达的RNA-SEQ数据或者是scRNA-SEQ数据

    introduction

    • scRNA-seq数据具有高维性,涉及数千个基因以及大量细胞。
    • 降维和特征选择是处理高维数据的两种主要策略。
    • 由于scRNA-seq的多零表达和多低表达,为了更好处理scRNA-seq数据, 提出了QUBIC算法,而本文是在QUBIC的基础上进行改进提出QUBIC2算法。
    1. 建立左截断式的混合高斯模型的多峰性对多零表达数据的准确评估
    2. 一个快速和有效的功能性基因扩张战略模块优化使用信息分离和
    3. 严格的统计检验的重要性确定双聚类在任何有机体,包括那些没有实质性的功能注释。在各种基准数据集上,与其他五种广泛使用的算法相比,QUBIC2在检测双聚类方面的性能有了显著提高。
    4. 大肠杆菌等模拟数据。QUBIC2还展示了由微阵列、批量RNA-Seq和scRNA-Seq产生的基因表达数据QUBIC2的稳健和优越的性能可用性和实现
  • 相关阅读:
    CF528D Fuzzy Search
    P3489 付公主的背包
    有标号的DAG计数
    P4609 [FJOI2016]建筑师
    mds/journal.cc: 2929: FAILED assert解决
    Ceph根据Crush位置读取数据
    关于backfill参数建议
    rados put striper功能的调试
    Cephfs的文件存到哪里了
    为什么删除的Ceph对象还能get
  • 原文地址:https://www.cnblogs.com/ygbrsf/p/12975872.html
Copyright © 2011-2022 走看看