有点值得注意的是,直到最近,概率图形模型领域的研究人员基本上没有意识到copula的多变量建模框架。当在实值测量的背景下考虑图形模型的局限性时,这种无知甚至更加困惑:虽然概率图形模型在概念上是一般性的,但实际考虑几乎总是迫使模型的局部定量部分为简单形式。实际上,当面对无法用多元高斯或其混合物很好地捕获的数据时,绝大多数工作首先将数据离散化,然后利用在离散情况下取得的令人印象深刻的进展。
copula社区的许多人也不了解与机器学习领域共生的潜力。十年前,Kurowicka和Cooke [23]确定了藤蔓模型和贝叶斯网络(一种有向图形模型)之间的关系,后来这被推广[24,16]以产生高维连通体结构。然而,没有算法创新是从机器学习中借鉴或启发的,其目的是例如从部分观察到的数据中自动推断出这些模型的结构。
关于为什么要追求两个领域之间的共生,有根本原因。图形模型固有地针对高维域,并且已经在从数据学习这样的模型方面取得了实质性进展。不幸的是,在实际情景中,这个领域仍然很大程度上是残障的。相比之下,copulas为实值分布建模提供了灵活的机制。然而,大部分领域仍然专注于双变量情况,或者在实践中仅限于少数变量(例外情况将在后面讨论)。因此,这两个框架相辅相成彼此以一种为富有成效的协同创新提供机会的方式。 copula框架和机器学习领域之间的协同作用的需求远远超过概率图形模型。依赖度量,尤其是Shannon的互信息,是众多机器学习算法的基础,如聚类,特征选择,结构学习,因果检测等等。众所周知,copula与这种依赖概念密切相关,两个领域的会议可以产生用于测量高维度依赖性的新技术。
直到最近,Kirshner的工作[21]打破了两个领域之间的无知障碍,将Darsow的马尔可夫算子[7]推广为树状结构模型。从那以后,对copula的兴趣一直在稳步增长,并且在过去的几年中,机器学习中出现了一系列基于copula的创新结构。本文的目的是调查这些作品。而不是针对完整的覆盖范围,重点是多变量结构以及信息估计。由于缺乏空间,一般来说,不会讨论以更多插件方式使用copula的其他工作。对于感兴趣的读者,这些包括基于copula的独立成分分析[35],成分分析[27,2],混合模型(例如[14,51]),依赖性寻求聚类[40]。同样非常感兴趣但未在此处介绍的是使用copula作为其中的特定实例
累积分布网络模型[17,45]。最后,这项调查不包括计算统计界出现的申请文件或作品,而且更容易为copula研究人员所熟悉。...