问题:
深度度量学习,损失函数设计。
研究现状总结:
深度度量学习中的一个关键问题是损失函数设计。已经提出了多种损失函数,例如contrastive loss , binomial deviance loss , margin loss , lifted-structure (LS) loss , N-pair loss , triplet loss , multi-similarity (MS) loss。这些基于对的损失之间的主要区别在于对如何在mini-batch中相互作用。在简单的成对损失中,如二项式偏差损失、对比损失和保证金损失,成对损失被认为是相互独立的。在三重态损失中,一个正对只与一个负对相互作用。在N对损失中,一个正对与所有负对相互作用。在LS损失和MS损失中,一个正对与所有正对和所有负对相互作用。趋势是损失函数变得越来越复杂,但很难理解。
与损失函数并行,如何选择信息对构造损失函数也受到了极大的关注。传统的方法是在训练前在所有的例子上构造成对或三元组,这种方法受到样本复杂度的限制。为了解决这个问题,在实践中广泛使用了在mini-batch中构建配对的方法。虽然它有助于减轻计算和存储负担,但当在mini-batch中使用所有对来更新模型时,仍然普遍存在收敛慢和模型退化且性能较差的问题。为了解决这个问题,已经提出了各种配对挖掘方法来补充损失函数的设计,例如针对三重损失的硬(半硬)挖掘,针对边际损失的距离加权采样(DWS),针对质谱损失的质谱采样。这些采样方法通常保持所有正(相似)对,并根据某种标准选择大致相同顺序的负(不相似)对。
尽管做出了这些巨大的努力,但现有的研究要么没有解释数字媒体学习中最根本的问题,要么没有提出解决根本挑战的最有效的方法。显然,损失函数变得越来越复杂。但是仍然不清楚为什么这些复杂的损失是有效的,以及成对挖掘方法如何影响mini-batch内的整体损失。
方法
在本文中,我们提出了一种新的有效的解决方法,并从学习理论的角度提出了新的见解,可以指导新方法的发现。我们的思想很简单:将DML问题转化为简单的成对分类问题,并专注于解决最关键的问题,即正对和负对之间的绝对不平衡。为此,我们采用简单的成对损失函数(如边际损失、二项式偏差损失),并提出了一个灵活的分布稳健优化(DRO)框架,用于定义mini-batch内成对的稳健损失。DRO的想法是给不同的对分配不同的权重,通过在分布变量的不确定性集合上最大化加权损失来进行优化。模型通过随机梯度下降进行更新,随机梯度根据所建立的最优分布变量基于采样对进行计算。
结论
在这篇文章中,我们把二元模型看作一个简单的成对二元分类问题,并把它表述为一个DRO框架。与现有的成对DML方法相比,该方法利用一批中的所有对或采用启发式方法对样本对,我们的DRO框架构建了一个鲁棒的损失样本信息对,这也从学习理论的角度提供了理论证明。我们的框架是通用的,因为它可以在其不确定性决策集中包含许多新颖的设计。它的灵活性允许我们恢复最先进的损失函数和指数样本加权策略。实验表明,在基准数据集上,我们的框架优于最先进的DML方法。我们还从经验上证明了我们的框架在消融研究中是有效的、通用的和灵活的。
摘要:
Deep metric learning (DML) has received much attention in deep learning due to its wide applications in computer vision. Previous studies have focused on designing complicated losses and hard example mining methods, which are mostly heuristic and lack of theoretical understanding. In this paper, we cast DML as a simple pairwise binary classification problem that classifies a pair of examples as similar or dissimilar. It identifies the most critical issue in this problem—imbalanced data pairs. To tackle this issue, we propose a simple and effective framework to sample pairs in a batch of data for updating the model. The key to this framework is to define a robust loss for all pairs over a mini-batch of data, which is formulated by distributionally robust optimization. The flexibility in constructing the uncertainty decision set of the dual variable allows us to recover state-of-the-art complicated losses and also to induce novel variants. Empirical studies on several benchmark data sets demonstrate that our simple and effective method outperforms the stateof-the-art results.