真正的无监督学习之二——Contrastive Multiview Coding

苦口婆心劝不听，事出有因骂不得

Deep cluster是过于naive的方法。从Contrastive Predictive Coding (CPC)出世后，self-supervised learning达到了新的高度。以本文为例，在完全无监督的情况下，用resnet101达到了60.1%的top1，并且提取的特征使用在其他任务，如分割，检测中，可以达到与使用预训练模型的方法非常接近的结果。然而，作者只开源了核心部分，由于ICCV没中，需要等一段时间才能开源全部技巧。

【github】https://github.com/HobbitLong/CMC/

Contrastive Multiview Coding

简介

本文基于三个核心思想：contrastive learning，mutual information maximization和deep representation learning。简单来说，就是选取同一场景的不同views/不同场景的views来对比，最大化同一场景的交互信息（让同一场景views生成的embedding的invariance部分尽可能接近），基于抽取embedding的相似度来判断场景的相似度。

Contrastive Multiview Coding

首先，解释一下如何获取多views。将RGB的图像空间映射到Lab空间，再将每张图片拆分成L（光照）和ab（色度），就得到了同一图片的两个不同views。这两个views互为正对，与其他图片的views为负对（这在后面的NCE中需要用到）

1、Predictive learning：

假设 $v_{1}$ 代表光照， $v_{2}$ 代表色度，Predictive方法是从 $v_{1}$ -隐含变量- $v_{2}$ 。构建两个函数 $z=fleft(v_{1} ight)$ 和 $hat{v_{2}}=g(z)$ ，再使用loss，如L1或L2，来迫使 $hat{v_{2}}$ 接近 $v_{2}$ 。很自然的，该方法可以用在上色，风格转换，vision2sound等任务中。

然而，该方法有个最大的问题，就是优化目标只关注 $hat{v_{2}}$ 和 $v_{2}$ 的相似性，假定了 $v_{1}$ 和 $v_{2}$ 的像素和元素是独立的，即 $pleft(v_{2} | v_{1} ight) approx prod_{i} pleft(v_{2 i} | v_{1} ight)$ ，是一个个像素的预测的集合。因此，这种方法会丢失建模关联和复杂结构的能力。

2、Contrasting two views：

contrastive learning与Predictive learning又不同，将不同views统一映射到同一个特征空间，再利用这些embeddings进行对比学习。很直观的，丢失的细节更少，也更好进行比较。

contrastive的核心思想是分辨来自不同分布的样本。

作者将正样本对定义为来自joint distribution，定义为 $x sim pleft(v_{1}, v_{2} ight) ext { or } x=left{v_{1}^{i}, v_{2}^{i} ight}$ 。负样本对定义为来自the product of marginals，定义为 $y sim pleft(v_{1} ight) pleft(v_{2} ight) ext { or } y=left{v_{1}^{i}, v_{2}^{jmath} ight}$ 。随后，为了区分正负样本，需要训练一个函数 $h_{ heta}(cdot)$ ，对正样本打高分，对负样本打低分。作者训练该函数的方法是让函数从 $S=left{x, y_{1}, y_{2}, dots, y_{k} ight}$ ，包含1个正样本，k个负样本的集合中找到那个证样本。目标函数形式化如下：

$mathcal{L}_{ ext { contrast }}=-underset{S}{mathbb{E}}left[log frac{h_{ heta}(x)}{h_{ heta}(x)+sum_{i=1}^{k} h_{ heta}left(y_{i} ight)} ight]$ （1）

更具体的，固定一个vew，枚举其他view：

$mathcal{L}_{ ext {contrast}}^{V_{1}, V_{2}}=-underset{left{v_{1}^{i}, v_{2}^{i} ight}}{mathbb{E}}left[log frac{h_{ heta}left(left{v_{1}^{i}, v_{2}^{i} ight} ight)}{sum_{j=1}^{N} h_{ heta}left(left{v_{1}^{i}, v_{2}^{j} ight} ight)} ight]$ （2）

到此为止，都非常直观，只是一个标准的log-softmax。

随后，作者论证了最优解 $h_{ heta}^{*}$ 正比于joint distribution和product of marginals的密度比：

$h_{ heta}^{*}left(left{v_{1}, v_{2} ight} ight) propto frac{pleft(v_{1}, v_{2} ight)}{pleft(v_{1} ight) pleft(v_{2} ight)} propto frac{pleft(v_{1} | v_{2} ight)}{pleft(v_{1} ight)}$ （3）（应该是为了论证N越大，效果越好）

但是，在实际计算中，N可能是极度大的直接最小化等式（2）是不现实的。后文会提到作者是如何利用NCE来获得近似解。同时，针对两个views，很自然的将 $h_{ heta}(cdot)$ 拆分成两个编码器 $f_{ heta_{1}}(cdot)$ 和 $f_{ heta_{2}}(cdot)$ ，并抽取表征为 $z_{1}=f_{ heta_{1}}left(v_{1} ight), z_{2}=f_{ heta_{2}}left(v_{2} ight)$ 。额外引入一个参数 $W_{12}$ ， $h_{ heta}(cdot)$ 可以被形式化为：

$h_{ heta}left(left{v_{1}, v_{2} ight} ight)=e^{f_{ heta_{1}}left(v_{1} ight)^{T} W_{12} f_{ heta_{2}}left(v_{2} ight)}$ 或 $h_{ heta}left(left{v_{1}, v_{2} ight} ight)=e^{z_{1}^{T} W_{12} z_{2}}$ （4）

等式2将 $v_1$ 视为anchor，并在 $v_2$ 上枚举。对称的，可以通过将 $v_2$ 视为anchor获得 $mathcal{L}_{ ext {contrast}}^{V_{2}, V_{1}}$ 。将两项加起来，获得two-view loss：

$mathcal{L}left(V_{1}, V_{2} ight)=mathcal{L}_{ ext {contrast}}^{V_{1}, V_{2}}+mathcal{L}_{ ext {contrast}}^{V_{2}, V_{1}}$ （5）

在contrastive learning阶段完成后，通过对不同views得到的表征进行综合，可以获得最终的representation。对于那些超过two-views的情况，如video，RGB-D，作者在下一节提出了新的充分利用多views信息的组合方式。

3、More than two views：

这个非常好理解。在多views的情况下，如何构建contrastive关系。第一种，core view，选取一种为anchor，枚举其他views。第二种，full graph，将多种views两两互相匹配。很明显的，full graph的交互信息更多，效果也更好，副作用是运算量也大很多。

4、Connecting to Mutual Information：

重头戏来了。

其实这一系列基于contrastive learning范式的学习方法，都直接关系到对 $z_{i}=f_{ heta i}left(v_{i} ight)$ 和 $z_{j}=f_{ heta j}left(v_{j} ight)$ 的交互信息最大化。交互信息定义为：

$Ileft(z_{i} ; z_{j} ight)=underset{z_{i}, z_{j}}{mathbb{E}}left[frac{pleft(z_{i}, z_{j} ight)}{pleft(z_{i} ight) pleft(z_{j} ight)} ight]$ （6）（类似于Eq.3，但是这是特征而不是样本的交互部分与不交互部分的密度比。不准确的来说，例如一个鸟的样本，那么交互信息就是证明该样本是鸟的那一部分invariance information）

直觉地，contrastive loss区分来自交互分布和边缘乘积的样本，也就能最大化它们的表征的分布的离散度（意思是这些样本编码后的特征也能被区分）。CPC证明了交互信息的边界：

$Ileft(z_{i} ; z_{j} ight) geq log (k)-mathcal{L}_{ ext { contrast }}$ （7）

其中k代表了样本集中负样本对的数量。根据Eq.3，可以得出，负样本越多，能获得更好的表征。优化目标 $mathcal{L}_{ ext { contrast }}$ ，同样可以最大化交互信息的下界。不过，根据[D. McAllester and K. Statos. Formal limitations on the measurement of mutual information. arXiv reprint arXiv:1811.04251, 2018]，该边界非常weak，仍然需要寻找更好的对交互信息的估计量。

5、近似估计Full Softmax：

这是所有利用基于contrastive learning和交互信息的方法都会出现的问题。Eq.2的计算量太大，尤其是在为了保证下界，负样本对数N要尽可能大的情况下。作者总结了两种tricks，分别是①使用NCE来近似模拟full softmax②使用Deep InfoMax的方法，使用子块而不是完整图像来增加每个batch的负样本数量。

5.1、leveraging NCE（leverage应该翻译成什么好啊，充分利用？）

回顾一下我们的log-softmax的优化目标，即我们要优化的概率—— $v_{1}^{i}$ 对应的 $v_{2}$ 是最佳匹配的概率：

$pleft(v_{2} | v_{1}^{i} ight)=frac{h_{ heta}left(left{v_{1}^{i}, v_{2} ight} ight)}{sum_{j=1}^{N} h_{ heta}left(left{v_{1}^{i}, v_{2}^{j} ight} ight)}$ （8）

其中 $h_{ heta}left(left{v_{1}^{i}, v_{2}^{j} ight} ight)=exp left(f_{ heta_{1}}left(v_{1}^{i} ight)^{T} f_{ heta_{2}}left(v_{2}^{j} ight) / au ight)$

当 $v_{2}$ 是正样本时，要通过log-softmax优化让p最大，此时的意义就是拉近正样本对之间的距离。然而，对于大N，计算压力很大。这时候就可以用NCE。

NCE是一种有效模拟unnormalized统计模型的方法。NCE训练一个密度模型p来匹配数据分布 $p_d$ ，通过使用训练一个binary分类器来从噪声样本分布 $p_n$ 中区分 $p_d$ 的方法。（data sample：正样本；noise sample：负样本）。为了学到 $pleft(v_{2} | v_{1}^{i} ight)$ ，作者使用一个binary classifier，将 $v_{2}^{i}$ 视为给定的 $v_{1}^{i}$ 的数据样本。噪声分布 $p_{n}left(cdot | v_{1}^{i} ight)$ 是一个对所有 $V_2$ 元素的uniform分布，即 $p_{n}left(cdot | v_{1}^{i} ight)=1/N$ 。如果我们对每个数据样本取样m个噪声样本，那么给定 $v_2$ 来自数据分布的后验概率是：

$Pleft(D=1 | v_{2} ; v_{1}^{i} ight)=frac{p_{d}left(v_{2} | v_{1}^{i} ight)}{p_{d}left(v_{2} | v_{1}^{i} ight)+m p_{n}left(v_{2} | v_{1}^{i} ight)}$ （9）

通过使用模型分布 $pleft(v_{2} | v_{1}^{i} ight)$ 来替代 $p_{d}left(v_{2} | v_{1}^{i} ight)$ ，最小化正确label D的负对数后验概率，得到NCE估计的概率函数：

$egin{aligned} L_{N C E} &=-underset{v_{1}^{i} sim pleft(v_{1} ight)}{mathbb{E}}left{underset{v_{2} sim p_{d}left(cdot | v_{1}^{i} ight)}{mathbb{E}}left[left[Pleft(D=1 | v_{2} ; v_{1}^{i} ight) ight] ight. ight.\ &+m underset{v_{2} sim p_{n}left(cdot | v_{1}^{i} ight)}{mathbb{E}}left[1-Pleft(D=1 | v_{2} ; v_{1}^{i} ight) ight] } end{aligned}$ （10）

为了降低运算量，作者引入了memory bank，可以从中有效检索m个噪声样本而不需要重新计算。一个针对NCE的简化方法是使用（m+1）路softmax分类器，这也是CPC和Deep InfoMax使用的。

5.2、Contrasting Sub-patches

除了使用最后一层输出的特征进行对比，还可以用中间层与最后一层的进行对比，这也是Deep InfoMax使用的方法。在这种情况下，作者使用了简单的（m+1）路softmax loss方法，不需要计算NCE，也不需要使用memory bank（直接使用一个batch中的中间变量即可）。然而，基于patch的方法对比起基于NCE的方法通常是次优的。

实验结果

ImageNet上的结果使用resnet在ImageNet上的结果

编辑于 2019-07-28

文章被以下专栏收录

真正的无监督学习之一——Contrastive Predictive Coding

乱码发表于跨域ReI...

Contrastive self-supervised learning

Contrastive self-supervised learning techniques are a promising class of methods that build representations by learning to encode what makes two things similar or different.主…

高峰OUC发表于OUC的搬...

一文详解最近异常火热的self-supervised learning

本文经授权转载自公众号：深度学习技术前沿作者：Sherlock知乎链接：https://zhuanlan.zhihu.com/p/108625273【导读】最近 self-supervised learning 变得非常火，首先是 kaiming 的 MoCo …

小谢发表于AI Bo...

有监督学习、无监督学习以及强化学习

吴鹏

写下你的评论...

卜一2019-08-29

所以其他图片的负对也可能是同一个class 的？
乱码 (作者) 回复卜一2019-09-04

对。只要跟anchor不是同一类就行了

卜一2019-08-29

请教，不是很懂这种self suprvise的所指。难道说是学representation时是self supervise 的，然后再最后free encoder 接linear classifier 时候再supervise？如是这样，那其实比的就是所谓feature 提取能力？
乱码 (作者) 回复卜一2019-09-04

yep。就是特征提取能力。后面可以用线性分类器（无需训练），也可以训练一下mlp分类器

朱军2019-11-19

请教作者：之前做过一个实验，先用tripletloss 训练一个特征提取器然后固定特征提取器接卷积+全连接层分类 softmax训练但是效果是不如直接分类的。。。

文章的意思是不是和我这个思路一致啊。。
Zhu Forrest回复朱军02-24

遇到了类似的问题，请问最后有分析出原因吗？

xbsun2019-11-22

拜读了

李韶华03-07

这个iclr 20也被拒了，感觉主要是因为写的太乱，读起来很累
慕容腹黑回复李韶华04-24

一方面主要是把详细的数学全部写下来了，读起来就不轻松，另外确实写的有点乱，更新了一下

言蹊03-07

从数学角度思考方法，能预知某些理论上的不work!

阡沫昕03-24

初接触，想问一下我这样理解对吗？：先用一个任务（这里是正负样本对比，学习样本特征），得到网络的参数（如resnet、alexnet等），然后将这个网络用到具体任务之中。如果是的话，对于CMC的预训练网络是ResNetV2还是resnet（即是l和c两部分的网络之和的encoder还是单一的l_to_ab或者ab_to_l）？
阡沫昕回复阡沫昕03-24

如果是前者的话，那么这个resnetv2和目标检测的resnet是很不同的，这里里面还有两个小的；如果是后者的话，那么输入的维度不是常见的3而是1或者2，感觉也不对
阡沫昕回复阡沫昕03-24

还是我有地方没有理解到位，希望得到指教

小明04-24

请问作者，如何保证负样本与正样本不是同一类，训练的时候如果没有打乱数据？同一批次的数据经常都是同一类

Jack Yang05-24

无监督还他么那么多参数，耍流氓。

《真正的无监督学习之二——Contrastive Multiview Coding》