Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation
2020-03-30 19:02:01
Paper: https://arxiv.org/abs/2003.08813(CVPR-2020 Oral)
Code: https://github.com/luogen1996/MCN
Blog: 机器之心
1. Background and Motivation:
本文主要是讨论了基于 text 的分割 和 检测任务之间互补性。如图 1 所示,一般情况下,这两个任务会被单独的进行处理: Referring Expression Comprehension (REC) and Referring Expression Segmentation (RES)。在 REC 中,大部分的方法采用的是 多阶段的方式进行处理,即:首先进行显著性检测,然后用多模态交互方法选择最匹配的作为最终结果。在 RES 中,现有的方法通常先用 LSTM/GRU 模型将文本进行映射,然后进行分割。虽然最近的方法可以同时处理 REC 和 RES,但是这种多任务处理的方式,很大程度上依赖于他们的骨干检测器, maskRCNN,而不是他们进行了两个任务之间的交互。与 RES 相比,REC 在预测潜在位置上更有优势,这可以协助 RES 来确定正确的示例。另一方面,RES 使用的是 pixel-level labels,可以帮助 REC 获得更好的 language-vision alignments。然而,这种联合训练,并不是很直接的,因为有如下的冲突:如图 1(b)所示,这种预测冲突在 general 的物体检测和分割中也经常遇见。然而,这种冲突在 RES 和 REC 上更加重要,因为仅仅一部分多示例是正确的 referents。
为了解决上述挑战,作者提出 多任务协同网络 (multi-task collaborative network, MCN) 来联合的学习 REC 和 RES,如图 2 所示。MCN 原则上来说,属于一种多模态、多任务协同学习框架。在文本信息的基础上,将两个任务联合在一起,来最大化他们的协同学习。特别的,视觉骨干网络和语言编码器是共享的,两个任务的多模态推理分支是相对独立的。这种设计是为了考虑 REC 和 RES 任务之间的固有的差异性,而避免出现一个任务效果很好,但是另外一个任务效果很差的情况,RES 通常需要更大分辨率的特征图,来进行像素级的预测。
为了解决上述预测冲突问题,作者在 MCN 的基础上,又添加了两项创新性的设计: Consistency Energy Maximization (CEM) and Adaptive Soft Non-Located Suppression (ASNLS)。CEM 是一种以 language 为中心的损失函数,通过最大化两个推理分支的一致性能量,使得两个任务可以聚焦在相似的视觉区域上。此外,其也提供了一个分支俩链接 REC 和 RES 的学习过程。ASNLS 是一种后处理的方法,在 REC 预测的基础上来抑制不相关的区域。
2. The Proposed Method:
Objective Function:
对于 RES 来说,作者采用的是 ASPP decoder 来预测分割掩码,计算像素级损失函数。
对于 REC 来说,作者添加了一个 regression layer 来预测置信度得分 和 BBox 的位置。
为了处理预测冲突的问题,作者这里提出利用 Consistenvy Energy Maximization (CEM) 机制来降低这种影响。
具体来说哦,给定 RES 和 REC 的注意力 tensors,即: $F_a^s, F_a^c$,作者将其映射为 two-order tensors:
然后,在 Ec 和 Es 上执行 softmax,以得到 REC 和 RES 在图像中的能量分布,记为:Ec' , Es'。这两者的元素表明了对应区域和给定表达之间的响应程度。为了最大化两个任务之间的 co-energy,作者进一步计算了 inter-task correlation:
其中,小 f 是 F 的元素值。co-energy C 可以按照如下的方式进行计算:
其中,$alpha_s, alpha_c$ 是两个正则化项,用于乘法不相关的响应,记为:
最终,CEM loss 可以构建为:
Adaptive Soft Non-Located Suppression:
作者提出一种 soft post-processing 的方法来处理预测冲突问题,称为:ASNLS。根据 REC 预测得出的 BBox,ASNLS 抑制不相关的区域,增强相关的区域。与现有的 hard processing,如 ROI Pooling, ROI Align,直接扣取对应 BBox 的特征不同,soft processing 可以获得更好的容错率。特别的,给定 RES 预测的 mask,O,以及 bbox b,在 O 中的每一个元素都可以通过如下的方式进行更新:
然后,更新后的 RES 结果 O 被二值化处理,以得到最终的 mask。这里,作者进一步对其进行了升级,得到了 adaptive version 的 soft-NLS,其中,更新因子可以根据 REC 的预测置信度得到。
给定置信度得分 p,$alpha_{up}, alpha_{dec}$ 可以通过如下的方式进行计算:
Overall Loss:
MCN 总体的损失函数可以通过如下的方式进行计算:
Experimental Results: