Methodology
作者提出TIMAM (Text-Image Modality Adversarial Matching)方法,比较简洁明了,具体包含三个部分:
(1)特征提取器:
文本采用BERT提取词向量,再输入LSTM提取文本特征;
图像采用ResNet101提取特征。
(2)采用ID损失(CMPC换了名)和跨模态投影损失(CMPM),来拉近相同ID的特征的分布。
(3)采用对抗损失来学习自适应模态的特征表示。
Experiments