这篇文章在OIM的基础上做了较大改进,在CUHK-SYSU和PRW两个数据集上取得了不错的进展。
基本流程如Figure 1的右边,用孪生的faster rcnn网络做detection,然后用re-ID网络做识别,最后用QSimNet求query-gallery图像对的相似性。
整个网络的框架如Figure 2。由几个大的部分组成:①上下两条线SiameseNet,基本上是OIM的identity net,这部分将ResNet分成了conv1-conv4_3和conv4_4-conv5两段;②ResNet第一段加入QSSE-Net用来做特征提取,下线进一步加入QRPN以提取proposal,使得过程变成query-guided ③ResNet第二段用作identity分类,上下线的输出特征最后送入QSimNet计算相似性。
QSSE-Net
Figure 2中我标记的①QSSE-Net的作用是提取特征。注意,这个孪生网络的输入是整个query image和整个gallery image图像对。该部分如Figure 3所示
这部分利用了SEBlock,在18年CVPR的person search文章里也用了这种结构。孪生网络共享参数,基本网络结构是ResNet。值得一提的是,在SEBlock第一阶段,经过global average pooling之后,query和gallery的feature连接在了一起,作者认为通过这种方式,QSSE-Net re-calibrates channel weights to take into account intra-network channel dependencies and inter-network channel similarities。输出的就是两张图像的feature map。
Query-guided RPN (QRPN)
该部分是为了对Gallery image检测得到proposal。注意输入不再是整张图像的feature map,而是crop的之后对应的图像块的feature map。结构如下
这部分显然是受SEBlock的启发,Query的feature经过两个FC实现squeeze和excitation,但是输出是和gallery的feature相乘(SEBlock是乘回query原输入)。输出即得到proposal.
Query-guided Similarity Net (QSimNet)
Loss
显然网络结构很复杂,事实上也是有7个子loss