Introduction
本文提出了一种基于文本的行人定位并检索的系统,即:给定一个包含多个行人的大场景图像,以及一个行人的对应描述,需要在图像中对描述的行人进行定位以及检索。
Prposed Method
1) 视觉特征:
作者采用Faster R-CNN进行行人检测,检测出的行人候选区域调整为 224x224,再通过ResNet-152进行特征提取【这里提取行人子图特征】;
此外用Faster R-CNN提取得到的注意力权重图对全局图像在ResNet首层卷积后的输出相乘【这里为完整图特征中ROI挖取局部特征】;
每个子图都有8维的空间特征,即(这里我没理解为什么需要8维定位,目标检测一般4维就可以)。
将三者的特征进行级联,通过FC层输出视觉特征。
2) 文本特征:
采用Skip-Gram模型提取词向量,再通过Bi-LSTM进行文本特征提取。对语句特征融合了注意力机制,再与属性文本特征级联。通过FC层得到最终文本特征。
3) 将图文特征进行相乘,再通过FC层输出分类预测。