1.运用场景
用于大规模视觉场景识别,即给定一个地标图像,准确识别图像位置。
2.创新点
提出端到端训练的卷积网络用于场景识别任务,使用VLAD层用于图像召回;
提出弱监督排序损失。
3.算法原理
3.1 整体网络结构

3.2 NetVLAD

4.算法理解
NetVLAD是一种特征编码的方式,主要用于图像特征提取。首先定义聚类中心,然后计算图像像素点到聚类中心的距离,之后累加作为图像特征。NetVLAD就是在VLAD的基础上,动态可学习的为每个像素到各个聚类中心赋予权重。