zoukankan      html  css  js  c++  java
  • 论文阅读笔记(七十七)【CVPR2017】:Attention-based Natural Language Person Retrieval

    Introduction

    本文提出了一种基于文本的行人定位并检索的系统,即:给定一个包含多个行人的大场景图像,以及一个行人的对应描述,需要在图像中对描述的行人进行定位以及检索。

    Prposed Method

    1) 视觉特征:

    作者采用Faster R-CNN进行行人检测,检测出的行人候选区域调整为 224x224,再通过ResNet-152进行特征提取【这里提取行人子图特征】;

    此外用Faster R-CNN提取得到的注意力权重图对全局图像在ResNet首层卷积后的输出相乘【这里为完整图特征中ROI挖取局部特征】;

    每个子图都有8维的空间特征,即(这里我没理解为什么需要8维定位,目标检测一般4维就可以)。

    将三者的特征进行级联,通过FC层输出视觉特征。

    2) 文本特征:

    采用Skip-Gram模型提取词向量,再通过Bi-LSTM进行文本特征提取。对语句特征融合了注意力机制,再与属性文本特征级联。通过FC层得到最终文本特征。

    3) 将图文特征进行相乘,再通过FC层输出分类预测。

  • 相关阅读:
    android蓝牙技术
    startActivityForResult 页面跳转回调
    android提示框
    二级列表展示数据库查询
    字符串着色
    ActionBar窗口应用
    android 补间动画帧动画
    ExpandableListView二级列表
    解析json数组——TypeToken
    Scrapy中的Callback如何传递多个参数
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14962851.html
Copyright © 2011-2022 走看看