zoukankan      html  css  js  c++  java
  • 论文阅读笔记(五十八)【arXiv2019】:Visual-Textual Association with Hardest and Semi-Hard Negative Pairs Mining for Person Search

    Introduction

    提出了一个Smoothed Global Maximum Pooling (S-GMP),使得提取的视觉特征与文本特征更加一致; 提出一个基于bi-LSTM的memory attention模块,使得提取的语义特征更具有针对性;在损失函数上,结合了单模态三元组损失和跨模态难样本挖掘交叉熵损失。

    Proposed Method

    从图中直观感受是在两个特征提取分支上加入了注意力机制。

    1) 视觉特征提取网络 (S-GMP):采用了ResNet50作为骨干网络,将全局平均池化的输出作为注意力的权重,对全局最大池化的输出进行加权。

    2) 文本特征提取网络 (Memory Attention):将最后一个词向量通过LSTM的输出作为注意力模块的输入,因为最后一个LSTM的输出包含了整个文本的信息。bi-LSTM的所有单词的输出通过了最大池化,即在每个特征维度取最大值,得到整个文本的特征,最后通过注意力加权得到新的特征向量。

    3) 在距离度量采用了consin相似度,并采用sigmoid进行归一化。交叉熵损失为:

    4) 模态内的三元组损失:

    5) 模态间难样本损失:

    寻找cosine相似度最高的负样本作为一组难样本对:

    寻找特征向量距离最近的负样本作为一组难样本对:

    6) 正样本损失:

    Experiments

    实验设置:学习率2x10-3,想70次和90次迭代时下降0.1,batch size = 64 (64个ID,128图像,256段文本),采用Adam优化器

     

  • 相关阅读:
    vue中的样式
    v-model 双向数据绑定
    v-on 事件修饰符
    Linq Join
    Elasticsearch.Net 异常:[match] query doesn't support multiple fields, found [field] and [query]
    MongoDB开启权限认证
    elasticsearch备份与恢复
    elasticserach + kibana环境搭建
    Kibana TypeError : Object #<GlobalState> has no method 'setDefaults'
    匿名函数
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14188427.html
Copyright © 2011-2022 走看看