zoukankan      html  css  js  c++  java
  • 论文阅读笔记(六十二)【arXiv2021】:VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search

    Introduction

    图文检索问题上存在两个核心挑战:准确率以及速度。作者基于transformer提出了VisualSparta模型(Sparse Transformer Fragment-level Matching),兼顾了准确率和检索速度。本文的贡献包括:

    1) 提出了一个新的基于片段交互作用的图文检索模型,并取得了SOTA的性能;

    2) 反向索引 (Inverted index) 被证实对图文检索有效。

    VisualSparta Retriever

    Query Representation

    不同于一些方法对query编码成文本序列,本方法先将query编码成词向量,即:,其中,每个query可以表示为:

    Visual Representation

    对于每幅图像,作者采用了三种特征:局部的深度特征,局部的位置特征,目标标签特征。

    1) 局部的深度特征 (regional deep feature):采用Faster-RCNN提取,即:

    2) 局部的位置特征 (regional location feature):每个局部都包含六个位置特征,即

    每个图像的局部都采用上述两个特征的级联:,图像特征为:

    3) 目标标签特征 (object label feature):对于每个局部都采用三种编码,即:word embedding、position embedding、segment embedding,即:,图像的标签特征为:

    图像特征表示为:,最后再输入到Transformer中,即:

    Scoring Function

    计算图文相似度采用如下过程:

    先计算每个局部与每个单词的相似度,即:

    采用一个训练的bias和ReLU计算投影,即:

    对所有局部相似度取log并进行累加,即:

    Retriever training

    目标函数为:

    (反向索引那部分没有看的很明白)

    Experiments

  • 相关阅读:
    10年后编程还有意义吗?
    专访Jeffrey Richter:Windows 8是微软的重中之重
    x86汇编指令脚本虚拟机
    基于容器的持续交付管道
    NET Core 整合Autofac和Castle
    数据结构与算法1
    Redis集群
    react + iscroll5
    MongoDB
    WebComponent
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14416243.html
Copyright © 2011-2022 走看看