zoukankan      html  css  js  c++  java
  • 论文阅读笔记(六十二)【arXiv2021】:VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search

    Introduction

    图文检索问题上存在两个核心挑战:准确率以及速度。作者基于transformer提出了VisualSparta模型(Sparse Transformer Fragment-level Matching),兼顾了准确率和检索速度。本文的贡献包括:

    1) 提出了一个新的基于片段交互作用的图文检索模型,并取得了SOTA的性能;

    2) 反向索引 (Inverted index) 被证实对图文检索有效。

    VisualSparta Retriever

    Query Representation

    不同于一些方法对query编码成文本序列,本方法先将query编码成词向量,即:,其中,每个query可以表示为:

    Visual Representation

    对于每幅图像,作者采用了三种特征:局部的深度特征,局部的位置特征,目标标签特征。

    1) 局部的深度特征 (regional deep feature):采用Faster-RCNN提取,即:

    2) 局部的位置特征 (regional location feature):每个局部都包含六个位置特征,即

    每个图像的局部都采用上述两个特征的级联:,图像特征为:

    3) 目标标签特征 (object label feature):对于每个局部都采用三种编码,即:word embedding、position embedding、segment embedding,即:,图像的标签特征为:

    图像特征表示为:,最后再输入到Transformer中,即:

    Scoring Function

    计算图文相似度采用如下过程:

    先计算每个局部与每个单词的相似度,即:

    采用一个训练的bias和ReLU计算投影,即:

    对所有局部相似度取log并进行累加,即:

    Retriever training

    目标函数为:

    (反向索引那部分没有看的很明白)

    Experiments

  • 相关阅读:
    Flink基础(57):FLINK-SQL函数(20) 内置函数(15)日期函数(二)
    Flink基础(56):FLINK-SQL函数(19)内置函数(14)字符串函数(五)
    位示图算法实现大数据的存储
    位示图算法实现大数据的存储
    JobTracker作业启动过程分析
    mysql 查询优化~ 分页优化讲解
    mysql 原理~ index的详解
    指纹识别开发1.0
    java8 base64编码和解码
    Cow Bowling POJ
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14416243.html
Copyright © 2011-2022 走看看