zoukankan      html  css  js  c++  java
  • Video Object Grounding using Semantic Roles in Language Description

    Video Object Grounding using Semantic Roles in Language Description

    2020-03-25 17:44:59

    Paperhttps://arxiv.org/pdf/2003.10606.pdf 

    Codehttps://github.com/TheShadow29/vognet-pytorch 

     

    1. Background and Motivation

     

    2. The Proposed Method

    2.1. Contrastive Sampling 

    大部分大型的视频数据集,都是来自于互联网,例如 YouTube,其实这种视频在同一个 video 上很少包含同一个目标的多个实例。在这种视频上利用物体检测方法很难解决的很好。为解决这个问题,作者提出一种 two-step contrastive sampling method。首先,对每一个语言描述赋予一个语义角色标签,然后通过替换每一个角色来采样其他的描述,如图 1 和 2 (a) 所示。

     

    在第二步中,作者将样本进行组合。一种简单地组合方法是将每一个 video 单独的进行处理。但是,这种思路无法学习物体之间的关系。另外,作者通过将这些样本在时序(TEMP)和空间维度上(SPAT)进行拼接,以得到新的数据。对于 TEMP,作者将采样的视频进行 resize,以得到相同的宽和高。

     

    2.2. Framework

     

     

    Object Transformer:是一个 transformer 模型,即:在 P*F proposals 上执行 self-attention。

     

    Multi-modal Transformer:作者将 self-attended features 和 language features 进行组合,以得到多模态特征 m。作者采用 self-attention with relative position encoding 得到 self-attended multi-modal feature。然而,由于硬件的限制,在所有的 proposals 上都进行这些操作是非常耗时的。所以,作者每一帧用一次 self-attention。所以,得到的特征然后输入到 2-layered MLP 以得到每一个 proposal-role pair 的预测。

     

    2.3. Relative Position Encoding

    相对位置的编码利用了两个 proposal 之间的相对距离,作为额外的信息进行 attention 操作。作者将 proposal $p_{a, b}$ 的位置进行归一化处理,得到 [xtl, ytl, xbr, ybr, j] with $pos_{a, b} = [xtl/W, ytl/H, xbr/W, ybr/H, j/F]$。作者将 Proposal A 和 B 之间的相对位置编码为: 

     

    假设 Transformer 包含 nl layers 和 nh heads,

     

    作者将其改为了:

     

    需要注意的是: 和  拥有相同的维度,并且可以进行简单的矩阵相加。

     

      

  • 相关阅读:
    win10- *.msi 软件的安装,比如 SVN安装报2503,2502
    Java-byte[]与16进制字符串互转
    log4j 日志脱敏处理 + java properties文件加载
    CentOS7编译安装SVN(subversion1.9.7)
    Samba安装与配置
    php 实现redis发布订阅消息及时通讯
    PHP中使用ActiveMQ实现消息队列
    sphinx 配置文件全解析
    nginx和apache 配置
    php实现汉诺塔问题
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/12567690.html
Copyright © 2011-2022 走看看