zoukankan      html  css  js  c++  java
  • Video Object Grounding using Semantic Roles in Language Description

    Video Object Grounding using Semantic Roles in Language Description

    2020-03-25 17:44:59

    Paperhttps://arxiv.org/pdf/2003.10606.pdf 

    Codehttps://github.com/TheShadow29/vognet-pytorch 

     

    1. Background and Motivation

     

    2. The Proposed Method

    2.1. Contrastive Sampling 

    大部分大型的视频数据集,都是来自于互联网,例如 YouTube,其实这种视频在同一个 video 上很少包含同一个目标的多个实例。在这种视频上利用物体检测方法很难解决的很好。为解决这个问题,作者提出一种 two-step contrastive sampling method。首先,对每一个语言描述赋予一个语义角色标签,然后通过替换每一个角色来采样其他的描述,如图 1 和 2 (a) 所示。

     

    在第二步中,作者将样本进行组合。一种简单地组合方法是将每一个 video 单独的进行处理。但是,这种思路无法学习物体之间的关系。另外,作者通过将这些样本在时序(TEMP)和空间维度上(SPAT)进行拼接,以得到新的数据。对于 TEMP,作者将采样的视频进行 resize,以得到相同的宽和高。

     

    2.2. Framework

     

     

    Object Transformer:是一个 transformer 模型,即:在 P*F proposals 上执行 self-attention。

     

    Multi-modal Transformer:作者将 self-attended features 和 language features 进行组合,以得到多模态特征 m。作者采用 self-attention with relative position encoding 得到 self-attended multi-modal feature。然而,由于硬件的限制,在所有的 proposals 上都进行这些操作是非常耗时的。所以,作者每一帧用一次 self-attention。所以,得到的特征然后输入到 2-layered MLP 以得到每一个 proposal-role pair 的预测。

     

    2.3. Relative Position Encoding

    相对位置的编码利用了两个 proposal 之间的相对距离,作为额外的信息进行 attention 操作。作者将 proposal $p_{a, b}$ 的位置进行归一化处理,得到 [xtl, ytl, xbr, ybr, j] with $pos_{a, b} = [xtl/W, ytl/H, xbr/W, ybr/H, j/F]$。作者将 Proposal A 和 B 之间的相对位置编码为: 

     

    假设 Transformer 包含 nl layers 和 nh heads,

     

    作者将其改为了:

     

    需要注意的是: 和  拥有相同的维度,并且可以进行简单的矩阵相加。

     

      

  • 相关阅读:
    win10系统下office 2019激活
    如何根据【抖音分享链接】去掉抖音水印
    Java多线程学习之ThreadLocal源码分析
    Java多线程学习之synchronized总结
    Java多线程学习之线程的取消与中断机制
    Java多线程学习之Lock与ReentranLock详解
    Java多线程学习之线程池源码详解
    MyBatis 一、二级缓存和自定义缓存
    Spring 高级依赖注入方式
    Spring 依赖注入的方式
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/12567690.html
Copyright © 2011-2022 走看看