zoukankan      html  css  js  c++  java
  • Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

    研究内容:弱监督时域动作定位

    结果:Thumos14 mAP0.5 = 27.0

             ActivityNet1.3 mAP0.5 = 34.5

             从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全监督方法

    Code: GitHub P.S.我在机器上复现始终差一点点

    Motivation: 发现之前的工作没有考虑到背景类别,会将背景帧误分为动作类别,造成大量FP。本文提出了背景抑制网络BaSNet,引入了额外的背景类,两支镜像网络(一支为base网络,一支为用attention抑制背景的suppression网络),实验表明这样设计可以有效抑制背景的影响,从而提高定位的准确性。

    Idea来源: attention模块参考自STPN[2] (CVPR2018) 将fc换成时域卷积,并且与STPN的attention输入为单个clip特征不同本文的attention的输入为视频特征,STPN的作者今年有一篇ICCV2019的工作[3]也是围绕背景建模,在STPN的基础上引入了(1-λ)作为背景类的权重,细节暂且不表

    关于背景建模出现在弱监督时域动作定位领域最早的一篇是"Completeness modeling and context separation for weakly supervised temporal action localization"(CVPR2019)[6]

    这篇文章的主要卖点不是背景这里,但背景类的引入启发了后续的3个工作,本文和上面提到的STPN的强化版,还有特别优秀的LPAT[4](Shou Zheng团队的工作)

    方法

    过去的工作类似base branch没有背景类。作者想引入背景类,如果单纯的直接引入背景类,数据集的设定使得无法找到完全没有背景的负样本用于训练,即每个视频groundtruth背景类别均为1(全是正样本),最后会导致背景类的异常高响应,定位结果很差。

    为了构造背景类的负样本,在另一支网络中引入attention模块(filtering module)抑制背景的响应。整个网络结构使用共享权重的conv模块分别处理两个分支,这两个分支唯一的不同点就是输入(supp分支的输入经过attention处理)和background label(base的背景类为1,supp的背景类为0) 这两点不同。这样做的目标是更好的训练filtering module使其学到前景信息,从而有效过滤并抑制背景的响应。

    MIL分类的 top-k mean 想法源自WTALC[5]的方法

    最后的location模块在测试阶段选取supp分支的输出,后续操作仍然采用多阈值分割后NMS的方式,proposal的confidence score本文借用CMCS[6]的方法:计算proposal区域和边界区域的均值得分之差

    效果图: 

     

    参考文献

    [1] Background Suppression Network for Weakly-supervised Temporal Action Localization (AAAI2020)

    [2] (STPN) Weakly Supervised Action Localization by Sparse Temporal Pooling Network (CVPR 2018)

    [3] Weakly-supervised Action Localization with Background Modeling (ICCV 2019)

    [4] LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization (arxiv 2019)

    [5] W-TALC: Weakly-supervised Temporal Activity Localization and Classification (ECCV 2018)

    [6] (CMCS) Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization (CVPR 2019)

  • 相关阅读:
    详解log4j2(下)
    linux编译相关知识
    vi/vim正则表达式
    红黑树学习
    转行做程序员之前必须考虑的三件事
    工作十年,你为什么依然没有成为专家
    __sync_fetch_and_add
    STL容器的本质
    学习hash_map从而了解如何写stl里面的hash函数和equal或者compare函数
    c++ union学习
  • 原文地址:https://www.cnblogs.com/demian/p/12052354.html
Copyright © 2011-2022 走看看