zoukankan      html  css  js  c++  java
  • Physical Adversarial Textures That Fool Visual Object Tracking

    Physical Adversarial Textures That Fool Visual Object Tracking

    2020-02-24 23:35:19

    Paper: ICCV-2019 

    Related Works: 

    1). SPARK: Spatial-aware Online Incremental Attack Against Visual Tracking [Paper

    2). Defense-GAN: Protecting Classifiers against Adversarial Attacks using Generative Models [Paper] [Code

    3). STA: Adversarial Attacks on Siamese Trackers [Paper

    4). Universal Adversarial Attack on Attention and the Resulting Dataset DAmageNet [Paper

     

    1. Background and Motivation

    本文是首次将对抗攻击技术用于攻击 visual tracker。本文提出一种对抗纹理(Physical Adversarial Textures (PAT)),并且成功的攻击了基于回归的跟踪器 GOTURN。作者认为攻击一个 tracking 系统相比与 classification 或者 detection models 是更加有挑战的。因为 tracker 会适应物体外观的变换,一个 adversary 必须能够在物体移动和变化后足够 general。此外,像 GOTURN 这种 tracker 仅仅考虑到整帧的一个子区域,所以,only a small part of the PAT may be in view and not obstructed, yet it must still be potent。另外,在任何一帧仅仅让 BBox 稍微的偏差一些,并不能让 tracker 失效。鲁棒的 adversaries 必须能够让跟踪系统无法很好地跟住目标物体。

     

    总体来说,本文的贡献可以分为如下几个方面:

    1)首次展示了 adversaries 对序列跟踪任务的影响,影响了诸如视频监控,无人机领域,以及自动驾驶;

    2)提出了“Guided adversarial losses” 的概念,which strikes a middle-ground between targeted and non-targeted adversarial objectives, 实验证明可以增强收敛性和对抗强度;

    3)研究了 Expectation Over Transformation (EOT),

    4)用 non-photorealistic simulator and diffuse-only materials 展示了 PATs的 sim-to-real 的迁移能力;

     

     

    2. Object Tracking Networks

    现阶段,很多基于学习方法的跟踪算法被设计出来,例如 GOTURN。其他的跟踪方法,如基于特征空间交叉滤波的方法,tracking-by-detection 的方法也可以,但是本文聚焦于 GOTURN 模型来验证本文方法的有效性。

    如图2 所示,给定一个目标的在 第 $f_{j-1}$ 帧的 BBox 位置,GOTURN 从该帧中抠出模板图像块。在当前帧也会抠出一个搜索区域来进行目标的定位。这两个图像块都会被resize 成 227*227,然后输入到 CNN 中;然后得到的 feature 进行拼接后,输入到 fc 层 得到当前帧预测的目标位置。对于 GOTURN 的具体细节可以参考博文

     

    3. Attacking Regression Networks

    对于分类任务,一个对抗样本被定义为:a slightly-perturbed version of a source image,并且需要满足两个条件:

    adversarial output --- 被攻击的模型将正确的 label 误分类了。

    perceptual similarity --- 生成的对抗样本要人眼看起来和 source image 几乎无差别。

    当攻击 regression 任务的时候,作者讨论了一些必要的调整。当然前人已经有相关的对抗的算法来攻击 regression task,但是仍然缺乏对抗样本强度和属性的相关分析(原文说的是: there is still a general lack of analysis on the strength and properties of adversaries a function of different attack objectives)。在这个工作中,作者考虑了不同的方法来优化,并且形成了一种新的 guided adversarial losses. 

     

    3.1. Adversarial Strength

    Typically, a regression output is characterized as adversarial by thresholding a task-specific error metric。该 metric 可能被用于度量对抗强度(adversarial strength)。例如,对于人体姿态估计的对抗可以被量化为:预测的结果和真值之间的误差比例。当愚弄 visual tracker 的时候,最终的目标是随着时间破坏跟踪目标的位置。所以,我们考虑一端视频 F = [f1, f2, ... , fN],其中目标是在包含对抗纹理 X 的视频上进行移动,并且通过量化 tracker prediction 和 GT 之间的重合度来量化对抗强度。在这个文章中,作者将对抗强度定义为:averaging the mean-Intersection-Over-Union-difference metric, $mu IOU d$:

     

     

    3.2. Perceptual Similarity

    感知相似性通常用 source image 和 perturbed variant 之间的距离来衡量,即:using Euclidean norm in the RGB colorspace。利用本文的工作,作者想提出一种认知:外观的艺术对于视觉模型来说是有害的(colorful-looking art can be harmful to vision model)。

     

    3.3. Optimizing for Adversarial Behaviors

    本文利用了多种损失函数来优化对抗样本:

    1). the baseline non-targeted loss: maximizes the victim model's training loss, thus causing it to become generally confused; 

    2). targeted losses also apply the victim model's training loss, but to minimize the distance to an adversarial target output; 

    3). guided losses: middle-grounds between non-targeted loss and targeted losses

    4). hybrid losses: use a weighted linear combination of the above losses to gain adversarial strength and speed up the attack. 

     

    为了愚弄 object tracker,作者考虑了这些特定的损失:

      

    其中,Lps 是 Lagrangian-relaxed loss,作者用这个 loss 主要是增强 perceptual similarity。

    4. Physical Adversarial Textures

    在本节,作者主要是讨论了如何利用上述方式的攻击来产生 Physical Adversarial Textures(PAT)。这种 PATs 出现在 digital poster,在跟踪的目标附近被捕获时,会导致受害的模型丢失所跟踪的目标。在这个工作中,作者对 GOTURN 算法进行白盒攻击 white-box attack,即:可以访问到 GOTURN 网络的权重,所以可以进行反传。本文聚焦于跟踪行人和仿真机器人,并且假设 tracker 是在这些特定的类别上进行训练的。

    作者用 Expectation Over Transformation algorithm(EOT)来解决愚弄时序跟踪模型的几个挑战,which minimizes the expected loss E[L] over a minibatch of B scenes imaged under diverse conditions。

    4.1. Modeling rendering and lighting 

    为了优化对应 physical poster 纹理的损失,作者用 rendering process 来求导。Rendering 可以简单的分为两个步骤:

    projecting the texture onto the surface of a physical item and then onto the camera's frame, and 

    shading the color of each frame pixel depending on light sources and material types. 

    4.2. PAT Attack

     

    5. Experiments

     

  • 相关阅读:
    Intel汇编语言程序设计学习-第三章 汇编语言基础-中
    Intel汇编语言程序设计学习-第三章 汇编语言基础-上
    对支付链接的加密处理 面向接口编程
    编制预算的四个好方法
    Twitter欲以10亿美元收购Flipboard 双方未置评
    分手决策——合伙人离婚时怎样保护你的公司
    领导力须突破命令控制式管理
    腾讯首席探索官建言创业者:尽可能留住早期员工
    人力资本管理的坏习惯
    我们在培训领导者这件事上行动迟缓
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/12359642.html
Copyright © 2011-2022 走看看