Alexey Kurakin, Ian J. Goodfellow, Samy Bengio, ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
概
有很多种方法能够生成对抗样本(adversarial samples), 但是真实世界中是否存在这样的对抗样本呢?
主要内容
least likely class adv.
假设(X)为图像(各元素取值为([0,255])), (y_{true})为其标签, (f(X))为一模型, 其输出是一个概率向量, 定义
[y_{LL}:=arg min_i {f(X)_i},
]
故本文的生成adversarial samples的方法是最小化
[J(X,y_{LL}):=-log f(X)_{y_{LL}},
]
则
[X_0^{adv}=X,quad X_{N+1}^{adv}=Clip_{X,epsilon} {X_N^{adv} - alpha mathrm{sign}(X_N^{adv},y_{LL})},
]
其中
[Clip_{X,epsilon}(X'):=min { 255,X+epsilon, max{0,X-epsilon, X'} },
]
即使得(X')落入([0,255])内且, (|X-X'|_{infty} le epsilon).
实验1 l.l.c. adv.的效用
对l.l.c. adv. 和 fgsm, ifgsm进行了比较
实验二
为了探究真实世界是否也存在这样的对抗样本, 作者将图片进行如下操作:
- 打印 ( a )
- 用手机将打印的照片拍照 ( b )
- 对照片进行裁剪找出所需的部分 ( c )
可以把这种操作看成一个变换(T:X ightarrow T(X)), 如果真实世界中也存在对抗样本, 那么原本的adversarial samples 在经过这个变换之后很有可能也具有对抗的性质, 事实上, 实验显示的确, 虽然其对抗的程度有些许下降.
作者构建了一个指标(重构率)来衡量:
其中
(overline{C(X,y)}=1-C(X,y)).
(d)表示经过变换(T)后, adversarial samples 变成普通样本(即不被误判)的比例, 实验显示, 在实验一中表现出色的l.l.c. adv., (d)反而比较高, 作者猜测这是因为这个方法产生的扰动比较精细, 经过(T)变换后, 这部分扰动就容易被抵消.