其实是一种混淆梯度的方式,增加训练时间,让神经网络拟合正常样本和有扰动的样本,这样,它要记忆一个in-distribution的数据分布以及一个perturbation的数据分布。
对抗训练(Adversarial Training),顾名思义,就是在训练过程中产生一些攻击样本,早期是FGSM和I-FGSM攻击,目前当前最优的攻击手段是PGD。
对抗训练主要是一种博弈训练的方式,借鉴了强化学习的思路,最大化扰动的同时最小化对抗期望风险。
对抗训练,相当于是加了一层正则化,给神经网络的随机梯度优化限制了一个李普希茨的约束。
传统上认为,这个训练方式会牺牲掉一定的测试精度,因为卷积模型关注局部特性,会学到一些敏感于扰动的特征,对抗训练是一种去伪存真的过程,这是目前像素识别的视觉算法的局限性。
目前来看,Cihang Xie的工作,比较有意思。
Adversarial Examples Improve Image Recognition提出了一种分离的auxilary batch norm(辅助批归一化)方法,将正常样本和扰动的对抗样本用auxilary bn进行训练,得到了不错的效果。
Smooth Adversarial Training认为传统的ReLU函数在对抗训练里会严重拖后腿,所以提出了一个新的激活函数SmoothReLU。
原生的Adversarial Training,工程上不太友善,很多工作很需要改进。泛化性的数据增强技巧,可以解决一部分问题,但并不能覆盖所有对抗样本的防御。
一些质疑的观点包括:
F. Tramèr, A. Kurakin, N. Papernot, I. Goodfellow, D. Boneh, and P. McDaniel, “Ensemble adversarial training: Attacks and defenses,” in International Conference on Learning Representations, 2018. [Online]. Available: https://openreview.net/forum?id=rkZvSe-RZ
Tramer讨论了基于FGSM的对抗性训练模型会导致梯度掩蔽。 这篇论文指出,存在许多正交对抗性方向,局部损失梯度不一定转化为模型的全局损失最大的方向。 机器学习社区内有一些自满的情绪,错误地认为对抗性训练的模型对看不见的对抗性例子是强大的。加随机化会缓解这种梯度遮蔽现象,但这篇论文可能倒置了因果关系,FGSM的这个虚拟对手毕竟不是PGD和C&W攻击。
A. Athalye, N. Carlini, and D. Wagner, “Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples,” in Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Jul. 2018. [Online]. Available: https:// arxiv.org/abs/1802.0042 0
We identify obfuscated gradients, a kind of gradi- ent masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimization- based attacks, we find defenses relying on this effect can be circumvented. We describe charac- teristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gra- dients we discover, we develop attack techniques to overcome it. In a case study, examining non- certified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occur- rence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circum- vent 6 completely, and 1 partially, in the original threat model each paper considers.
又是一篇争议非常大的论文,论文指出,大部分的对抗防御依赖于混淆模型梯度的机制,例如使用不可微的预处理函数或不可微网络层。 只要使用他们在论文里提出的后向传递微分逼近(BPDA)策略,就能通过利用可微逼近对防御模型进行有意义的对抗性梯度估计来修改对抗性攻击以绕过防御。一个简单的BPDA特例应用了Bengio组2013年Straight-Through Estimator的思想:假设对抗性防御预处理每个输入x使用非可微变换g(X),并且g(X)≈x在某些局部邻域内(假设g(·)是平滑函数)。 然后,在对抗攻击中,人们可以简单地用恒等函数近似其梯度。 不少防御方法,比如比特深度约简、JPEG压缩、总方差最小化和quilting-based的防御,也因此是脆弱而不堪一击的。更一般地,BPDA的工作是找到一个不可微预处理转换g(·)或一个不可微网络层的可微近似,可以通过工程方式获取。 只要这两个函数相似,对抗性扰动仍然可以通过使用反向传播过程中近似形式的不精确导数来发现,尽管可能需要更多的攻击迭代,骗过防御方法。 然而,作者指出,前向传播仍然应该使用原始的不可微变换g(·)来获得真实的损失值,否则攻击的有效性可能会大大降低。