基于通用逆扰动的对抗攻击防御方法

现有研究表明深度学习模型容易受到精心设计的对抗样本攻击,从而导致模型给出错误的推理结果,引发潜在的安全威胁.已有较多有效的防御方法,其中大多数针对特定攻击方法具有较好防御效果,但由于实际应用中无法预知攻击者可能采用的攻击策略,因此提出不依赖攻击方法的通用防御方法是一个挑战.为此,提出一种基于通用逆扰动(Universal inverse perturbation,UIP)的对抗样本防御方法,通过学习原始数据集中的类相关主要特征,生成通用逆扰动,且UIP对数据样本和攻击方法都具有通用性,即一个UIP可以实现对不同攻击方法作用于整个数据集得到的所有对抗样本进行防御.此外,UIP通过强化良性样本的类...

Full description

Saved in:
Bibliographic Details
Published in自动化学报 Vol. 49; no. 10; pp. 2172 - 2187
Main Authors 陈晋音, 吴长安, 郑海斌, 王巍, 温浩
Format Journal Article
LanguageChinese
Published 浙江工业大学信息工程学院 杭州 310023%浙江工业大学信息工程学院 杭州 310023%中国电子科技集团公司第三十六研究所 嘉兴 314001%重庆中科云从科技有限公司 重庆 401120 2023
浙江工业大学网络空间安全研究院 杭州 310023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:现有研究表明深度学习模型容易受到精心设计的对抗样本攻击,从而导致模型给出错误的推理结果,引发潜在的安全威胁.已有较多有效的防御方法,其中大多数针对特定攻击方法具有较好防御效果,但由于实际应用中无法预知攻击者可能采用的攻击策略,因此提出不依赖攻击方法的通用防御方法是一个挑战.为此,提出一种基于通用逆扰动(Universal inverse perturbation,UIP)的对抗样本防御方法,通过学习原始数据集中的类相关主要特征,生成通用逆扰动,且UIP对数据样本和攻击方法都具有通用性,即一个UIP可以实现对不同攻击方法作用于整个数据集得到的所有对抗样本进行防御.此外,UIP通过强化良性样本的类相关重要特征实现对良性样本精度的无影响,且生成UIP无需对抗样本的先验知识.通过大量实验验证,表明UIP在不同数据集、不同模型中对各类攻击方法都具备显著的防御效果,且提升了模型对正常样本的分类性能.
ISSN:0254-4156
DOI:10.16383/j.aas.c201077