什么公司会招网站建设,网站seo文章该怎么写,广州营销型网站建设培训,自己做的网站加载很难深度学习中的后门攻击综述 1.深度学习模型三种攻击范式1.1.对抗样本攻击1.2.数据投毒攻击1.3.后门攻击 2.后门攻击特点3.常用术语和标记4.常用评估指标5.攻击设置5.1.触发器5.1.1.触发器属性5.1.2.触发器类型5.1.3.攻击类型 5.2.目标类别5.3.训练方式 1.深度学习模型三种攻击范… 深度学习中的后门攻击综述 1.深度学习模型三种攻击范式1.1.对抗样本攻击1.2.数据投毒攻击1.3.后门攻击 2.后门攻击特点3.常用术语和标记4.常用评估指标5.攻击设置5.1.触发器5.1.1.触发器属性5.1.2.触发器类型5.1.3.攻击类型 5.2.目标类别5.3.训练方式 1.深度学习模型三种攻击范式
后门攻击是一种隐秘而具有挑战性的网络安全威胁它指的是攻击者利用漏洞或特殊访问权限在系统中植入隐藏的访问通道。这种方法让攻击者能够在未被发现的情况下进入系统绕过常规的安全控制潜伏在其中进行潜在破坏或数据窃取。在这篇博客文章中我们将深入探讨后门攻击的本质、影响以及防范方法帮助您了解并保护自己免受这种隐秘威胁的影响。
现阶段, 针对深度学习模型的攻击手段主要有对抗样本攻击、数据投毒攻击以及后门攻击三者存在一定的区别如下表所示
攻击类型攻击阶段对模型的影响对抗样本攻击推理阶段欺骗模型模型没有发生变化数据投毒攻击训练阶段破坏模型后门攻击训练阶段诱导模型
1.1.对抗样本攻击
定义 针对一个已经训练好的模型, 希望构造一个能够欺骗模型的样本, 而不会修改和破环已有的模型。
理解 对抗样本攻击是发生在 推理阶段 的一种针对 模型 进行的攻击通过构造 人眼无法察觉 的对抗样本作为推理时模型的输入使模型在推理时发生判断错误。
1.2.数据投毒攻击
定义 使模型的泛化性能变差, 也即在测试集上的效果变差, 模型不能进行有效的学习, 甚至无法收敛。
理解 数据投毒攻击是发生在 训练阶段 的一种针对 模型 进行的攻击。通过训练时掺入一些有毒的训练数据导致模型的泛化性变差即训练时训练的挺好也已经收敛了但在测试集上进行测试时效果就不好了模型没有得到有效的学习。
1.3.后门攻击
定义 使模型学习到攻击者指定的内容, 其对正常样本仍旧具有良好的测试效果, 但对于中毒样本则会输出攻击者预先设定的标签。
理解 后门攻击是发生在 训练阶段 的一种针对 模型 进行的攻击。在训练时同样掺入了一些特殊的训练数据这类数据带有特定的触发器导致模型测试的时候在正常样本上测试效果很多但在特定样本带有触发器的样本上性能会急剧下降。
2.后门攻击特点
复杂性 后门攻击发生在训练阶段涉及更多的步骤包括数据采集、数据预处理、模型构建、模型训练、模型保存、模型部署更多的步骤意味着攻击者有更多的机会模型的安全威胁也更多。
隐蔽性 植入后门的模型对正常样本来说不会表现出异常只有面对带有特定触发器的样本时才会表现出异常因此用户难以察觉。此外后门攻击注入的中毒样本通常非常之少, 仅需 0.5%左右。
实际性: 后门攻击在正常测试集上仍具有良好的效果因此经过后门攻击的模型很大概率会部署并投入使用。
3.常用术语和标记
符号中文解释 x i x_i xi正常样本未经后门攻击的原始数据 x b x_b xb中毒样本通过后门攻击手段得到的样本数据通常是对正常样本进行修改得到的 y i y_i yi源标签正常样本对应的标签 t t t目标标签攻击者所指定的用于埋藏后门的类别标签通常是使模型错误分类的类别 D D D正常数据集不含中毒样本的原始数据集 D b D_b Db中毒数据集含中毒样本的数据集 M M M正常模型通过正常数据集训练的模型 M b M_b Mb中毒模型通过中毒样本训练得到的含有后门的模型 Δ \Delta Δ触发器/后门模式后门攻击中用来生成中毒样本和激活模型后门的一种模式
4.常用评估指标
对于深度学习模型中的后门攻击来说, 主要通过以下三个指标进行评估。 攻击成功率 (Attack Success Rate, ASR) 指成功使模型误分类为目标类别的中毒样本所占的比例。 准确率下降 (Accuracy Decline, AD) 指模型在后门攻击前后对于正常样本预测准确率的下降值。 攻击隐匿性 (Attack Stealthiness, AS) 指后门攻击方法躲避人类视觉检查以及一些检测方法的能力。
注意
ASR 和 AD 针对模型的表现而言通常来说模型经过后门攻击后对于正常样本预测的准确率会有所下降, 而准确率下降越少越不易引起使用者或防御者的察觉模型也会更可能部署使用。因此攻击者希望尽可能减小对模型正常性能的损害, 使 ASR 尽量高而 AD 尽量低。AS 则从攻击方法本身的隐蔽性或不可见性出发对后门攻击方法的设计提出要求。为了躲避人类视觉检查或一些检测方法通常需要对触发器的形状、 大小、透明度以及投毒率等进行限制。为了量化体现 AS可以定义例如数值变化率、结构相似性等指标进行评估。
5.攻击设置
5.1.触发器
5.1.1.触发器属性
触发器属性包括大小、形状、位置、透明度。
5.1.2.触发器类型
触发器类型主要包括确定图案、动态图案、良性特征。
确定图案 使用攻击者设计的固定图案作为触发器。动态图案 具有输入感知功能的攻击方式可以根据不同输入产生不同图案的触发器。良性特征 不植入额外特征使用原数据本身具有的良性特征作为触发器例如人脸面部特征。
5.1.3.攻击类型
单对单攻击 指单个触发器激活单类目标后门。多对单攻击 使用多个触发器, 当多个触发器同时触发时才激活某单类目标的后门。单对多攻击 使用同一触发器, 根据不同的触发强度来激活不同目标的后门。
5.2.目标类别
单对单攻击: 仅使某一类别的数据在添加触发器后被分类为目标类别其他类别添加触发器 后仍正常分类。单对单攻击希望模型学习某一类数据和触发器的特征组合与目标标签之间的联系。举例自动驾驶物体分类领域只针对“行人”这一个类别进行攻击添加了触发器之后使“行人”类别进行了错误分类但汽车、交通灯等类别分类则没有发生变化。多对单攻击: 使所有或多个类别的数据如“行人”、“汽车”两个类别在添加触发器后被分类为目标类别。多对单攻击则希望模型学习触发器本身的特征, 从而使模型对所有带有触发器的数据都按照预定的标签输出。
5.3.训练方式
从头训练 使用中毒数据集对模型从零开 进行训练, 通常耗时较长, 但效果通常较好。微调 使用中毒数据集对已在正常数据集上训练好的模型进行重训练耗时较短但有时效果 一般。不训练 直接篡改模型参数达到与训练注入后门同样的效果。