做ppt的模板的网站,wordpress 新闻页面,广州市白云区网站建设,外贸网站建站要多少钱前言
本文分享一个基于扩散模型的多类别异常检测框架#xff0c;用于检测工业场景的缺陷检测或异常检测。
设计SG语义引导网络#xff0c;在重建过程中有效保持输入图像的语义信息#xff0c;解决了LDM在多类别异常检测中的语义信息丢失问题。高效重建#xff0c;通过在潜…前言
本文分享一个基于扩散模型的多类别异常检测框架用于检测工业场景的缺陷检测或异常检测。
设计SG语义引导网络在重建过程中有效保持输入图像的语义信息解决了LDM在多类别异常检测中的语义信息丢失问题。高效重建通过在潜在空间中进行扩散和去噪操作增强了模型在处理复杂结构和大规模缺陷时的重建能力。
同时分析基础扩散模型DDPM和LDM对比设计原理和效果。
论文地址DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection
代码地址https://github.com/lewandofskee/DiAD 一、基于扩散模型的物体重建与异常检测
如下图所示是三个扩散模型的模型结构以及物体重建和修复的效果对比。
DDPMDenoising Diffusion Probabilistic Model去噪网络由编码器E和解码器D组成。LDMLatent Diffusion Model去噪网络在编码器和解码器之间引入了潜在变量进行引导。DiAD在编码器和解码器之间引入了语义引导网络SG网络和空间感知特征融合SFF模块。DDPM和LDM在多类别异常检测中存在问题类别错误和语义错误。 二、基础扩散模型
1去噪扩散概率模型DDPM
DDPM全称是Denoising Diffusion Probabilistic Model由两个过程组成前向扩散过程和反向去噪过程。
前向扩散过程
在前向过程中噪声样本通过马尔科夫链逐步向初始数据样本0 添加高斯分布的噪声。公式表示 反向去噪过程
首先从前向扩散中采集得到真实噪声标签然后根据模型预测ϵθ(xt,t)逐步从反向重建 −1。公式如下所示 其中∼(0,) 是与方差调度相关的固定常数。DDPM使用U-Net网络来预测分布。
2潜在扩散模型LDM
LDM全称为Latent Diffusion Model关注低维潜在空间的条件生成机制。
图像通过编码器压缩扩散和去噪操作在潜在表示空间中进行随后通过解码器重建到原始像素空间。
关键模块
预训练自编码器用于压缩图像提取特征得到的特征图送进后续去噪U-Net网络。去噪U-Net具有注意力机制的网络在潜在表示空间进行扩散和去噪操作然后通过解码器重建图像。
流程思路 LDM的训练优化目标为 其中 c表示条件机制如文本或图像通过交叉注意力机制连接到模型表示潜在空间变量。
3DDPM和LDM总结
DDPM
通过前向扩散过程将噪声逐步添加到图像反向去噪过程通过马尔科夫链逐步重建图像。使用U-Net网络预测噪声优化模型参数以最小化预测误差。
LDM
通过预训练自编码器将图像压缩到潜在空间在潜在空间中进行扩散和去噪操作然后通过解码器重建图像。使用条件机制如文本或图像作为输入通过交叉注意力机制增强模型的生成能力。
改进点
DiAD框架通过引入语义引导网络和空间感知特征融合模块解决了现有扩散模型在多类别异常检测中的不足提高了模型在复杂纹理和大规模缺陷重建中的性能。 三、背景
视觉异常检测的目标是确定异常图像并准确定位异常区域。
现有模型的局限性
现有的异常检测模型大多对应单一类别这需要大量的存储空间和训练时间且随着类别数量的增加这一需求会更大。迫切需要一种鲁棒且稳定的无监督多类别异常检测模型。
异常检测主流方法分类
合成类synthesizing-based通过合成正常样本来学习分布然后在测试阶段重建异常区域。嵌入类embedding-based通过embedding技术学习正常样本的特征分布用于检测异常。重建类reconstruction-based在训练阶段模型只学习正常图像。在测试阶段模型重建异常图像为正常图像通过对比重建图像与输入图像可以确定异常的位置。
传统重建类方法
包括自编码器AEs、变分自编码器VAEs和生成对抗网络GANs这些方法可以学习正常样本的分布并在测试阶段重建异常区域。这些模型的重建能力有限无法很好地重建复杂的纹理和物体尤其是大规模缺陷或消失的情况。
扩散模型
扩散模型如DDPM和LDM展示了其强大的图像生成能力。存在的局限性当前的扩散模型无法有效解决多类别异常检测问题。
DDPM的局限性
问题在多类别设置下可能会出现生成图像类别错误的问题。原因在输入图像中添加T步噪声后图像丧失了原始类别信息。在推理过程中去噪基于高斯噪声分布进行这可能生成属于不同类别的样本。
LDM的局限性
问题虽然LDM作为类条件嵌入特征不存在DDPM中的类别误分类问题但在生成图像中仍存在语义信息丢失的问题。原因LDM无法同时保留输入图像的语义信息和重建异常区域可能导致生成的图像与输入图像在方向一致性和细节上存在显著差异。 四、模型框架
DiAD的模型框架如下图所示 SG语义引导网络
包括一系列编码块SGEB和解码块SGDB以及一个空间感知特征融合SFF模块。输入包括两部分图像0、潜在变量经过扩散前向过程后的特征。扩散过程SG网络在不同尺度下处理噪声并通过SFF模块融合特征确保重建过程中保留语义信息。
SD去噪网络
输入具有噪声的潜在变量、和SG网络输出语义特性信息。在潜在空间中进行扩散和去噪操作。 过去噪块SDEB和SDDB逐步去除噪声最终重建潜在表示^。
异常检测模块只在推理阶段运行
预训练特征提取器 处理输入图像0和重建图像 0^。特征提取从不同尺度提取特征图 1,2,3。异常评分通过计算重建图像和输入图像在不同尺度特征上的差异生成异常评分图S。 五、创新点——SG语义引导网络
输入变换
输入原始图像0被一组卷积-SiLU层转换为具有与潜在表示相同维度的表示 。然后和 的和被输入到SG编码块中。
流程思路
通过编码器的连续下采样结果最终被添加到中间块的输出中。中间块在完成中间处理后其结果被添加到SD解码器的输出中。为了应对不同场景和类别的多类别任务SG解码块的结果也被添加到SD解码器的输出中并结合SFF块共同处理。 SFF设计背景
在多类别异常检测中数据集包含各种类型的对象和纹理。对于与纹理相关的情况异常通常较小因此需要保留原始纹理。而在对象相关的情况下缺陷往往覆盖较大区域要求更强的重建能力。因此挑战在于如何同时保留原始样本的正常信息并重建大规模异常区域。
SFF的提出
为了应对这些挑战提出了空间感知特征融合块SFF其目标是将高尺度的语义信息 集成到低尺度中。这样可以同时保留原始正常样本的信息并重建大规模异常区域。
结构如下图所示每个SGEB块由三层子层组成。 SFF块将SGEB3中每一层的特征融合到SGEB4中的每一层中并将融合的特征添加到原始特征中。SFF块通过将高尺度的语义信息集成到低尺度中实现了对原始正常样本信息的保留和大规模异常区域的重建。 六、核心内容——去噪网络
去噪网络组成
预训练SD去噪网络包括四个编码块、一个中间块和四个解码块。SG语义引导网络复制SD网络参数以初始化并在结构上与其类似。
工作原理 去噪网络的输出被定义为 特点
语义一致性通过引入SG网络在重建过程中有效保持输入图像的语义信息解决了LDM在多类别异常检测中的语义信息丢失问题。 多类别适应性通过结合SFF块和SG解码块应对不同场景和类别的多类别任务提高了模型的灵活性和鲁棒性。高效重建通过在潜在空间中进行扩散和去噪操作增强了模型在处理复杂结构和大规模缺陷时的重建能力。 七、核心内容——异常定位和检测
通过多尺度特征提取和余弦相似度计算DiAD框架能够有效地进行异常定位和检测。
推理阶段
在推理阶段通过扩散和去噪过程在潜在空间中获得重建图像 ^0。为了进行异常定位和检测使用相同的ImageNet预训练特征提取器来提取输入图像0和重建图像^0 的特征并在不同尺度的特征图上计算异常图。 方法优点
多尺度特征融合通过在不同尺度上提取特征并计算异常图模型能够更全面地检测和定位异常。余弦相似度度量使用余弦相似度作为度量标准通过计算输入图像和重建图像特征向量之间的夹角精确衡量它们的相似性。权重融合综合不同特征层的异常图根据每层特征的重要性赋予不同的权重最终计算出综合异常得分。 八、模型细节设计
数据处理
图像尺寸所有MVTec-AD和VisA数据集的图像都调整为256 x 256的大小。去噪网络使用第4层SGDBSemantic-Guided Decoder Block与SDDBStable Diffusion Decoder Block连接。特征提取网络采用ResNet50作为特征提取网络选择第 层特征用于计算异常定位其中 ∈{2,3,4}。
模型训练
自编码器微调在训练去噪网络之前使用KL方法对自编码器进行微调。训练细节 训练1000个epoch。使用单个NVIDIA Tesla V100 32GB GPU。批量大小为12。优化器Adam学习率设置为 1−5。
平滑和异常得分计算
平滑方法使用高斯滤波器标准差 5对异常定位得分进行平滑。异常检测图像的异常得分为经过8轮8 x 8大小全局平均池化操作后的最大值。
推理过程
去噪时间步初始去噪时间步设置为1000。采样策略使用DDIM采样器默认10步。 九、模型效果
数据集和评估指标
1. MVTec-AD 数据集
描述MVTec-AD数据集模拟了真实世界的工业生产场景填补了无监督异常检测领域的空白。数据集包含5种纹理和10种对象共5,354张高分辨率图像。训练集包含3,629张无异常的样本图像。测试集包含1,725张图像包括正常样本和异常样本。标注提供像素级标注用于异常定位评估。
2. VisA 数据集
描述VisA数据集包含10,821张高分辨率图像其中9,621张是正常图像1,200张是包含78种类型异常的图像。结构数据集包括12个子集每个子集对应一个独特的对象。12个对象可分类为三种不同的对象类型复杂结构、多实例和单实例。
3. MVTec-3D 数据集
描述MVTec-3D数据集包含使用高分辨率工业3D传感器获取的4,147张扫描图像包含10个类别的RGB图像和3D点云。训练集包含2,656张无异常的样本图像。测试集包含1,197张图像包括正常样本和异常样本。仅使用RGB图像进行实验。
4. Medical 数据集
描述合并了BraTS2021、BTCV和LiTS三个医疗数据集用于多类别异常检测。训练集包含9,042个切片。测试集包含5,208个切片。
评估指标
AUROCArea Under the Receiver Operating Characteristic Curve用于评估图像级异常检测和像素级异常定位的指标。APAverage Precision用于评估检测结果的平均精度。F1max用于评估检测和定位结果的最大F1得分。PROPer-Region Overlap用于评估异常定位的指标。DICE在医学领域常用的指标用于评估检测结果的准确性。 MVTec-AD数据集上与SOTA方法进行比较
使用 AUROCcls/APcls/F1maxcls 指标进行多类异常检测。 MVTec-AD数据集测试效果对比 数据集测试 使用AU ROC指标进 DiAD设计的消融研究 VisA数据集测试效果对比 MVTec-AD数据集上异常定位的定性比较结果 示例2 示例3 VisA 数据集异常定位的定性比较结果 分享完成~
后续分析更多工业异常检测、缺陷检测的技术方案。