浏览器如何做购物网站,有关维护营销型网站建设的方法,专业建站公司前景,国外服务器租用网站本文来源公众号“集智书童”#xff0c;仅用于学术分享#xff0c;侵权删#xff0c;干货满满。
原文链接#xff1a;CNN 与 Transformer 的强强联合#xff1a;AResNet-ViT在图像分析中的优势 #xff01;
作者针对残差CNN分支的注意力引导设计进行了消融实验。同时仅用于学术分享侵权删干货满满。
原文链接CNN 与 Transformer 的强强联合AResNet-ViT在图像分析中的优势
作者针对残差CNN分支的注意力引导设计进行了消融实验。同时作者还分别对CNN分支和Transformer分支进行了架构消融实验以及将两个分支结合使用的实验。
此外作者将提出的AResNet-ViT网络与经典分类模型的性能进行了比较并对比了过去三年内发表的三篇论文的结果。
实验结果表明AResNet-ViT网络以其结合CNN和Transformer的结构以及多注意力机制在消融实验和对比实验中均取得了最高的评估指标值包括ACC、TPR、TNR和AUC这些值分别为0.889、0.861、0.896和0.925。
本研究指出CNN和Transformer网络的融合可以有效提高分类模型的性能为超声图像中乳腺结节的良恶性分类提供了一个鲁棒且高效的解决方案。
1 Introduction
乳腺结节可能表现为囊性或实性肿块在乳腺组织中经常遇到是女性中的一种常见病症。这些结节被分为良性或恶性。良性乳腺结节不会对健康造成重大风险而恶性乳腺结节则表明存在癌性增殖从而对女性的整体身心健康构成重大威胁。
定期进行乳腺筛查包括乳房X光摄影、乳腺超声和乳腺磁共振成像MRI在早期发现乳腺结节和诊断乳腺癌方面扮演着关键角色。尽管乳房X光摄影存在较大的辐射暴露和有限的成像角度但它主要用于进一步筛查恶性结节。另一方面MRI成像耗时长且费用高昂不适合常规门诊检查。超声成像具有无辐射、成本低、便捷、快速以及在多角度成像方面的灵活性已成为评估乳腺结节的主要手段[1]。然而超声对乳腺结节的诊断准确性在很大程度上依赖于超声医生的临床经验。因此医生经验水平的差异或视觉疲劳的影响常导致误诊或漏诊。
随着人工智能技术的不断发展研究行人广泛探索了计算机辅助的超声乳腺结节诊断。他们的工作集中在开发智能算法这些算法能够自动识别并区分超声图像中的结节区域为良性或恶性。这些算法利用深度学习和机器学习等技术来训练结节识别和分类的模型。这种AI辅助的诊断方法有望提高基于超声的乳腺结节评估的准确性和效率为临床医生提供可靠的辅助工具以支持临床决策和治疗计划。相反某些恶性结节可能具有清晰的边界和小于1的纵横比这些特征通常与良性结节相符给AI识别带来困难。
在过去的十年中基于深度学习的方法在自然图像分类中取得了显著的成功并在医学图像识别领域引起了广泛关注。特别是在超声乳腺图像分类和识别领域一些研究已经采用了基于CNN的深度学习模型来学习和提取超声图像中乳腺结节的特定特征。2016年Huynh等人[2]使用ImageNet数据集对VGGNet、ResNet和DenseNet进行预处理随后比较了这些网络在乳腺超声图像上的分类性能。2017年Han等人[3]利用GoogLeNet算法来区分良性和恶性的超声乳腺结节。
布莱尔等人[4]在2018年将匹配层引入到预训练的VGG19网络中旨在增强像素强度并提高乳腺结节分类的性能。2019年陈思文等人[5]采用自适应对比度增强ACE方法进行预处理并部署了AlexNet模型来区分乳腺结节的良恶性。齐等人[6]采用具有多尺度 Short-Cut 的深度卷积神经网络以区分超声乳腺恶性结节和实性良性结节。2020年庄等人[7]利用图像分解得到模糊增强和双边滤波的图像丰富了乳腺病变的输入信息并促进了乳腺超声图像的分类。曹等人[8]提出了一种噪声滤波网络NFNet用于结节分类。他们引入了双重softmax层以解决由于人工标记错误或数据质量问题导致的不准确标记问题。2021年卡拉夫等人[9]使用带有注意力机制的VGG16模型来分类乳腺结节的良恶性并结合二元交叉熵和双曲余弦损失来提高分类性能。萨克塞纳等人[10]利用一个增强的、包含12,000张图像的数据集来比较不同方法在乳腺结节分类中的表现。2022年卢等人[11]利用预训练的ResNet18结合空间注意力并结合三种不同的循环神经网络RNNs来预测乳腺结节的良恶性。康等人[12]提出了一种多分支网络包括特征提取子模块、分类子模块和像素注意力子模块通过注意力机制提高乳腺结节良恶性的分类。
尽管深度卷积神经网络CNNs与传统分类方法相比在性能和有效性方面取得了显著进展但CNNs主要适合提取局部特征可能在提取全局特征方面存在困难。2020年多索夫茨基等人[13]提出了视觉 Transformer ViT网络该网络利用自注意力机制提取全局特征在图像分类任务中表现出卓越的性能。2021年贝赫纳兹等人[14]采用ViT模型对超声乳腺结节进行分类与卷积神经网络相比取得了更优的结果。这项研究强调了ViT模型在学习乳腺超声图像分类的全局特征方面的有效性。随后其他研究也对原始ViT网络进行了改进专门为乳腺超声图像分类定制[15-18]例如在2023年谢里夫B.[18]提出了一种混合多任务深度神经网络称为Hybrid-MT-ESTAN该网络结合了CNNs和Swin Transformer进行超声乳腺肿瘤的分类和分割。
超声图像中的局部特征捕捉结节的具体细节和特征而全局信息和依赖关系反映了结节与周围组织之间的关系和区别。为了充分利用卷积神经网络CNN在提取局部特征方面的优势以及视觉 Transformer Vision Transformer在提取全局特征方面的能力本研究提出了将CNN与Vision Transformer结合构建分类网络模型。
本研究的主要贡献概括如下
(1) 提出的双分支网络架构命名为AResNet-ViT无缝整合了CNN和Transformer以利用局部和全局特征信息从而显著提高了分类模型的性能。
(2) 设计了用于局部特征提取的注意力引导残差网络AResNet旨在捕捉结节的形状、纹理、边缘和高级语义特征。
(3) 利用视觉 Transformer ViT捕捉超声图像中像素间的全局依赖关系使得能够为结节图像生成全面的全局特征表示。
2 Method
AResNet-ViT的双分支架构如图1所示包含两个分支。网络的上方分支采用由多个注意力引导的残差网络有效捕捉乳腺结节的局部细节和纹理特征。这种能力提高了对结节内部微小变化的敏感性有助于准确判定结节的良恶性。另一方面网络的下方分支采用基于多头自注意力的视觉 Transformer ViT来捕捉结节的整体形状、边界以及结节与周围组织的关系增强了对结节本身和整体图像特征的理解。通过结合并编码从局部特征提取分支和全局依赖特征提取分支中提取的特征网络能够有效利用局部和全局信息提高乳腺结节分类的准确性。网络的每个分支输出一个一维特征随后将这些特征进行拼接并由全连接的多层感知机MLP进行编码。最后通过Sigmoid激活函数获得分类结果。 Local feature extraction
为了提高网络关注并学习超声乳腺结节内部特征的能力作者提出了一种名为AResNet的局部引导注意力基础残差网络作为局部特征提取分支。该架构基于ResNet18框架构建包含四个残差块每个块都融入了注意力机制如图1所示。在残差块1和2的结构中网络强调超声图像中如纹理和边缘等复杂细节。鉴于图像尺寸较大且复杂细节丰富融合空间注意力机制变得至关重要以帮助网络有效捕捉和理解结节内部信息。超声乳腺结节的分割 Mask 提供位置信息并可作为空间注意力的引导。因此在残差块1和2中作者引入了超声乳腺结节分割 Mask 注意力ROI-mask注意力RA[19]。
其中代表输入F(x)表示通过卷积块学习的特征R(x)表示结节 Mask 特征图Y(x)表示在分割 Mask 注意力指导下输出的学习特征而C用于匹配残差块和分割 Mask 图的维度。
残差块3和4基于来自残差块1和2的信息进一步提取高级语义特征。这些块中的每个输出通道代表一个独特的高级语义表示对整体高级语义的贡献各不相同。因此如图2所示在残差块3和4中采用了通道注意力CA模块以增强网络对通道输出的关注并放大信息丰富的通道表示。CA模块对输入特征图进行全局平均池化和全局最大池化操作。两种池化操作得到的的一维特征向量随后被合并并使用多层感知机MLP进行编码。然后将编码结果通过Sigmoid激活函数获取代表每个通道权重的向量。该向量与输入模块的深层特征进行逐元素相乘。该模块的主要目的是为每个通道分配不同的权重从而放大能有效捕捉超声乳腺结节所展现的高级语义特征的通道特定信息。 Global feature extraction
卷积神经网络CNNs主要强调局部感受野进行信息过滤但在处理超声乳房图像时忽视了全局像素 Level 的自相关性。为了增强网络获取全面全局上下文信息的能力本研究引入了一种视觉 Transformer ViT网络该网络利用了多头自注意力机制。如图1的下方分支所示ViT网络提取全局图像特征和像素 Level 的自相关性。该网络由12个 ConCat 的 Transformer 块组成。每个 Transformer 块独立执行自注意力和前馈神经网络操作以迭代地从输入序列中提取特征。这种设计使得模型可以在不同层次上进行多次自注意力和特征提取的迭代从而增强了模型的表现力和性能。
全局特征提取的过程如下首先将大小为224x224的输入图像划分为16x16大小的块。每个图像块通过线性映射转换为一维向量并通过添加位置编码来保留块之间的空间信息。带有位置编码的数据随后被送入 Transformer 块进行逐层操作以执行特征编码。通过结合自注意力机制网络能够捕获图像中不同位置之间的相互依赖关系有助于全面理解整个图像的上下文。这进而提高了网络对超声乳房图像的整体特征和相关性提取的能力。
Loss function and evaluation metrics
2.3.1 Loss function
由于乳腺超声图像分类是一个二元分类任务作者采用了二元交叉熵BCE损失函数如公式2所示。
实验硬件环境如下配备了56核的Intel Xeon(R) CPU E5-2680 v4 2.40GHz处理器两张NVIDIA GeForce RTX 2080Ti GPU显卡每张显卡具有11GB的视频内存。
作者设置了自适应矩估计优化器Adam的训练参数学习率为0.0001批量大小为4。为了防止过拟合作者采用了早停法。具体来说如果在验证数据集上的损失函数连续20次迭代未降低训练将被停止。
Evaluation Metrics
所有实验的性能均通过准确率ACC、真正率TPR、真负率TNR和曲线下面积AUC进行评估。准确率提供了对模型分类性能的整体评价。真正率代表了将恶性结节正确分类为恶性的概率。真负率代表了将良性结节准确标记为良性的概率。曲线下面积测量的是接收者操作特征ROC曲线下的区域其中真正率在垂直轴上假正率FPR在水平轴上。AUC值介于0到1之间值越高表示分类性能越好。这些评估指标在公式3至5中定义。 其中TP表示真实标签为乳腺病变并被分类为乳腺病变的像素数量TN表示真实标签为非乳腺病变并被分类为非乳腺病变的像素数量FP表示真实标签为非乳腺病变但被分类为乳腺病变的像素数量FN表示真实标签为乳腺病变但被分类为非乳腺病变的像素数量。
所有实验的性能评估采用了准确率ACC、真正率TPR、真负率TNR和曲线下面积AUC。准确率全面反映了模型的分类表现。真正率表示将恶性结节正确识别为恶性的概率。真负率则表示将良性结节准确标记为良性的概率。曲线下面积AUC是接收者操作特征ROC曲线下的区域真正率在纵轴上假正率FPR在横轴上。AUC的值介于0到1之间数值越高分类性能越好。这些评估指标在公式3至5中给出定义。
其中TP是指被正确分类为乳腺病变的真实乳腺病变像素数量TN是指被正确分类为非乳腺病变的真实非乳腺病变像素数量FP是指被错误分类为乳腺病变的真实非乳腺病变像素数量FN是指被错误分类为非乳腺病变的真实乳腺病变像素数量。
Ablation experiments
3.3.1 Effectiveness of the attention mechanism
为了验证注意力引导模块的合理性和有效性进行了五组消融实验相应的结果如表1所示。网络1指的是未添加任何注意力的ResNet18网络。网络2在ResNet18网络的前两个残差块完成后加入分割 Mask 注意力而网络3在最后两个残差块完成后加入分割 Mask 注意力。网络4在ResNet18网络的所有残差块完成后集成分割 Mask 注意力。最后网络5在网络2的基础上进一步在最后两个残差块完成后加入通道注意力。所有实验使用同一组参数。
3.3.2 双分支架构的有效性
为了评估双分支架构中每个单独分支以及组合架构在超声乳腺结节分类中的性能针对四个实验组进行了消融实验。第一组仅使用ResNet18网络进行分类第二组采用ViT网络对良性及恶性乳腺结节进行分类。第三组使用ResNetA网络在ResNet18网络的前两个残差块后加入分割 Mask 注意力机制并在最后两个残差块后加入通道注意力进行乳腺结节分类实验。第四组和第五组基于ViT网络架构并并行融合ResNet网络和AResNet网络以分类良性及恶性乳腺结节。消融实验的结果如表2所示。 从表2可以看出单一网络ResNet18或ViT的性能指标低于ResNet18和ViT的组合ResNetViT网络这说明网络集成可以学习到更与乳腺结节相关的特征。此外与ResNet18分类网络相比AResNet分类网络在准确度ACC、真正率TPR、真负率TNR和曲线下面积AUC上分别提高了0.061、0.072、0.062和0.066这表明AResNet分类网络在引导和学习结节区域特征方面表现更优。同时AResNet和ViT的并行融合进一步提升了性能指标尤其是在TNR上改进最为显著。这表明AResNet-ViT模型在识别表现为恶性但实际上是良性的样本方面具有更高的识别能力这对于临床诊断至关重要因为它们是最容易误判的情况。
The heat-maps of classification results
图3展示了使用AResNet-ViT模型获得的测试样本的视觉分类结果其中顶部一行显示原始的超声乳腺结节图像底部一行呈现的是AResNet-ViT模型生成的特征注意力 Heatmap 。特征注意力 Heatmap 为输入数据的每个位置分配权重指示模型更关注的区域或特征。这种可视化使作者能够识别输入数据中模型认为最重要的特定区域。从图中可以看出结节区域受到了模型的主要关注这体现在 Heatmap 中的高权重区域。
此外在乳腺超声图像中当结节内部的超声特征与周围组织相似时模型能够准确区分结节区域与背景。同时对于具有重叠表现的良性及恶性结节样本AResNet-ViT模型的预测结果与金标准相符表明模型能够实现精确分类。
对比分析
为了探究AResNet-ViT是否优于现有经典模型以及该领域内其他发表的方法作者进行了对比分析。分析分为两部分首先与四个已确立的经典模型VGG16 [21]ResNet34 [22]DenseNet [23]InceptionV3 [24]进行初步比较随后与三种近期发表的方法进行比较。除参考文献[25]中使用的数据集外包括本研究提出的方法在内的所有其他方法均使用相同的BUSI数据集。
从表3的前四行可以看出与经典模型相比作者的模型在分类结果上表现最为突出这表明在预测结节的良性或恶性性质方面作者的模型优于经典模型。具体而言作者的分类模型显示出更高的真阳性率TPR表明其能够识别更多的病变区域且漏诊率较低。此外与经典模型相比作者的模型显示出更高的真阴性预测值TNP范围在0.054至0.107之间。这意味着作者的模型在分类具有恶性结节特征但实际上为良性的挑战性样本时表现出更高的准确性。 表3的第5-7行展示了与其他文献的比较。文献[26]引入了基于Transformer网络的额外嵌入方法来提高分类性能但作者的方法在所有指标上都表现出更优越的性能。文献[27]采用了双通道输入提取并融合了不同模态的超声乳腺结节图像和乳腺X射线图像的特征。虽然在真阳性率TPR和曲线下面积AUC上略优于作者的方法但其结节分类的准确度ACC较低。此外与文献[25]相比作者的方法在各项指标上也表现出更佳的性能该文献本身也承认在分类具有相似良性和恶性表现形式的挑战性样本时结果不理想。总之作者提出的AResNet-ViT网络在四个评估指标中的准确度ACC、TPR、真阴性率TNR和AUC方面取得了最高性能。
4 讨论
在本研究中作者提出了一种名为AResNet-ViT的混合CNN-Transformer架构用于乳腺超声图像中乳腺结节的良恶性分类。AResNet-ViT模型结合了CNN提取局部特征的能力和Transformer建模全局特征的能力从而实现了更具鉴别性的特征表示以进行准确分类。AResNet-ViT设计有一个双分支架构。其中一个分支专注于使用基于ResNet18框架的残差网络从图像中提取局部细节特征。这一分支包含四个残差块每个块都融入了注意力机制。另一个分支利用视觉TransformerViT进行全局特征提取。作者在残差网络的浅层和深层模块中分别使用分割 Mask 注意力和通道注意力因为残差网络的浅层主要提取低级语义特征更多关注结节位置信息而深层残差网络提取高级语义特征通道权重比结节位置更重要。在残差网络上进行的消融实验验证了同时使用这两种类型的注意力比单独使用分割 Mask 注意力或通道注意力能获得更高的评价指标。
为了评估不同架构在超声乳腺结节分类中的性能进行了消融实验。研究比较了ResNet18、ViT、AResNet带有分割 Mask 和通道注意力的ResNet18以及AResNet与ViT的融合。结果显示ResNet18与ViT的组合ResNetViT优于单个网络表明了网络整合的优势。AResNet在准确度、真阳性率、真阴性率和曲线下面积方面均优于ResNet18。AResNet与ViT的融合进一步提升了性能特别是在识别具有恶性特征但实际上为良性的样本方面这对于准确的临床诊断至关重要。
热力图显示了分类结果表明AResNet-ViT模型即使在结节内部超声特征与周围组织相似的情况下也能准确区分结节区域与背景。这进一步证实了AResNet-ViT模型学习和识别结节区域特定特征的能力显示出其精确的分类性能。与传统的模型以及超声乳腺结节分类领域近期发表的方法相比作者的AResNet-ViT模型在所有评价指标上均表现出色包括准确率(ACC)、真正率(TPR)、真负率(TNR)和曲线下面积(AUC)分别为0.889、0.861、0.896和0.925。结果表明卷积神经网络与 Transformer 混合架构能显著提高超声乳腺结节的分类效果。此外在卷积阶段集成注意力机制能增强局部特征的提取。
尽管作者的方法性能卓越但仍存在一些局限性例如有效训练需要大量数据集。乳腺超声图像复杂个体间差异很大这使得在有限数据情况下构建健壮的分类器变得具有挑战性。未来的工作应集中收集更大且更多样化的数据集以提升模型的泛化能力。另外混合模型的计算复杂度可能较高这使得在实时临床环境中部署变得困难。因此未来的工作还应优化模型以提高计算效率减少推理时间是实际应用中至关重要的。
参考
[1].AResNet-ViT: A Hybrid CNN-Transformer Network for Benign and Malignant Breast Nodule Classification in Ultrasound Images.
THE END !
文章结束感谢阅读。您的点赞收藏评论是我继续更新的动力。大家有推荐的公众号可以评论区留言共同学习一起进步。