深圳做网站(信科网络),建设一个导航网站,免费网站模板psd,行业发展趋势MIL是弱监督分类问题的有力工具。然而#xff0c;目前的MIL方法通常基于iid假设#xff0c;忽略了不同实例之间的相关性。为了解决这个问题#xff0c;作者提出了一个新的框架#xff0c;称为相关性MIL#xff0c;并提供了收敛性的证明。基于此框架#xff0c;还设计了一…MIL是弱监督分类问题的有力工具。然而目前的MIL方法通常基于iid假设忽略了不同实例之间的相关性。为了解决这个问题作者提出了一个新的框架称为相关性MIL并提供了收敛性的证明。基于此框架还设计了一个基于Transformer的MIL (TransMIL)。TransMIL可以有效地处理不平衡/平衡和二元/多分类具有良好的可视化和可解释性。在CAMELYON16数据集上二元肿瘤分类的测试AUC高达93.09%。在TCGANSCLC和TCGA-RCC数据集上癌症亚型分类的AUC分别高达96.03%和98.82%。
来自TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classification 目录 背景概述方法如何应用Transformer到相关性MIL 背景概述
WSI将活检切片上的组织转换成完全保留原始组织结构的十亿像素图像。然而WSI中基于深度学习的活检诊断由于像素空间庞大导致缺乏像素级标注。为了解决这个问题通常采用MIL将诊断分析作为一个弱监督学习问题。
在基于深度学习的MIL中一个简单的想法是对CNN提取的instance特征嵌入进行pooling操作。Ilse等人提出了一种基于注意力的聚合算子通过可训练的注意力为每个实例提供额外的贡献信息。此外Li将非局部注意力引入了MIL问题。通过计算得分最高的实例与其他实例之间的相似度赋予每个实例不同的注意力权重从而得到可解释的注意力图。
然而所有这些方法都基于这样的假设每个bag中的所有实例都是独立且同分布的。虽然在许多任务中取得了一些改进但在许多情况下这种假设并不完全有效。实际上在做出诊断决定时病理学家通常会同时考虑单个区域周围的环境信息和不同区域之间的相关信息。因此在MIL诊断中考虑不同instance之间的相关性是可取的。
目前Transformer由于具有较强的描述序列中不同token之间的相关性以及对远距离信息建模的能力被广泛应用于视觉任务中。如图1所示Transformer采用自注意力机制可以关注序列内每个token之间的两两相关性。然而传统的Transformer受到其计算复杂性的限制只能处理较短的序列(例如小于1000或512)。因此它不适合WSI等大尺寸图像。
图1决策过程图示。MIL注意力机制遵循iid假设。自注意机制属于相关性MIL。
方法
以二元MIL为例我们想要预测target value Y i ∈ { 0 , 1 } Y_{i}\in\left\{0,1\right\} Yi∈{0,1}给定一个bag X i X_{i} Xiinstance为 { x i , 1 , x i , 2 , . . . , x i , n } \left\{x_{i,1},x_{i,2},...,x_{i,n}\right\} {xi,1,xi,2,...,xi,n}其中 i 1 , . . , b i1,..,b i1,..,b实例级标签是未知的 { y i , 1 , y i , 2 , . . . , y i , n } \left\{y_{i,1},y_{i,2},...,y_{i,n}\right\} {yi,1,yi,2,...,yi,n}bag标签是已知的并且与实例标签有联系 b b b是袋的总数 n n n是第 i i i个袋里的实例数 n n n的个数可以根据不同的袋而变化。
关于相关性MIL的优势文中给出了证明但是在此略过。主要意思是
考虑实例相关性可以具有更小的信息熵从而减少不确定性为MIL带来更多有效信息。TransMIL与过去方法的主要区别如图2 图2不同pooling矩阵 P P P的差异。假设从a中的WSI采样5个instance P ∈ R 5 × 5 P\in\R^{5\times 5} P∈R5×5是对应的pooling矩阵其中对角线内的值表示instance自身的注意力权重其余值表示不同instance之间的相关性。b,c,d 都忽略了相关信息因此 P P P是对角矩阵。在b中第一个实例是由Max-pooling算子选择的所以在对角线位置只有一个非零值。在c中由于Mean-pooling运算符对角线内的所有值都是相同的。在d中由于引入的是bypass注意力对角线内的值可能会发生变化。但其余位置为0独立同分布假设。e服从相关性假设因此在非对角线位置存在非零值表示不同实例之间存在相关性。
对于MIL的pooling这里有一个通用的三步法
形态信息morphological空间信息spatial
如何应用Transformer到相关性MIL
Transformer使用自注意力机制对序列中所有令牌之间的交互进行建模位置信息的添加进一步增加了顺序信息。因此将Transformer引入相关性MIL问题是合理的其中函数 h h h对实例之间的空间信息进行编码pooling矩阵 P P P使用自注意力进行信息聚合。为了说明这一点进一步给出一个正式的定义。
给定一个bag集合 { X 1 , . . . , X b } \left\{X_{1},...,X_{b}\right\} {X1,...,Xb}每个bag对应一个标签 Y i Y_{i} Yi。目标是学习映射 X → T → Y \mathbb{X} \rightarrow \mathbb{T}\rightarrow \mathbb{Y} X→T→Y即从bag空间到Transformer空间再到标签空间。
为了更好地描述 X → T \mathbb{X} \rightarrow \mathbb{T} X→T的映射作者设计了一个包含两个Transformer层和一个位置编码层的TPT模块其中Transformer层用于聚合形态信息PPEG (Pyramid position encoding Generator)用于编码空间信息。所提出的基于MIL (TransMIL)的Transformer的概述如图3所示。 图3每个WSI被裁剪成patch(背景被丢弃)并被ResNet50嵌入到特征向量中。然后用TPT模块对序列进行处理:1)序列的平方;2)序列相关性建模;3)条件位置编码与局部信息融合;4)深度特征聚合;5) T → Y \mathbb{T}\rightarrow \mathbb{Y} T→Y的映射。
序列来自每个WSI中的特征嵌入。TPT模块的处理步骤如算法2所示其中MSA表示多头自注意力MLP表示多层感知机LN表示 Layer Norm。