单位网站的方案,福建省交通建设质量安全监督局网站,深圳网站设计专家乐云seo,网站建设要准备的内容论文地址#xff1a;#x1f430; 何凯明大神之作#xff0c;通过无监督对比学习预训练Image Encoder的表征能力。后也被许多VLP算法作为ITC的底层算法来使用。 一方面由于源代码本身并不复杂#xff0c;但是要求多GPU分布式训练#xff0c;以及需要下载ImageNet这个大规模…论文地址 何凯明大神之作通过无监督对比学习预训练Image Encoder的表征能力。后也被许多VLP算法作为ITC的底层算法来使用。 一方面由于源代码本身并不复杂但是要求多GPU分布式训练以及需要下载ImageNet这个大规模的数据集另一方面 本次只是测试和阅读算法原理的实现并不完整使用。因此重写了一个低配版流程不变超参数没有严格要求设置单GPU跑数据集自己配置几十张图片 no Shuffling BN。
queue 即文中所构建的字典这个好比如 C 中 的queue 容器因为它是一种先进先出的数据结构。
目录
一、数据预处理
二、前向传播
网络结构
算法流程 一、数据预处理
对同一张图片进行数据增强操作得到 query 和 key。
增强操作包括
transforms.RandomResizedCrop(224, scale(0.2, 1.0)),transforms.RandomGrayscale(p0.2),transforms.ColorJitter(0.4, 0.4, 0.4, 0.4),transforms.RandomHorizontalFlip(),normalize,所以dataloader中的每个输入样本是一个样本对儿。
通过下列方法实现
class TwoCropsTransform:Take two random crops of one image as the query and key.def __init__(self, base_transform):self.base_transform base_transformdef __call__(self, x):q self.base_transform(x)k self.base_transform(x)return [q, k]
二、前向传播
网络结构
代码中 encoder q 和 encoder k的网络结构用的都是ReNet 。ResNet最终的输出层包含了
(avgpool): AdaptiveAvgPool2d(output_size(1, 1))(fc): Linear(in_features2048, out_features128, biasTrue)
所以输出的特征向量维度为 NC。N为文中的Mini batch大小代码中的超参数为batch size。C应该没有什么具体的含义只是经验的设置为这一长度了没找出来C的大小关乎什么。 其输出还经过了L2归一化。
算法流程 1、 q 送入 encoder q 得到输出并经过L2归一化 (N,C) 2、 momentum 更新 key encoder。 3、 Shuffling BN当然我重写的代码并没有实现这个因为它需要多GPU但这并不妨碍认识它的作用 文中所述 大致意思由于ResNet使用了BN操作因此由于Batch 数据之间的交互使得模型利用它欺骗预设任务从而简单的找到一个低损失的解决方案然而这个解决方案效果并不好使得模型学习不到好的表征能力。 其提出的Shuffling BN 首先把所有进程的Tensor的收集起来如果分布式训练一般每个GPU包含一个进程所以收集的数据总量大小为 num GPUs * batch size参考这里 x_gather concat_all_gather(x) 接下来制作打乱的索引整个过程如下所示 def _batch_shuffle_ddp(self, x):Batch shuffle, for making use of BatchNorm.*** Only support DistributedDataParallel (DDP) model. ***# gather from all gpusbatch_size_this x.shape[0]x_gather concat_all_gather(x) # 将所有进程的数据收集起来batch_size_all x_gather.shape[0]num_gpus batch_size_all // batch_size_this# random shuffle indexidx_shuffle torch.randperm(batch_size_all).cuda() # torch.randperm 将[0,n)数随机排列# broadcast to all gpustorch.distributed.broadcast(idx_shuffle, src0) # 将这个信息广播到所有其他进程# index for restoringidx_unshuffle torch.argsort(idx_shuffle) # 按照值大小顺序返回下标# shuffled index for this gpugpu_idx torch.distributed.get_rank() # 返回当前的进程idx_this idx_shuffle.view(num_gpus, -1)[gpu_idx] # idx_shuffle view 后 (num_gpus, batch size) 但是batch size中的索引是打乱顺序的return x_gather[idx_this], idx_unshuffle 最终返回 随机打乱顺序后挑选的当前进程的 batch size 大小的数据也就是说进行 BN归一化后的数据已经不在 同一个原来的批 中了。 4、k 送入 encoder k 中在经过L2 归一化 和q一样。 NC 5、Shuffling BN 对齐 q 和 k 如下面举例 # idx_shuffle
tensor([10, 16, 13, 2, 4, 0, 6, 21, 22, 31, 29, 3, 19, 17, 14, 30, 28, 12,24, 26, 8, 25, 11, 18, 5, 7, 27, 1, 15, 23, 20, 9])# idx_unshuffle
tensor([ 5, 27, 3, 11, 4, 24, 6, 25, 20, 31, 0, 22, 17, 2, 14, 28, 1, 13,23, 12, 30, 7, 8, 29, 18, 21, 19, 26, 16, 10, 15, 9])# q 的 idx_this
tensor([10, 16, 13, 2, 4, 0, 6, 21])# k 的 idx_this
tensor([ 5, 27, 3, 11, 4, 24, 6, 25]) 这里主要关注的点是 这步是为了使 k对齐打乱顺序的q。q之前是打乱了顺序从而改变了每个batch的内容相当于从所有的batch中随机挑选了 batch size的q从而保证去除BN的影响。 而 k 不需要 再打乱了 只需要从原有的batch size 数据分布中挑选出与q对应的数据即可。所以才在 shuffle BN q的过程中记录了indx unshuffle。 这里的对应关系举例比如 index shuffle 中的 0 现在位于原来没打乱状态的索引 5处 类似的 1 --27, 2--3, 以此类推。 注不要被上面单进程的即idx this不对齐所迷惑上面的只是分进程处理的分布式训练最终会把所有进程的数据拼接起来一起处理所以所有进程的数据对齐就行。 6、计算损失即文中公式1 其中 用到的计算方法举例如下分别用爱因斯坦求和公式实现参考这里 a torch.tensor([[1, 2, 3], [1, 1, 1], [2, 2, 2]])
b torch.tensor([[2, 2, 2], [2, 2, 2], [1, 1, 1]])
print(a)
print(b)
c torch.einsum(nc, nc-n, [a, b]) # (3)
d c.unsqueeze(-1) # (3,1)
print(c)# 输出
tensor([[1, 2, 3],[1, 1, 1],[2, 2, 3]])
tensor([[2, 2, 2],[2, 2, 2],[1, 1, 1]])
tensor([12, 6, 7])
tensor([[12],[ 6],[ 7]]) a torch.tensor([[1, 2, 3], [1, 1, 1], [2, 2, 3]]) # (3,3)
a1 torch.tensor([[1, 2], [1, 1], [2, 2]]) # (3,2)
c torch.einsum(nc,ck-nk, [a, a1])
print(a)
print(a1)
print(c)# 输出
tensor([[1, 2, 3],[1, 1, 1],[2, 2, 3]])
tensor([[1, 2],[1, 1],[2, 2]])
tensor([[ 9, 10],[ 4, 5],[10, 12]]) 这里的self.queue 即文中的字典 queue初始化为 self.register_buffer(queue, torch.randn(dim, K))
self.queue nn.functional.normalize(self.queue, dim0) K为字典的长度默认设置65536。这里为什么设置为这个可能是由于ImageNet数据集比较大所以设置的字典比较长具体的长度设置好像没有做固定的要求 来源于github官网。但代码中有要求K必须是batch size 的倍数这个为了确保字典的更新方便执行入栈和弹出操作。这个字典像是C的 queue容器的FIFO数据结构即先进先出 self.K % batch_size 0 l_pos torch.einsum(nc,nc-n, [q, k]).unsqueeze(-1) # (8,1) 对应元素相乘并第一维加和# negative logits: NxKl_neg torch.einsum(nc,ck-nk, [q, self.queue.clone().detach()]) # (8,65536) 矩阵相乘# logits: Nx(1K)logits torch.cat([l_pos, l_neg], dim1) # (8,65537)# apply temperaturelogits / self.Tlabels torch.zeros(logits.shape[0], dtypetorch.long).cuda() # (8,)loss criterion(output, target) 这里看标签都是0即第一个也就是0维数据为正样本。因为在拼接cat的时候正样本是在前面的。 7、更新字典 按mini batch 更新。具体地如果 训练次数*mini batch size 小于字典长度则字典queue每次都会填充新的key。若训练次数*mini batch size 大于 字典长度则之前的被替换掉。 ptr (ptr batch_size) % self.K # move pointer 8