做网站设计师能10年赚100万吗,中国能源建设招标网站,微信小程序做链接网站,怀化公司网站建设一 实例操作目标检测
下面通过一个具体的例子来说明锚框标签。我们已经为加载图像中的狗和猫定义了真实边界框#xff0c;其中第一个 元素是类别#xff08;0代表狗#xff0c;1代表猫#xff09;#xff0c;其余四个元素是左上角和右下角的(x, y)轴坐标#xff08;范围…一 实例操作目标检测
下面通过一个具体的例子来说明锚框标签。我们已经为加载图像中的狗和猫定义了真实边界框其中第一个 元素是类别0代表狗1代表猫其余四个元素是左上角和右下角的(x, y)轴坐标范围介于0和1之间。我 们还构建了五个锚框用左上角和右下角的坐标进行标记A0, . . . , A4索引从0开始。然后我们在图像中 绘制这些真实边界框和锚框。
ground_truth torch.tensor([[0, 0.1, 0.08, 0.52, 0.92],[1, 0.55, 0.2, 0.9, 0.88]])
anchors torch.tensor([[0, 0.1, 0.2, 0.3], [0.15, 0.2, 0.4, 0.4],[0.63, 0.05, 0.88, 0.98], [0.66, 0.45, 0.8, 0.8],[0.57, 0.3, 0.92, 0.9]])
fig d2l.plt.imshow(img)
show_bboxes(fig.axes, ground_truth[:, 1:] * bbox_scale, [dog, cat], k)
show_bboxes(fig.axes, anchors * bbox_scale, [0, 1, 2, 3, 4]) 使用上面定义的multibox_target函数我们可以根据狗和猫的真实边界框标注这些锚框的分类和偏移量。 在这个例子中背景、狗和猫的类索引分别为0、1和2。下面我们为锚框和真实边界框样本添加一个维度。
labels multibox_target(anchors.unsqueeze(dim0),ground_truth.unsqueeze(dim0))
返回的结果中有三个元素都是张量格式。第三个元素包含标记的输入锚框的类别。 1.1 使用非极大值抑制预测边界框
在预测时我们先为图像生成多个锚框再为这些锚框一一预测类别和偏移量。一个预测好的边界框则根据 其中某个带有预测偏移量的锚框而生成。下面我们实现了offset_inverse函数该函数将锚框和偏移量预测 作为输入并应用逆偏移变换来返回预测的边界框坐标。
def offset_inverse(anchors, offset_preds):anc d2l.box_corner_to_center(anchors)pred_bbox_xy (offset_preds[:, :2] * anc[:, 2:] / 10) anc[:, :2]pred_bbox_wh torch.exp(offset_preds[:, 2:] / 5) * anc[:, 2:]pred_bbox torch.cat((pred_bbox_xy, pred_bbox_wh), axis1)predicted_bbox d2l.box_center_to_corner(pred_bbox)return predicted_bbox
当有许多锚框时可能会输出许多相似的具有明显重叠的预测边界框都围绕着同一目标。为了简化输出我 们可以使用非极大值抑制non‐maximum suppressionNMS合并属于同一目标的类似的预测边界框。
以下是非极大值抑制的工作原理。对于一个预测边界框B目标检测模型会计算每个类别的预测概率。假设最大的预测概率为p则该概率所对应的类别B即为预测的类别。具体来说我们将p称为预测边界框B的置信度confidence。在同一张图像中所有预测的非背景边界框都按置信度降序排序以生成列表L。然后 我们通过以下步骤操作排序列表L。
从L中 选取置信度最高的预测边界框B1作为基准然后将所有与B1的IoU超过预定阈值ϵ的非基准预测 边界框从L中移除。这时L保留了置信度最高的预测边界框去除了与其太过相似的其他预测边界框。 简而言之那些具有非极大值置信度的边界框被抑制了。从L中选取置信度第二高的预测边界框B2作为又一个基准然后将所有与B2的IoU大于ϵ的非基准预测 边界框从L中移除。重复上述过程直到L中的所有预测边界框都曾被用作基准。此时L中任意一对预测边界框的IoU都小于阈值ϵ因此没有一对边界框过于相似。输出列表L中的所有预测边界框。
以下nms函数按降序对置信度进行排序并返回其索引。
#save
def nms(boxes, scores, iou_threshold):B torch.argsort(scores, dim-1, descendingTrue)keep []while B.numel() 0:i B[0]keep.append(i)if B.numel() 1:break iou box_iou(boxes[i, :].reshape(-1, 4), boxes[B[1:], :].reshape(-1, 4)).reshape(-1)inds torch.nonzero(iou iou_threshold).reshape(-1)B B[inds 1]return torch.tensor(keep, deviceboxes.device)
我们定义以下multibox_detection函数来 将非极大值抑制应用于预测边界框。这里的实现有点复杂请不要 担心。我们将在实现之后马上用一个具体的例子来展示它是如何工作的。
#save
def multibox_detection(cls_probs, offset_preds, anchors, nms_threshold0.5,pos_threshold0.009999999):device, batch_size cls_probs.device, cls_probs.shape[0]anchors anchors.squeeze(0)num_classes, num_anchors cls_probs.shape[1], cls_probs.shape[2]out []for i in range(batch_size):cls_prob, offset_pred cls_probs[i], offset_preds[i].reshape(-1, 4)conf, class_id torch.max(cls_prob[1:], 0)predicted_bb offset_inverse(anchors, offset_pred)keep nms(predicted_bb, conf, nms_threshold)all_idx torch.arange(num_anchors, dtypetorch.long, devicedevice)combined torch.cat((keep, all_idx))uniques, counts combined.unique(return_countsTrue)non_keep uniques[counts 1]all_id_sorted torch.cat((keep, non_keep))class_id[non_keep] -1class_id class_id[all_id_sorted]conf, predicted_bb conf[all_id_sorted], predicted_bb[all_id_sorted]below_min_idx (conf pos_threshold)class_id[below_min_idx] -1conf[below_min_idx] 1 - conf[below_min_idx]pred_info torch.cat((class_id.unsqueeze(1),conf.unsqueeze(1), predicted_bb), dim1)out.append(pred_info)return torch.stack(out)
现在让我们将上述算法应用到一个带有四个锚框的具体示例中。为简单起见我们假设预测的偏移量都是零 这意味着预测的边界框即是锚框。对于背景、狗和猫其中的每个类我们还定义了它的预测概率。
anchors torch.tensor([[0.1, 0.08, 0.52, 0.92], [0.08, 0.2, 0.56, 0.95],[0.15, 0.3, 0.62, 0.91], [0.55, 0.2, 0.9, 0.88]])
offset_preds torch.tensor([0] * anchors.numel())
cls_probs torch.tensor([[0] * 4, # 背景的预测概率[0.9, 0.8, 0.7, 0.1], # 狗的预测概率[0.1, 0.2, 0.3, 0.9]]) # 猫的预测概率
我们可以在图像上绘制这些预测边界框和置信度。
fig d2l.plt.imshow(img)
show_bboxes(fig.axes, anchors * bbox_scale,[dog0.9, dog0.8, dog0.7, cat0.9]) 现在我们可以调用multibox_detection函数来 执行非极大值抑制其中阈值设置为0.5。请注意我们在示例 的张量输入中添加了维度。
我们可以看到返回结果的形状是批量大小锚框的数量6。最内层维度中的六个元素提供了同一预测 边界框的输出信息。第一个元素是预测的类索引从0开始0代表狗1代表猫值‐1表示背景或在非极大 值抑制中被移除了。第二个元素是预测的边界框的置信度。其余四个元素分别是预测边界框左上角和右下角 的(x, y)轴坐标范围介于0和1之间。
output multibox_detection(cls_probs.unsqueeze(dim0),offset_preds.unsqueeze(dim0),anchors.unsqueeze(dim0),nms_threshold0.5)
output 删除‐1类别背景的预测边界框后我们可以 输出由非极大值抑制保存的最终预测边界框。
fig d2l.plt.imshow(img)
for i in output[0].detach().numpy():if i[0] -1:continue label (dog, cat)[int(i[0])] str(i[1])show_bboxes(fig.axes, [torch.tensor(i[2:]) * bbox_scale], label) 实践中在执行非极大值抑制前我们甚至 可以将置信度较低的预测边界框移除从而减少此算法中的计算量。我们也可以对非极大值抑制的输出结果进行后处理。例如只保留置信度更高的结果作为最终输出。
小结
我们 以图像的每个像素为中心生成不同形状的锚框。交并比IoU也被称为杰卡德系数用于衡量两个边界框的相似性。它是相交面积与相并面积的比率。在训练集中我们需要给每个锚框两种类型的标签。一个是与锚框中目标检测的类别另一个是锚框真实相对于边界框的偏移量。预测期间可以使用非极大值抑制NMS来移除类似的预测边界框从而简化输出。 二 多尺度目标检测
我们以输入图像的每个像素为中心生成了多个锚框。基本而言这些锚框代表了图像不同区域 的样本。然而如果为每个像素都生成的锚框我们最终可能会得到太多需要计算的锚框。想象一个 561×728的 输入图像如果以每个像素为中心生成五个形状不同的锚框就需要在图像上标记和预测超过200万个锚框 561 × 728 × 5。
减少图像上的锚框数量并不困难。比如我们可以在输入图像中均匀采样一小部分像素并以它们为中心生 成锚框。此外在不同尺度下我们可以生成不同数量和不同大小的锚框。直观地说比起较大的目标较小的目标在图像上出现的可能性更多样。例如1 × 1、1 × 2和2 × 2的目标可以分别以4、2和1种可能的方式 出现在2 × 2图像上。因此当使用较小的锚框检测较小的物体时我们可以采样更多的区域而对于较大的 物体我们可以采样较少的区域。
为了演示如何在多个尺度下生成锚框让我们先读取一张图像。
%matplotlib inline
import torch
from d2l import torch as d2limg d2l.plt.imread(../img/catdog.jpg)
img.shape # (360, 640, 3)
display_anchors函数定义如下。我们 在特征图fmap上生成锚框anchors每个单位像素作为锚框的中心。由于锚框中的(x, y)轴坐标值anchors已经被除以特征图fmap的宽度和高度因此这些值介 于0和1之间表示特征图中锚框的相对位置。
由于锚框anchors的中心分布于特征图fmap上的所有单位因此这些中心必须根据其相对空间位置在任何输入图像上均匀分布。更具体地说给定特征图的宽度和高度fmap_w和fmap_h以下函数将均匀地对任 何输入图像中fmap_h行和fmap_w列中的像素进行采样。以这些均匀采样的像素为中心将会生成大小为s假 设列表s的长度为1且宽高比ratios不同的锚框。
def display_anchors(fmap_w, fmap_h, s):d2l.set_figsize()fmap torch.zeros((1, 10, fmap_h, fmap_w))anchors d2l.multibox_prior(fmap, sizess, ratios[1, 2, 0.5])bbox_scale torch.tensor((w, h, w, h))d2l.show_bboxes(d2l.plt.imshow(img).axes, anchors[0] * bbox_scale)
首先让我们考虑探测小目标。为了在显示时更容易分辨在这里具有不同中心的锚框不会重叠锚框的尺 度设置为0.15特征图的高度和宽度设置为4。我们可以看到图像上4行和4列的锚框的中心是均匀分布的。
display_anchors(fmap_w4, fmap_h4, s[0.15]) 然后我们将特征图的高度和宽度减小一半然后使用较大的锚框来检测较大的目标。当尺度设置为0.4时 一些锚框将彼此重叠。
display_anchors(fmap_w2, fmap_h2, s[0.4]) 最后我们进一步将特征图的高度和宽度减小一半然后将锚框的尺度增加到0.8。此时锚框的中心即是图 像的中心。
display_anchors(fmap_w1, fmap_h1, s[0.8]) 小结
在多个尺度下我们 可以生成不同尺寸的锚框来检测不同尺寸的目标。通过定义特征图的形状我们 可以决定任何图像上均匀采样的锚框的中心。我们 使用输入图像在某个感受野区域内的信息来预测输入图像上与该区域位置相近的锚框类别和偏 移量。我们可以通过深入学习在 多个层次上的图像分层表示进行多尺度目标检测。