建立设计网站富阳,个人网站设计构思,wordpress模版标签,WordPress博客Vieu主题摘要
我们的无监督学习的动机是稳健的跟踪器应该在双向跟踪中有效。具体来说#xff0c;跟踪器能够在连续帧中前向定位目标对象#xff0c;并回溯到其在第一帧中的初始位置。基于这样的动机#xff0c;在训练过程中#xff0c;我们测量前向和后向轨迹之间的一致性#xf…摘要
我们的无监督学习的动机是稳健的跟踪器应该在双向跟踪中有效。具体来说跟踪器能够在连续帧中前向定位目标对象并回溯到其在第一帧中的初始位置。基于这样的动机在训练过程中我们测量前向和后向轨迹之间的一致性以便仅使用未标记的视频从头开始学习稳健的跟踪器。我们在 Siamese 相关滤波器网络上构建我们的框架并提出了一种多帧验证方案和成本敏感损失来促进无监督学习。
介绍
最近深度模型通过加强特征表示或端到端优化网络来提高跟踪精度这些模型经过完全监督离线预训练在训练阶段需要大量带注释的真实标签。手动注释总是昂贵且耗时的而互联网上很容易获得大量未标记的视频。另一方面视觉跟踪与其他识别任务例如对象检测、图像分类的不同之处在于对象标签根据第一帧上的目标初始化而变化。监督学习的广泛和不确定的标记过程引起了我们的兴趣通过使用未标记的视频序列来开发替代学习方案。
在本文中我们提出了一种用于视觉跟踪的无监督学习方法。我们没有使用现成的深度模型而是从头开始训练视觉跟踪网络。无监督学习的直觉在于视频序列中的双向运动分析。跟踪对象可以以前向和后向方式执行。最初给定第一帧中目标对象的边界框注释我们可以在后续帧中向前跟踪目标对象。在向后跟踪时我们使用最后一帧的预测位置作为初始目标边界框并将其向后跟踪到第一帧。理想情况下第一帧中估计的边界框位置与前向传递中的给定边界框位置相同。在这项工作中我们测量前向和后向目标轨迹之间的差异并将其表述为损失函数。我们使用计算的损失以自我监督的方式训练我们的网络1如图1所示。通过反复跟踪和向后跟踪我们的模型学会了在没有任何监督的情况下在连续帧中定位目标对象。 通过监督学习和无监督学习进行视觉跟踪。监督学习需要训练视频中的各个帧的真实标签而我们提出的无监督学习通过测量前向和后向跟踪之间的轨迹一致性没有任何标签。 所提出的无监督训练旨在学习一个通用的特征表示而不是严格专注于跟踪完整的对象。在第一帧中我们初始化了一个边界框该边界框覆盖了具有高图像熵的信息局部区域。边界框可能包含任意图像内容可能无法覆盖整个对象。然后我们的跟踪网络学习跟踪训练视频序列中的边界框区域。我们的无监督注释与基于部分[36]和基于边缘的[34]跟踪方法有相似之处后者跟踪目标对象的子区域。我们希望我们的跟踪器不仅专注于完整对象的形状而且还能够跟踪它的任何部分。图像熵的边界框初始化摆脱了第一帧上的手动注释从而保证了整个学习过程的无监督。
我们在 Siamese 相关滤波器框架下采用无监督学习。训练步骤包括前向跟踪和后向验证。前向和后向一致性测量的一个限制是前向传递中的目标轨迹可能与后向传递中的目标轨迹一致尽管跟踪器丢失了目标。一致性损失函数无法惩罚这种情况因为无论丢失目标如何预测的目标区域仍然可以回溯到第一帧上的初始位置。此外训练视频中严重遮挡或视野外等挑战会降低 CNN 特征表示能力。为了解决这些问题我们引入了一种多帧验证方案和一个成本敏感的损失来促进无监督训练。如果跟踪器丢失目标在训练阶段使用更多帧时从前向和后向预测的轨迹就不太可能保持一致。此外我们提出了一种新的成本敏感损失来缓解噪声样本在无监督学习过程中的影响。包含背景纹理的训练样本将被图像熵测量排除。基于上面讨论的多帧验证和样本选择策略我们的网络训练是稳定的。
总之这项工作的贡献有三个方面
-我们在 Siamese 相关滤波器网络上提出了一种无监督学习方法。无监督学习由前向和后向跟踪组成用于测量网络训练的轨迹一致性。
-我们提出了一种多帧验证方案在跟踪器丢失目标时扩大轨迹不一致。此外我们提出了一种成本敏感损失和熵选择度量来减少训练过程中简单样本的贡献。
-在七个标准基准上进行的大量实验证明了所提出的跟踪器的良好性能。我们对无监督表示进行了深入的分析揭示了无监督学习在视觉跟踪方面的潜力。
相关工作
Wang 和 Gupta [66] 使用 KCF 跟踪器 [19] 对原始视频进行预处理然后选择一对跟踪图像和另一个随机补丁来学习使用排名损失的 CNN。我们的方法从两个方面与[66]有很大的不同。首先我们将跟踪算法集成到无监督训练中而不是仅仅使用现成的跟踪器作为数据预处理工具。其次我们的无监督框架与跟踪目标函数相结合因此学习到的特征表示在表征通用目标对象方面是有效的。
方法
我们的无监督学习的动机如图2(a)所示。我们首先选择一个内容丰富的局部区域作为目标对象。给定这个初始化的边界框标签我们向前跟踪以预测其在后续帧中的位置。然后我们反转序列并将最后一帧的预测边界框作为伪标签进行反向验证。通过反向跟踪第一帧中的预测边界框理想地与原始边界框相同。我们使用一致性损失来衡量前向和后向轨迹之间的差异来训练网络。图2(b)显示了我们的无监督暹罗相关滤波器网络的概述。 我们在 (a) 中展示了跟踪前向和后向以计算网络训练的一致性损失的动机。详细的训练过程如 (b) 所示其中无监督学习集成到 Siamese 相关滤波器网络中。在测试阶段我们只向前跟踪以预测目标位置。
回顾相关跟踪
判别相关滤波器 (DCF) 将搜索补丁输入特征的循环移位版本回归到软目标响应图以进行目标定位。在训练 DCF 时我们选择了一个带有相应真实标签 Y 的模板 patchX它是高斯形的峰值位于目标位置。模板补丁的大小通常大于目标的大小.图 2 显示了模板补丁的示例其中既有目标内容也有背景内容。通过求解以下岭回归问题可以学习滤波器W. 其中 λ 是正则化参数∗ 表示循环卷积。等式1 可以在傅里叶域中有效计算DCF 可以计算为
其中点圈是逐元素乘积F (·) 是离散傅里叶变换 (DFT)F -1(·) 是逆 DFT并且星表示复共轭操作。在每个后续帧中给定一个搜索补丁 Z其对应的响应图 R 可以在傅里叶域中计算 上述 DCF 框架从使用模板补丁学习目标模板的相关过滤器即 W开始然后将其与搜索补丁 Z 进行卷积以生成响应。最近Siamese相关滤波器网络将DCF嵌入到Siamese框架中并构建两个共享权重分支来提取特征表示如图2(b)所示。 第一个是模板分支它以模板补丁 X 作为输入并提取其特征通过 DCF 进一步生成目标模板过滤器。第二个是搜索分支它以搜索补丁 Z 作为输入进行特征提取。然后将模板过滤器与搜索补丁的 CNN 特征进行卷积以生成响应图。Siamese DCF 网络的优点是特征提取 CNN 和相关滤波器都被制定为端到端框架因此学习到的特征与视觉跟踪场景更相关。
无监督学习原型
给定两个连续的帧P1和P2我们分别裁剪模板和搜索补丁。通过前向跟踪和后向验证所提出的框架不需要额外的监督。P1中初始边界框和预测边界框之间的位置差异将制定一致性损失。我们利用这种损失来训练没有真实注释的网络。
前向跟踪
按照之前的方法我们构建了一个Siamese相关滤波器网络来跟踪帧P1中初始化的边界框区域。在从第一帧P1生成模板补丁T后我们计算对应的模板滤波器WT如下: 其中 φθ (·) 表示具有可训练网络参数 θ 的 CNN 特征提取操作YT 是模板补丁 T 的标签。这个标签是一个以初始化的边界框中心为中心的高斯响应。一旦我们获得了学习到的模板过滤器WT从帧P2中搜索补丁S的响应图就可以由下式计算 如果补丁 S 的真实高斯标签可用则可以通过计算 RS 和真实标签之间的 L2 距离来训练网络 φθ (·)。与监督框架不同在下文中我们展示了如何通过利用反向轨迹验证来训练网络而不需要标签。
向后跟踪
在为帧P2生成响应图RS后我们创建了一个以最大值为中心的伪高斯标签用YS表示。在反向跟踪中我们切换搜索补丁和模板补丁之间的角色。通过将 S 视为模板补丁我们使用伪标签 YS 生成模板过滤器 WS。模板 filterWS 可以使用等式4学习 通过将 T 替换为 S 并用 YS 替换 YT如下所示 然后我们通过等式生成模板补丁的响应图 RT。 5 通过将 WT 替换为 WS 并用 T 替换 S如公式所示。 请注意我们只使用一个 Siamese 相关滤波器网络来执行前向和后向跟踪。网络参数 θ 在跟踪步骤中是固定的。
一致性损失计算
在前向和后向跟踪之后我们得到响应图 RT。理想情况下RT 应该是高斯标签峰值位于初始化目标位置。换句话说RT 应该与最初给定的标签 YT 相似。因此通过最小化重构误差可以以无监督的方式训练表示网络 φθ (·)如下所示 基于伪标记的自我训练的直觉。我们对前向和后向预测使用相同的网络。前向阶段为搜索补丁生成伪标签。后向阶段通过反向传播使用训练对更新跟踪网络。在训练期间模板的响应图通过自我监督逐渐接近初始标签。
我们的无监督学习可以看作是一个增量的自我训练过程它迭代地预测标签并更新模型以稳定地提高跟踪能力。图 3 显示了直觉其中我们对前向和后向预测使用相同的网络。在前向跟踪中我们为搜索补丁 S 生成一个伪标签 YS。然后我们将生成的 YS 视为 S 的标签并创建相应的样本。使用这些标记的训练对即具有初始或伪标签我们可以以与监督学习类似的方式更新 Siamese 相关滤波器网络。在损失反向传播期间我们遵循 Siamese 相关滤波器方法来更新网络 上述无监督训练过程基于两帧之间的前向后向一致性由算法1总结。在下一节中我们扩展了这个原型框架以考虑多帧以获得更好的网络训练。 无监督学习的增强
所提出的无监督学习方法基于 RT 和 YT 之间的一致性构建目标函数。在实践中跟踪器可能会在前向跟踪中偏离目标但在后向过程中仍然返回到原始位置。然而由于轨迹一致所提出的损失函数不会惩罚这种偏差。同时原始视频可能包含无纹理或遮挡的训练样本从而恶化无监督学习过程。在本节中我们提出了一种多帧验证方案和一个成本敏感的损失来解决这两个限制。
多帧验证
我们提出了一种多帧验证方法来扩大跟踪器丢失目标时的轨迹不一致。我们的直觉是在训练期间合并更多的帧以减少后续帧中的错误定位成功回溯到第一帧中的初始位置的限制。这样Eq. 8中的重构误差将有效地捕获不一致的轨迹。如图3所示在前向阶段添加更多帧进一步挑战模型跟踪能力。
我们的无监督学习原型可以很容易地扩展到多帧。为了使用三帧构建轨迹周期我们可以涉及另一个帧P3它是P2之后的后续帧。我们从P2中裁剪一个搜索补丁S1从P3中裁剪另一个搜索补丁S2。如果生成的响应图RS1与其对应的地真响应不同则下一帧P3的差异趋于较大。因此不一致性更有可能出现在反向跟踪中生成的响应图RT更有可能与YT不同如图4所示。通过在前向和后向跟踪过程中涉及更多的搜索补丁所提出的一致性损失将更有效地惩罚不准确的定位。 单帧验证和多帧验证。单帧验证中不准确的定位可能无法捕获如左侧所示。通过涉及更多帧如右图所示我们累积定位误差以打破前向和后向跟踪期间的预测一致性。
我们可以进一步扩展用于多帧验证的帧数量。轨迹的长度将增加如图5所示。当目标丢失时一致轨迹的局限性不太可能影响训练过程。令 R(Sk →T) 表示模板 T 的响应图由使用第 k 个搜索补丁 Sk 训练的 DCF 生成或跟踪。对应的一致性损失函数可计算如下 考虑到不同的轨迹周期多帧一致性损失可以通过 其中 k 是搜索 parch 的索引。以图5(C)为例最终的一致性目标包含三个损失(即公式11中的M3)分别用图5(C)中的蓝色、绿色和红色周期表示。 多帧轨迹一致性概述。我们将 T 分别表示为模板将 S 表示为搜索补丁。我们的无监督训练原型如 (a) 所示其中只涉及两帧。使用更多帧如 (b) 和 (c) 所示我们可以在失去目标时逐步提高训练性能以克服一致的轨迹 成本敏感损失 我们在无监督训练期间将边界框区域初始化为第一帧中的训练样本。此边界框区域内的图像内容可能包含任意或部分对象。图 6 显示了这些区域的概述。为了缓解背景干扰我们提出了一种代价敏感损失来有效地排除噪声样本进行网络训练。为简单起见我们使用三个连续帧作为示例来说明样本选择这可以自然地扩展到更多的帧。使用三帧的管道如图5(b)所示。 ILSVRC 2015[51]中裁剪图像补丁的示例。这些样本中的大多数都包含有意义的对象而一些样本不太有意义例如最后一行
在无监督学习过程中我们从视频序列中构建多个训练三元组。对于包含三个帧的轨迹每个训练三元组分别由帧P1中的一个初始化模板补丁T和后续帧P2和P3中的两个搜索补丁S1和S2组成。我们使用几个三元组来形成用于连体网络学习的训练批次。在实践中我们发现一些损失极高的训练三元组可以防止网络训练收敛。为了减少基于伪标记的自我训练中的这些异常值效应我们排除了包含最高损失值的整个训练三元组的 10%。它们的损失可以使用方程式计算。 10。为此我们为每个训练三元组分配一个二进制权重 Aidrop。所有这些权重构成了一个向量 Adrop其中其 10% 的元素为 0其他元素为 1。
除了异常值训练对之外原始视频还包括无意义的图像补丁其中有无纹理的背景或静止的物体。在这些补丁中对象例如天空、草或树不包含大动作。我们将运动权重向量 Amotion 分配给所有训练对以增加网络学习的大运动效果。这个向量中的每个元素Aimotion可以通过以下方式计算。 其中 RiS1 和 RiS2 是第 i 个训练对中的响应图YiT 和 YiS1 是对应的初始或伪标签。方程。 12 计算从帧 P1 到 P2 和 P2 到 P3 的目标运动差异。当Aimotion的值较大时目标对象在该轨迹中经历快速运动。另一方面Aimotion 的大值表示网络应该更加关注的硬训练对。我们将运动权重和二进制权重归一化如下 其中 N 是小批量中的训练对的数量。样本权重 Ainorm 是一个标量无需梯度反向传播即可重新加权训练数据。
小批量中图 5(b) 情况的最终无监督损失计算如下 我们可以通过使用更多的帧来构造不同长度的轨迹自然地将Eq. 14扩展到以下如图5(c)的玩具示例所示。结合方程式。 11我们使用 M 个后续帧计算最终的无监督损失函数为 无监督训练细节 网络结构。我们遵循 DCFNet [64] 使用由两个卷积层组成的浅层连体网络进行跟踪。这种浅层结构在 CFNet [58] 中被证明是有效的以集成 DCF 公式。这些卷积层的滤波器大小分别为 3×3×3×32 和 3×3 × 32 × 32。此外在[64]之后的卷积层的末尾采用了局部响应归一化(LRN)层。这种轻量级结构为在线跟踪提供了有效的前向推理。
训练数据。我们选择 ILSVRC 2015 [51] 作为我们的训练数据这是现有监督跟踪器使用的相同数据集。在数据预处理步骤中监督方法 [1,58, 64] 需要每帧标签。此外将删除帧其中目标对象被遮挡、部分视图外或不规则形状例如蛇。监督方法的数据预处理是人类劳动耗时的。相比之下我们的方法不依赖于手动注释的标签进行数据预处理。
在我们的方法中对于原始视频中的第一帧我们通过滑动窗口裁剪重叠的小块(总共5 × 5)如图7所示。然后我们计算每个图像补丁的图像熵。图像熵有效地测量图像补丁的内容方差。当图像补丁只包含酉纹理(如天空)时该补丁的熵接近0。当图像补丁包含纹理内容时熵将变得更高。我们选择包含最高图像熵的裁剪图像补丁。该图像补丁初始化KCF[19]跟踪器用于后续帧中的定位。然后我们在DCFNet[64]之后裁剪出一个更大的图像补丁填充目标大小的2倍进一步调整为125×125作为网络的输入。图 6 显示了裁剪补丁的一些示例。我们从视频中的连续 10 帧中随机选择 4 个裁剪补丁来形成训练轨迹其中一个定义为模板其余定义为搜索补丁。这是基于这样一个假设即中心定位的目标对象不太可能在短时间内从裁剪区域移出。我们跟踪图像补丁中的内容而不考虑特定的对象类别。尽管这种基于熵的方法可能无法准确选择目标区域并且 KCF 跟踪器不足以跟踪裁剪区域但这种方法可以很好地缓解无意义的背景区域。 在线对象跟踪 在离线无监督学习之后我们以前向跟踪的方式执行在线跟踪如第 3.2 节所述。我们在线更新 DCF 以适应目标外观变化。DCF 更新遵循移动平均操作如下所示 其中 αt ∈ [0, 1] 是线性插值系数。目标尺度是通过比例因子为 {as|a 1.015, s {−1, 0, 1}} [12] 的补丁金字塔估计的。我们将跟踪器命名为 LUDT即学习无监督深度跟踪。此外我们通过 αt 自适应地更新我们的模型并遵循与 ECO [9] 中更好的 DCF 公式。我们将改进的跟踪器命名为 LUDT。
我们在以下实验部分保留我们的初步跟踪器 UDT 和 UDT [61] 的符号。我们之前的 UDT 使用 3 帧周期图 5(b)并简单地裁剪原始视频中的中心补丁。LUDT从两个方面改进了UDT:(1)LUDT结合了不同的轨迹周期如图5(c)所示;(2) LUDT利用图像熵来选择信息丰富的图像补丁而不是中心裁剪。LUDT 和 UDT 分别通过采用 [9] 中提出的一些在线跟踪技术例如自适应更新来改进 LUDT 和 UDT。
实验
在本节中我们首先分析我们的无监督训练框架的有效性并讨论我们的网络潜力。然后我们将我们的跟踪器LUDT与最近发布的大型基准(包括OTB-2013[69]、OTB-2015[70]、Temple-Color[35]、VOT2016[25]、VOT2017/2018[24]、LaSOT[16]和TrackingNet[45])上的最先进的跟踪器进行比较。
在我们的实验中我们使用动量为 0.9 的随机梯度下降 (SGD) 和 0.005 的权重衰减来训练我们的模型。我们的无监督网络训练了 50 个 epoch学习率从 10-2 指数衰减到 10−5小批量大小为 32。我们将轨迹长度设置为 4。所有实验均在具有 4.00GHz Intel Core I7-4790K 和 NVIDIA GTX 1080Ti GPU 的 PC 上执行。在单个 GPU 上我们的 LUDT 和 LUDT 分别表现出大约 70 FPS 和 55 FPS2。所提出的方法在七个基准上进行了评估。在 OTB-2013/2015、TempleColor、LaSOT 和 TrackingNet 数据集上我们使用带有距离和重叠精度指标的一次性评估 (OPE)。距离精度阈值设置为 20 像素。重叠成功图使用从 0 到 1 的阈值并计算曲线下面积 (AUC) 来评估整体性能。在 VOT2016 和 VOT2017/2018 数据集上我们使用预期平均重叠 (EAO) 来衡量性能
局限
图 16 显示了我们无监督学习的局限性。首先与完全监督的学习相比我们通过无监督学习训练的跟踪器在发生遮挡或剧烈外观变化时往往会漂移例如Skiing 和 Soccer 序列中的目标。缺少真实注释带来的语义表示缺少应付复杂场景的客观信息。其次我们的无监督学习涉及前向和后向跟踪。训练阶段的计算负载是一个潜在的缺点尽管学习过程是离线的。
总结
在本文中我们展示了如何在野外使用未标记的视频训练视觉跟踪器这在视觉跟踪中很少被研究。通过设计无监督的连体相关滤波器网络我们验证了我们基于前向后向的无监督训练管道的可行性和有效性。为了进一步促进无监督训练我们扩展了我们的框架以考虑多帧并采用成本敏感损失。大量实验表明所提出的无监督跟踪器没有铃铛和口哨作为坚实的基线并取得了与经典全监督跟踪器相当的结果。配备了额外的在线改进例如复杂的更新方案我们的 LUDT 跟踪器优于最先进的跟踪算法。此外我们通过特征可视化和广泛的消融研究对我们的无监督表示进行了深入分析。我们的无监督框架在视觉跟踪方面显示出有希望的潜力例如利用更多的未标记数据或弱标记数据来进一步提高跟踪精度。