九易建网站的建站流程,网页设计模板素材网站,十一月新闻大事件摘抄,企业网站首页设计评价1 论文核心信息
1.1核心问题
任务#xff1a;如何利用深度学习方法进行视频中的动作识别#xff08;Action Recognition#xff09;。挑战#xff1a; 视频包含时空信息#xff0c;既需要捕捉静态外观特征#xff08;Spatial Information#xff09;#xff0c;也需要…1 论文核心信息
1.1核心问题
任务如何利用深度学习方法进行视频中的动作识别Action Recognition。挑战 视频包含时空信息既需要捕捉静态外观特征Spatial Information也需要建模运动信息Temporal Information。(空间以及时间)现有基于单帧输入的 CNN 模型在视频理解任务上的表现不如传统的手工特征如 Dense Trajectories。 解决方案提出双流卷积神经网络Two-Stream ConvNets分别建模静态和运动信息。
1.2 论文主要贡献 提出 Two-Stream ConvNet 架构由空间流Spatial Stream 和 时间流Temporal Stream 组成 空间流Spatial Stream基于单帧 RGB 图像进行分类。时间流Temporal Stream基于**多帧密集光流Dense Optical Flow**进行分类。两个流的 softmax 预测结果融合提高识别性能。 证明光流作为输入有助于学习时序信息相比直接输入多帧 RGB 图像基于光流的方法效果更好。 利用多任务学习Multi-task Learning在多个数据集上进行联合训练提高泛化能力。 在 UCF-101、HMDB-51 数据集上达到 SOTA比之前 CNN 方法显著提升并接近于基于手工特征的 SOTA 方法
2 深度技术细节
2.1 神经架构 (1) 输入数据 输入视频左侧视频序列被送入两个不同的 CNN 流。 空间流Spatial Stream ConvNet上方绿色框 输入单帧 RGB 图像single frame。 主要学习静态外观信息如背景、物体形状等。 时间流Temporal Stream ConvNet下方紫色框 输入多帧光流multi-frame optical flow。 主要学习运动信息如物体的移动方向、速度等。
(2) CNN 结构
两个流的 CNN 结构基本相同
conv17×7 卷积核stride2normpooling 2×2conv25×5 卷积核stride2pooling 2×2conv3, conv4, conv53×3 卷积核stride1pooling 2×2全连接层FC fc64096 维 dropout40%fc72048 维 dropout40%softmax 分类
(3) 结果融合 两个 CNN 输出的 softmax 结果融合右侧红色框。 融合方式 平均融合Averaging SVM 训练支持向量机
2.2 为什么使用光流 光流Optical Flow 提供了显式的运动信息使网络能够直接学习时序关系而不需要 CNN 直接从 RGB 帧中推导运动。de就是竖直和水平方向试验表明使用多帧 RGB 作为输入时CNN 无法有效建模运动信息而光流可以显著提升性能。
2.3 训练策略
空间流 CNN 预训练于 ImageNet然后迁移到 UCF-101 和 HMDB-51 进行微调。时间流 CNN 直接在视频数据集上训练因没有类似 ImageNet 的大规模视频数据可供预训练。采用多任务学习Multi-task Learning在 UCF-101 和 HMDB-51 数据集上联合训练以增强泛化能力。
3 优缺点分析(现在)
双流网络Two-Stream Networks是一种常见的深度学习架构通常用于视频分析、动作识别等任务。它的基本思想是通过两个不同的网络流来处理不同类型的信息流。最典型的例子是视频分类任务中的两个流一个处理静态图像信息通常是视频的每一帧另一个处理动态信息通常是光流描述了视频帧之间的运动。下面是双流网络的优缺点分析
优点 能够处理多模态信息 双流网络能够同时处理不同类型的输入信息例如静态图像流和动态光流流。通过结合这两种信息可以更全面地理解视频内容尤其在动作识别中静态图像能够捕捉物体的外观信息而动态流可以捕捉物体的运动信息。 增强表达能力 每个流都专注于不同的特征提取任务从而有助于模型提取更多的信息并增强分类的准确性。例如光流流能够捕捉时间上的运动变化静态图像流则可以捕捉空间上的细节。 提高鲁棒性 由于网络通过不同流处理不同类型的信息能够在某种信息缺失的情况下仍然保持较强的鲁棒性。例如如果一个流受到噪声影响另一个流仍然能提供有用的信息。
缺点 计算开销大 双流网络需要两个独立的网络处理不同的流这意味着需要更多的计算资源尤其是在处理长视频或高分辨率图像时。两条流分别进行计算和特征提取导致网络参数量和计算复杂度较高。 训练难度高 双流网络需要同时训练两个流这可能会增加训练过程的复杂性并且两个流之间的学习过程可能不完全同步导致训练过程不稳定或收敛速度较慢。 难以共享信息 虽然两个流可以分别处理不同的信息但它们并不总是能够很好地共享信息。这可能导致某些信息在流之间没有得到有效融合降低模型的整体性能。 对数据质量要求高 双流网络依赖于不同类型的数据如图像和光流如果数据不充分或质量不高可能会导致信息缺失或冗余影响最终的识别效果。