当前位置: 首页 > news >正文

关于外贸的网站酒店房产网站建设

关于外贸的网站,酒店房产网站建设,建设阿里巴巴网站首页,俄乌今天最新军事动态论文地址#xff1a;Dense Trajectories and Motion Boundary Descriptors for Action Recognition | International Journal of Computer Vision 如何用一句话描述这份工作#xff1f;#x1f4a1; 在多个尺度上#xff0c;对视频序列中每一帧的密集网格上的特征点采样Dense Trajectories and Motion Boundary Descriptors for Action Recognition | International Journal of Computer Vision 如何用一句话描述这份工作 在多个尺度上对视频序列中每一帧的密集网格上的特征点采样并使用光流算法进行追踪。 1 论文主要贡献是什么 提出了一种基于密集轨迹和运动边界描述符的视频表征方法 引入了一种基于运动边界直方图MBH的描述符在真实世界视频中表现出色尤其是在包含大量相机运动的视频上 在九个数据集上评估了视频表征效果包括KTH、YouTube、Hollywood2等该方法在所有数据集上均优于当前最先进结果。 2 写在前面 局部时空特征是动作识别的一种有效表征手段已在实践中得到检验。传统的局部时空特征包括Harris、Gabor滤波、Hessian矩阵等。直接用3D-SIFT、HOG3D等方法在联合3D空间中检测兴趣点并不有效原因是视频中的2D空间域和1D时间域表现出了不同的特征于是就考虑以不同的方式处理它们根据视频序列跟踪兴趣点。 于是就引出了相关工作例如下图中的KLT、SIFT方法。 下面对KLT、SIFT简单介绍 1KLTKanade-Lucas-Tomasi 是一种基于光流理论的方法通过最小化图像亮度变化来估计序列中的特征点运动。适用于跟踪角点或边缘点 2SIFTScale Invariant Feature Transform 尺度不变特征变换是一种用于提取图像中关键点和描述符的特征检测算法旨在提取对尺度、旋转和亮度变化具有不变性的特征。适用于特征匹配任务 实际上从上图也可以看出密集轨迹算法与其它两种方法的差异 ①采样密度KLT于SIFT的关键点是稀疏分布的而密集轨迹在关键点是密集处理的。 ②对快速、不规则运动的处理也正是因为前两种方法的稀疏性在这类视频上的处理效果不如密集轨迹密集轨迹的一个优点是平滑性约束在论文有提及 ③计算复杂度从直觉上也可以发现密集轨迹计算量较大。 注笔者在这边的理解还不够到位详细的信息在论文中“4.1.2”节有所描述。 论文还考虑到了真实世界中动作识别的问题相机本身运动产生的干扰怎么办 一个直观的想法是去除相机运动那如何估计呢 运动边界描述符MBHMotion Boundary Histograms。 如下图所示该方法基于光流梯度计算用于捕获像素之间的相对运动即运动边界能够去除局部恒定的相机运动保留关于运动变化的信息这样一来就能够有效区分前景动作和背景中的相机运动。换句话说MBH的引入使得行为识别对相机运动具有鲁棒性 当然这张图中还展示了HOG与HOF的效果私以为比较重要所以详细索索 1. HOG (Histograms of Oriented Gradients) 代表图像中的梯度方向和大小关注静态外观信息在上图中HOG描述符通过颜色色调表示梯度/流向的方向通过饱和度表示梯度/流向的大小正式因为关注场景中的静态特征所以HOG对相机运动不敏感。 2.HOF (Histograms of Optical Flow) 代表像素点在视频帧之间的光流变化捕捉局部运动信息在图中HOF描述符同样通过颜色色调表示光流的方向通过饱和度表示光流的大小HOF描述符包含了由于相机运动引起的背景中的恒定运动可能会对行为识别造成干扰。 3 方法论 3.1 密集采样Dense Sampling 【目的】 确保在视频的每一帧中都能均匀地覆盖特征点以便捕捉到足够的局部运动信息和上下文信息。 【采样过程】 Step1网格采样 首先在每个空间尺度上单独进行网格采样采样点间隔为W像素。这样可以保证特征点在所有空间位置和尺度上均匀覆盖。 作者通过实验证明W5 的时候效果是最优的 Step2去除同质区域点 这里需要思考一个问题在Step1中是不是所有点都需要密集采样 前景人像的运动的确很重要但背景往往是不会变化的此时如果对背景同样进行密集采样必然会引入不必要的信息且增加计算负担。 于是作者在这里采用了一个Shi和Tomasi1994提出的一个方法根据网格上每一个点的自相关矩阵的特征值大小选择保留或去除。具体来说对于图像中的点i如果其本征值λ1和λ2的最小值小于某个阈值T则移除该点。阈值T设置为图像中所有点最小特征值的最大值的0.001倍这样说有点绕其实公式一目了然 这样一来区域中的无效点就不必要追踪了可以提高特征点的质量。 这里还需要说明一下论文中提到了“同质区域”homogeneous image areas而笔者上面提及了“背景区域”实际上并不准确。因此下面对两者做一个区分 同质区域Homogeneous Region 指的是在图像或视频中颜色、亮度、纹理等方面变化不大的区域。这些区域可能包含背景也可能包含前景中的平坦物体表面。其最大的特征是缺乏显著的边缘或纹理信息使得它们在图像处理中难以区分。背景区域Background Region 指视频中或图像中作为前景物体衬托的部分通常是静态的不随时间变化。背景区域通常包括场景中的固定物体和结构如墙壁、地板、家具等。 下图展示的是经密集采样并在去除了同质区域特征点后的效果图 3.2 轨迹Trajectories 【目的】 在 3.1 密集采样特征点的基础上提取轨迹并计算与这些轨迹对齐的描述符。 【过程】 Step1轨迹提取 首先在每个空间尺度上独立地对采样点进行跟踪。这意味着对于视频中的每一帧都会计算其相对于下一帧的密集光流场。 定第 t 帧中的点 Pt(xt,yt)其在第 t1 帧中跟踪到的位置通过在光流场 ωt(ut,vt) 上应用中值滤波来平滑得到  其中M是中值滤波核大小为3×3像素。这个时候又会有疑问为啥是中值滤波 作者在论文中给出了一个图很好诠释了中值滤波的优点如下 其中蓝色点属于背景应该保持在原位而红色点属于前景物体应该跟随物体移动。当使用双线性插值时运动边界变得模糊导致前景和背景的运动信息混淆而使用中值滤波能够保持运动边界的清晰度从而更好地区分前景和背景的运动。 所以中值滤波的优点是什么 从上述图可以直观体会到的确可以保持运动边界的清晰度减少模糊可以提高轨迹跟踪的质量。 本质原因是中值滤波对异常值的鲁棒性。例如对于噪声或快速运动造成的误差中值滤波只取邻域中的中值而不是平均值所以会更加稳定。 Step2光流场计算 采用Farneback2003的算法计算密集光流场其核心在于通过在两个连续帧的邻域之间嵌入平移运动模型并使用多项式展开来近似像素强度。 Step3轨迹长度限制 为了克服跟踪过程中的漂移问题将轨迹长度限制为L帧从而确保轨迹不会偏离其初始位置太远。 作者通过实验证明L15 的时候效果是最优的 Step4轨迹的后处理 一方面静态轨迹是不包含运动信息的轨迹另一方面具有突然大位移的轨迹可能是错误轨迹。 这两类轨迹的纳入会影响追踪效果所以在后处理时选择去除 3.3 运动和结构描述符Motion and Structure Descriptors 【目的】 设计描述符来嵌入视频的外观和运动信息从而捕捉视频中的动态结构以更全面地表征动作。 【描述符计算】 空间-时间体积沿着轨迹计算描述符以编码运动信息。论文中定义了一个与轨迹对齐的空间-时间体积其大小为N×N像素长度为L帧。 空间-时间网格将空间-时间体积细分为nσ×nσ×nτ大小的网格并在每个网格单元中计算一个描述符例如HOG、HOF或MBH在“方法论”的示意图中可以体现最终的描述符是这些单元描述符的串联。 【描述符类型】 1.梯度和光流直方图HOGHOF前面笔者已做过介绍这两种描述符是用来描述静态外观和局部运动信息的。2.运动边界直方图MBH去除局部恒定的相机运动保留运动边界信息。 由于算法的后两个步骤相对比较简单所以论文中算法架构图只显示了前面三部分。 接下来笔者对后两部分做一个简单的描述包括构建codebook以及分类。 3.4 特征表示 【目的】 将高维的局部特征转换为一组离散的视觉词汇visual words这样它们就可以被用来表示和比较图像或视频内容。这里采用的Bag of Features 形象化描述议一下BoF 把一堆单词特征扔进一个袋子池里不考虑它们的顺序和位置只关注单词的种类和数量。 这种表示方法能够捕捉图像或视频中的全局信息同时忽略局部特征的具体位置有助于提高模型的泛化能力。 【过程】 Step1提取特征 从视频中提取局部特征论文中提取了轨迹、HOG、HOF、MBHx和MBHy等。 Step2使用k-means聚类构建Codebook 从训练数据中随机选择一部分局部特征论文中是100000个然后使用k-means算法将这些特征聚类成预定数量的视觉词汇论文中是4000个。 为了提高聚类的质量论文对k-means算法进行了8次初始化并保留误差最小的结果。避免局部最优解 Step3特征向量化 对于每一个video计算其局部特征与 Codebook 中每个视觉词汇的相似度并构建一个直方图。其中每个维度代表一个视觉词汇的出现频率 3.5 分类Classification 采用非线性核的SVM对利用 BoF 表征的 features  进行训练论文将不同的描述符通过多通道方法做了结合公式如下 最后论文采用一对多的策略来处理多类分类问题即每个类别都与其它所有类别进行比较并选择得分最高的类别作为预测结果。 4 实验结果 讲了那么多方法论接下来看看结果毕竟实践才是检验真理的唯一标准 4.1 不同描述符的比较  |  Comparison of Different Descriptors 本节的实验主要是对比不同描述符Trajectory、HOG、HOF、和MBH在动作识别任务中的效果并确定它们对最终识别性能的贡献。结果如下图 【结论】 Trajectory 通过捕捉轨迹的动态变化来表征动作在某些数据集上表现出色背景简单、跟踪容易例如KTH、IXMAS和UIUC。HOG 关注静态外观信息在包含大量体育动作的数据集上表现良好如YouTube、UCF Sports和Olympic Sports。HOF 捕捉局部运动信息在多个数据集上都有一定的效果但在某些情况下可能受到相机运动的干扰。MBH 通过编码相对运动来减少相机运动的影响在所有数据集上都显示出优越的性能尤其是在真实世界视频数据集上如YouTube、UCF50和HMDB51。当结合所有描述符Combined时识别性能进一步提升这表明不同描述符之间存在互补性。相辅相成、相得益彰~~ 4.2 与基线轨迹的比较  |  Comparison to Baseline Trajectories 基线方法包括KLT轨迹、SIFT轨迹以及密集立方体Dense Cuboids。结果如下图 【结论】 KLT轨迹使用Kanade-Lucas-Tomasi跟踪器来提取兴趣点并跟踪较为稀疏所以可能无法捕捉到快速或复杂运动的全部细节。SIFT轨迹通过匹配连续帧之间的SIFT描述符来提取轨迹在处理视频时较为稳健但可能在运动变化细微的视频中表现不佳因为SIFT特征点是基于空间直方图的不够局部化。密集立方体是一种不依赖于轨迹跟踪的方法它在空间-时间体积中直接提取描述符而不关心轨迹的动态变化。密集轨迹 vs Others与KLT轨迹和SIFT轨迹相比密集轨迹在识别准确率上较优与密集立方体相比密集轨迹同样优秀密集立方体虽然简单、计算效率高但可能无法充分利用视频中的运动信息密集表示 vs 稀疏表示密集表示在大部分数据集上都是优于稀疏表示的这也是直觉上能感觉到的采样点越多、越密集就有更大的可能在不同的背景和遮挡条件下捕捉到动作的关键信息也能捕捉到快速变化从而提高动作识别的准确性。总的来说密集轨迹在九个dataset上效果都是最佳的 4.3 不同光流算法的比较  |  Comparison of Different Optical Flow Algorithms 光流计算用于估计图像中像素点在连续帧之间的运动是密集轨迹的前提。 在实验中论文采用了两种光流算法进行对比具体如下 Farneb¨ack2003算法​​​​​​该算法基于多项式扩展用于两帧之间的运动估计提供了一个在速度和准确性之间较好的折中方案。Brox和Malik2011算法该算法是一种大型位移光流算法包含了全局平滑性约束能够处理更大的运动位移。 后者在理论上能够提供更准确的光流估计但经实验证明在YouTube和Hollywood2上两者的整体性能相似但后者计算成本更高。因此为了平衡计算效率与准确性论文最后采用了Farneb¨ack2003算法。 对比实验结果图 ​​​​​​ 4.4 轨迹参数评估  |  Evaluation of Trajectory Parameters 实际上这一节的内容可以理解成消融研究。论文中评估了算法中的各种参数对动作识别性能的影响包括轨迹长度、采样步长、邻域大小、单元网格结构、空间尺度数量和刷新率。 参数的最终选择核心是在保持高识别率的同时平衡计算成本。 实验结果如图所示详细的分析请阅读论文笔者在此不再赘述 4.5 计算复杂度分析  |  Computational Complexity Analysis 这节主要是为了分析算法执行的效率尤其是考虑到实际应用中对实时或近实时处理的需求。 下图展示的是算法主要步骤的时间消耗占比主要包括光流计算、轨迹追踪、描述符计算、特征存储。从结果来看光流计算占据了大半部分时间描述符计算占据第二。 论文提及如果只计算MBH描述符描述符计算时间可以减少约46%这表明在计算资源有限的情况下可以选择性地计算特定的描述符。 此外论文还探讨了不同的参数设置如采样步长、空间尺度数量和刷新率对计算速度和特征数量的影响。结果如下图所示 【结论】 1顶部左侧图展示了不同采样步长对计算速度的影响随着采样步长的增加即采样点变得更稀疏计算速度提高待处理的数据量减少。但是如果步长过大可能会丢失重要的运动信息影响特征的表达能力。 2顶部右侧图展示了不同采样步长对每帧特征数量的影响可以发现采样步长越小每帧中的特征点数量越多。更密集的采样意味着更多的点被选取用于计算 3底部左侧图展示了不同空间尺度数量对计算速度的影响增加空间尺度数量可以提高特征的尺度不变性但同时也会增加计算负担。 4底部右侧图展示了不同刷新率对计算速度和每帧特征数量的影响。刷新率是指在视频序列中采样特征点的频率。较低的刷新率意味着在连续帧之间跳过一些帧不进行特征提取从而减少计算量。图中显示刷新率对计算速度的影响较小但会显著减少每帧的特征数量。 4.6 与最新技术比较  |  Comparison to State-of-the-Art Results 与SOAT效果进行对比结果发现论文提出的算法在7个dataset上都是最优的 结论与启发 作者考虑到了实际行为识别中的问题而不限于实验室环境即存在相机扰动因此采用边界描述符MBH进行缓解 在密集采样中作者利用每一个点的自相关矩阵的特征值进行筛选特征点实际上这个操作和注意力机制的思想还是挺像的保留重要区域抑制不重要区域。只不过后者认为哪怕是一些不重要的区域可以当成 noise 提升鲁棒性这也是一种不错的选择或许也可以成为这份工作的一个改进方向 融合不同描述符产生了“涌现”的效果不同的描述符如轨迹形状、HOG、HOF和MBH各自捕捉视频内容的不同方面。通过融合这些描述符模型能够从多个角度理解视频内容从而提高识别的准确性 最后笔者认为这份工作实验设计比较全面同时也在九个数据集上做了验证工作量较大这为算法在不同场景下的表现提供了丰富的视角不过在某些参数/方法选择时仅在个别数据集上做了实验或许是为了给后来者留下一些思考与进一步考究
http://www.dnsts.com.cn/news/153842.html

相关文章:

  • wordpress代码缩进灯塔seo
  • 建设个人网站ip做海报有什么参考的网站
  • 网站备案接入商变更赌粉在哪个平台引流
  • 网站优化的关键词照片做视频的网站
  • 寻找合肥网站建设高唐建筑公司网站
  • 泰州企业网站模板建站做调查的网站有哪些
  • wordpress伪静态结构衡水seo培训
  • 好的app设计网站有哪些深圳公司注册地址要求
  • 做网站送给女友意义汕头网站建设推广平台
  • 官方网站建设思路专业vi设计哪家好
  • python3 做网站瑞安地区建设网站
  • 宣城网站建设jidela建设公司企业愿景
  • 外贸网站开发 河南阿里云服务器怎么发布网站
  • 南充网站建设费用广州优质网站建设案例
  • 天津定制开发网站厦门广告公司排名
  • o2o的网站有哪些高校部门网站建设
  • 用typecho做的网站wordpress手机全部显示
  • 郑州市网站建设公司wordpress用户注册添加密码
  • 网站与客户端的区别吗温江建设局网站
  • 企业网站后端模板重庆网站优化建设
  • 个人网站花多少钱我想在家办个小型加工厂
  • 联享品牌网站建设公司电商网站开发平台浏览器
  • jsp网站建设毕业设计p2p理财网站开发要求
  • 自己做网站卖东西开发网址
  • 鄂尔多斯网站推广移动互联网开发课程
  • 几大网站类型wordpress 关闭rss
  • 松江建设新城有限公司网站四川南充房产信息网
  • 网站子页面如何做seo网站建设 利润
  • 怎么做淘宝客手机网站网站免费申请建站
  • 网站做端口是什么情况烟台网站改版