当前位置: 首页 > news >正文

网站的术语给别人做网站别人经营违法

网站的术语,给别人做网站别人经营违法,厦门翔安建设局网站,设计的拼音#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: Number it: Temporal Grou… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: Number it: Temporal Grounding Videos like Flipping Manga 作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang arXiv: https://arxiv.org/abs/2411.10332 摘要 视频大型语言模型Vid-LLMs在理解视频内容以进行问答对话方面取得了显著进展。 然而它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难这些任务被称为视频时间定位VTG。 为了解决这一差距我们引入了数字提示NumPro这是一种新颖的方法它通过为每个视频帧添加独特的数字标识符使Vid-LLMs能够将视觉理解与时间定位相结合。 将视频视为一系列编号的帧图像NumPro将VTG转化为一个直观的过程按顺序翻阅漫画分镜。 这使得Vid-LLMs能够“阅读”事件时间线准确地将视觉内容与相应的时序信息联系起来。 我们的实验表明NumPro显著提高了顶级Vid-LLMs的VTG性能而无需额外的计算成本。 此外在NumPro增强的数据集上进行微调为VTG定义了新的最先进水平在关键帧检索的mIoU上超越了之前的最优方法高达6.9%在突出检测的mAP上提高了8.5%。代码将在https://github.com/yongliang-wu/NumPro上提供。 主要贡献 我们引入了NumPro这是一种新颖的方法通过在视频帧上叠加帧号增强了视频大型语言模型Vid-LLMs的视频时间定位VTG能力使时间定位变得与翻阅漫画时跟随编号面板一样直观。通过实验研究我们发现了一种合适的NumPro设计字体大小、颜色和位置确保模型的高可检测性同时最小程度地干扰原始视频内容。我们在无训练和微调场景下对标准VTG基准和指标进行了彻底的NumPro评估证明了其在各种模型和数据集上的有效性。 Number-Prompt 方法 我们的数字提示NumPro方法提供了一种简单而有效的解决方案以增强现有视频大型语言模型Vid-LLMs的视频时间基础VTG能力无论是在无训练还是微调设置下。 Attention Analysis 当前视频语言模型将视频处理为一系列帧。视频的视觉表示可以视为每个单独帧的拼接表示将离散帧的信息汇总为全面的视频级别。这允许视频语言模型通过将帧图像的视觉表示与语言查询的文本表示对齐来理解视频。 为了探索视频时间定位VTG的挑战我们分析了帧图像token表示和查询语言token之间的注意力图然后评估了相关视频帧的时间描述。以Qwen2-VL-7B为案例研究我们突出了VTG对视频语言模型Vid-LLMs的挑战虽然Vid-LLMs可以理解视频中正在发生的事件但它们难以将这种理解转化为描述事件开始和结束时间的文本描述。 具体来说我们以视频和语言查询作为输入从Qwen2-VL-7B的最终多头自注意力层中提取注意力分数。对于视频序列中的每一帧我们聚合所有对应该帧的视觉token在所有注意力头中的注意力分数。 如图2所示注意力图揭示了事件文本查询与目标视频片段之间的强相关性。这表明Qwen2-VL-7B能够有效地聚焦于与查询相关的帧这与模型在其他内容相关的视频理解任务中的出色表现一致。然而模型在表述正确的时间边界方面存在困难并产生了诸如“从200到599”这样的令人惊讶的幻觉。这一观察强调了需要机制来弥合空间特征对齐与Vid-LLMs的时间推理之间的差距这是我们NumPro方法旨在解决的问题。 NumPro and NumPro-FT 我们的方法编号提示NumPro使VidLLMs能够直接将特定视觉内容与其时间信息关联起来将时间定位转化为视觉对齐任务。如图3所示NumPro在无训练和微调场景下均能运行。 在无训练设置中每个视频帧都标有相应的帧号。通过利用VidLLMs内置的光学字符识别OCR功能我们使它们能够通过与视觉内容相关的帧号“读取”时间线。为了阐明添加的数字对Vid-LLMs的目的我们在每个事件查询前添加一条简单的指令“每个帧上的红色数字代表帧号。”这种方法允许Vid-LLMs通过直接将帧号与语言查询相联系准确识别帧级边界。 为了提高性能NumPro-FT在NumPro增强的数据集上微调VidLLMs。这一阶段将训练数据中的帧数与时间跨度对齐将时间定位能力嵌入到模型的学得表示中。在微调过程中我们冻结视觉编码器仅微调视觉投影器和LLM组件。为了减少参数数量和训练开销我们应用低秩自适应LoRA来调整LLM。我们的训练目标是最大化通过自回归语言模型生成正确答案token A \mathbf{A} A 的可能性 P ( A ∣ V , T instruct ) ∏ j 1 L P θ ( A j ∣ V , X instruct , A j ) P(\mathbf{A} \mid V, T_{\text{instruct}}) \prod_{j1}^{L} P_\theta(A_j \mid V, X_{\text{instruct}}, \mathbf{A}_{j}) P(A∣V,Tinstruct​)j1∏L​Pθ​(Aj​∣V,Xinstruct​,Aj​) 其中 V V V 代表输入视频 θ \theta θ 表示可训练参数 T instruct T_{\text{instruct}} Tinstruct​ 表示文本指令 L L L 表示答案序列 A \mathbf{A} A 的长度 A j \mathbf{A}_{j} Aj​ 包含所有在当前token A j \mathbf{A}_{j} Aj​ 之前的答案token。 Design of Numerical Prompt 一个有效的NumPro设计必须确保 数字易于模型识别对视觉内容的干扰最小。 先前的研究表明视觉提示的出现和位置可以影响模型的注意力。 鉴于所有Vid-LLMs都在336 × 336的固定分辨率下运行我们通过评估三个因素来优化NumPro字体大小、颜色和帧编号的放置位置。 为了确定有效的NumPro设计我们使用两个主要指标数字准确性评估模型识别叠加数字的能力字幕准确性衡量添加数字后原始字幕与帧内容的一致性。平衡这两个指标我们可以选择数字清晰可辨且不会干扰主要视频内容的NumPro配置。 为了使设计选择在各种模型和数据集上具有鲁棒性我们在MSCOCO数据集的子集上进行了基于CLIP的实验分别计算了数字准确率和字幕准确率。 我们使用CLIP ViT-B/32模型生成视觉和文本表示因为许多Vid-LLMs都使用CLIP风格的视觉编码器这使得我们的发现能够很好地推广到Vid-LLMs。 COCO图像-字幕对作为视频帧的代理避免了直接VTG测试的高成本和有限的可扩展性。 具体来说我们从MSCOCO中随机选择了1,000个不同的图像-字幕对并在各种配置下将“0”到“99”的数字叠加到图像上。 如图4所示我们首先从CLIP视觉和文本编码器中获取表示并计算它们之间的中间相似度分数即数字和标题相似度。使用添加的数字和原始标题作为真实情况我们选择具有最高相似度分数的文本数字和标题作为预测以计算数字和标题准确率。平衡这些准确率的配置对NumPro设计最优。 如图5所示我们的研究结果指出增大字体大小可以提高数字准确性但会降低标题准确性这表明中等字体大小40或60是最优的。在颜色选择方面标题准确性在不同颜色下相对稳定。红色在数字准确性方面表现出最佳性能而黑色效果最差。这一发现也与先前的研究一致。 此外将文本置于图像中心会因与关键视觉元素重叠而显著降低标题准确性而将数字置于右下角则能在标题和数字准确性之间提供最佳平衡。最后我们为最终的NumPro设计选择了40号的字体大小、红色和右下角的位置。这一设计搜索使NumPro能够更好地利用Vid-LLMs固有的OCR和视觉语言对齐能力以增强视频时间定位。 在实践中基于CLIP的设计提供的是近似而非确定的指导对Vid-LLMs进行VTG数据集的进一步测试可能产生额外的模型特定见解。 实验 总结 本文提出了一种名为Number-PromptNumPro的简单而高效的视觉提示旨在无需努力地增强视频大型语言模型Vid-LLMs的视频时间定位VTG能力。 通过在视频内容上叠加帧数NumPro利用Vid-LLMs固有的光学字符识别OCR和视觉-语言对齐能力使它们能够准确地将事件映射到特定的时序边界。 通过基于COCO启发式算法的系统设计并在VTG基准测试中得到验证我们证明了NumPro在支持细粒度时序理解的同时还能保持一般视频理解。 通过广泛的评估我们证明了NumPro在无训练和微调设置下均能持续达到最先进的性能使其能够适应性地集成到闭源和开源的Vid-LLMs中。 NumProFT进一步提升了时间定位性能在VTG任务中建立了新的SOTA。 此外对一般视频-QA的微小影响表明NumPro可以在保持稳健视频理解的同时增强VTG。
http://www.dnsts.com.cn/news/180626.html

相关文章:

  • 诊断网站seo现状的方法WordPress推送至QQ
  • 大型网站建设教程asp做网站步骤
  • 怎样用flash做游戏下载网站美丽定制 网站模板
  • 合肥做企业网站求个网站谢谢
  • 设计师联盟网站别人帮我做的网站没用要交费用吗
  • 任县城乡建设局网站青岛建站合作
  • 哈尔滨网站建设哪家好而且价格不贵免费推广网站平台排名
  • 网站开发者招聘做任务赚佣金的正规平台
  • 网站建设基础教程人教版intitlt 山西大同网站建设
  • 学做网站 为了熊掌号wordpress第一次进来要几秒钟
  • 做的最好的门户网站网站开发专业大学
  • 企业网站开发数据库设计wordpress core
  • 网站名称查询活动营销
  • 网站建设项目分工用dw如何做网站链接
  • 佛山自助建站系统国家建设部网站首页
  • 在网站做博客淄博做网站的公司都有哪些
  • 网站空间域名免费阿里云云栖wordpress
  • 租好服务器咋做网站呢宝塔面板
  • 抚宁建设局网站人才网招聘找工作
  • 企业网站用什么cms比较好与传统营销相比网络营销的优势
  • 网站查询域名解析外贸公司网站建设 重点是什么意思
  • 网站建设基本流程规范怎样申请网站注册
  • 1 建设网站目的是什么意思页游和做网站
  • 怎么做网站站内搜索宁波网站建设明细报价
  • 国外免费可以做网站的服务器企业网站建设指导思想
  • 网站的按钮怎么做wordpress调用新版媒体库
  • 深圳加盟网站建设wordpress文章标题过长
  • 做网站 网络科技公司十大app黄皮软件排行榜
  • 网站运营内容包含哪些网页构建
  • 外国媒体网站黑糖wordpress主题破解