网站地图对seo的影响,wordpress怎么置顶,奉贤做网站制作,域名展示网站源码我自己的原文哦~ https://blog.51cto.com/whaosoft/11638131
#端到端任务
说起端到端#xff0c;每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点#xff01;特斯拉率先吹响了方案更新的号角#xff0c;无论是完全端到端#xff0c;还是专注于planner的模型每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点特斯拉率先吹响了方案更新的号角无论是完全端到端还是专注于planner的模型各家公司基本都投入较大人力去研发小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案效果着实不错非常有研究价值。
为什么需要端到端
首先我们聊一下当前的主流自动驾驶方案主要核心部分包括感知模块、预测模块、规控模块。每个模块相对独立感知模块给预测模块提供动静态障碍物信息预测模块为规控模块提供规划的参考规划再转换为控制指令。从传感器端到控制端需要多个功能支持这就不可避免导致了累积误差一旦碰到问题需要整个pipeline做分析。而且每个模块的优化并不能保证整个系统达成最优解。 这个时候就希望有一种模型能够完成感知信息的无损传递即从传感器端到输出控制策略端这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单比如机动车、行人、甚至occ输出的非通用几何障碍物的检测与预测来完成是人为定义的规则和抽象。随着产品的迭代每一次都需要添加各类case设计各种博弈的策略从模型训练到工程部署再到逻辑设计时间和人力成本高昂。 而且这种方式无法罗列所有情况那么是否可以通过对整个场景的学习抽象无损的将所有信息传递给PnC部分这就是我们期望的端到端。端到端核心是优化最终目标且全局可导作为一个完整的优化任务来看直接求最优解而不是先求感知再求规控的最优解。
端到端效果怎么样
今年各大自动驾驶公司都在预研和落地相关端到端方案小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显各大自动驾驶公司都在拼命布局揽人对应岗位薪资水涨船高某想甚至开出了七位数给到该岗位。
那么各家的端到端自动驾驶效果怎么样呢先来看看国外的特斯拉
再来看看国内的UniAD效果
不得不说端到端是一个更简约的方法更具有全场景的优化能力。
端到端有哪些技术栈
行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案包括某鹏的XPlanner。顾名思义完全端到端是从传感器直接到规控而专注于planner的端到端以感知模块的输出作为先验替换原来以规则作为主要形式的PnC模块。 从传感器到控制策略的如果把条件再放松下也可以到轨迹输出完全端到端方案更为简约但同样面临一个问题可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性但训练仍然是个难题。在足够体量和质量的数据群下效果能够得到保证泛化性能也不错。 而专注于planner的端到端方案如果深究的话只能算狭义上的端到端但更贴合当下的量产方案和任务而且可解释性也较高是目前主机厂和自动驾驶公司优先推行和落地的。
如果从信息输入的角度上来看又可以分为纯视觉方案UAD、UniAD这类和多模态方案FusionAD这类传感器成本不断在下降多模态方案也一直是行业里面都在关注的点。 #国内智驾感知技术的7位“掌舵人
今年「端到端」席卷自动驾驶行业以来各个智驾主流团队的人员配置均发生了巨大的改变其中规控和感知团队的技术骨干动荡尤为剧烈。
感知在自动驾驶中一直是很重要的一环它是自动驾驶汽车能否成功实现自主导航和操作的关键决定了自动驾驶汽车“看得清多少路”以及是否能适应复杂多变的交通环境。「端到端」概念的”崛起“自动驾驶感知技术也从传统的“模块化”架构向“统一化“架构转型而转型期间自然会遇到重重障碍这时团队的掌舵人必须看清目标带领团队在风潮中安全前行。
今天特地梳理了国内自动驾驶行业感知领域的7位大佬他们深受自动驾驶行业工程师们敬佩与膜拜为中国自动驾驶感知的发展进步做出了重要贡献。
如在阅读过程中您发现了疏漏欢迎向我们指正建议
刘兰个川2008年本科毕业于北京大学物理学院物理专业。2014年毕业于美国密歇根大学安娜堡分校University of Michigan, Ann Arbor获得物理学博士学位。
博士毕业后刘兰个川在硅谷和圣地亚哥的多家科技公司任职利用人工智能进行工业探伤和医学图像处理2015年2月2017年4月他在PerkinElmer担任高级探测器物理学家2017年5月10月刘兰个川在ZEISS Group担任软件开发工程师负责机器学习解决方案的工作。这一阶段的工作经历使他对人工智能领域有了初步的了解和实践。
2017年10月刘兰个川加入由高通员工创立的AI初创公司12 sigma图玛深维逐渐成为一名深度学习专家。在12 sigma工作的一年半以来他提升了自己的深度学习和技术管理经验为后续的职业生涯打下了坚实的基础。
2019年3月刘兰个川离开12 sigma加入小鹏汽车。最初任职自动驾驶算法总监负责小鹏汽车智能辅助系统感知功能的研发并协助搭建小鹏在美国圣地亚哥感知团队后来全面负责小鹏汽车自动驾驶Xpilot系统感知功能的研发成为小鹏汽车自动驾驶团队的核心成员。刘兰个川担任小鹏自动驾驶AI团队负责人期间带领团队从零到一搭建了自动驾驶的BEV感知大模型XNet并参与了中国最大的自动驾驶智算中心“扶摇”的搭建和维护。曾任小鹏自动驾驶平台北京负责人、XPILOT总监。2023年7月末刘兰个川离开了小鹏汽车。
离开小鹏后刘兰个川随即加入Anker并出任VP负责具身智能方面机器人大模型的研发工作。2024年1月刘兰个川离开Anker两个月后加入了Nvidia担任感知技术板块的总负责人。
彭超2014年本科毕业于武汉大学空间信息与数字技术专业2017年硕士毕业于清华大学软件工程大数据专业。
2016年4月2018年11月彭超在Megvii (Face)度过了两年半之久的实习和第一份正式工作的生涯。在Megvii实习和工作期间他主要负责通用物体分割、通用物体检测和图像分类等三个领域的研究和应用落地工作取得了世界顶尖的成绩。
2018年12月彭超加入Momenta担任高级视觉算法工程师负责无人驾驶感知算法基础研发工作在此期间积累了丰富的自动驾驶技术经验。
离开Momenta后彭超加入了蔚来汽车2024年6月随着蔚来智能驾驶研发部的调整彭超被任命为合并后的大模型团队的负责人。他负责带领团队在深度神经网络和智能驾驶技术方面进行研究与应用推动蔚来智能驾驶技术的发展。
同时彭超还是CVPR、ICCV、ECCV和AAAI等顶会的审稿人他在多家顶会顶刊都发表过优秀paper诸如《Objects365: A Large-Scale,High-QualityDatasetfor ObjectDetection》、《An End-to-End Network for Panoptic Segmentation》等。
陈晓智2012年本科毕业于清华大学电子工程系2017年获清华大学电子工程博士学位。
正式工作前陈晓智曾在微软和百度有过两段实习经历分别于2012年9月2013年年5月在微软任职软件开发实习生2016年7月2017年5月在百度自动驾驶感知团队任实习生。
2017年7月陈晓智加入大疆时任高级机器学习工程师。2020年1月他被任命为机器学习研发经理并在2023年大疆车载“单飞”为卓驭科技后担任卓驭科技感知团队的总负责人。
陈晓智亲自带队的感知部门致力于智能驾驶系统的感知技术预研和产品落地工作。该部门在算法岗位方向有着丰富的需求包括但不限于单目/双目深度估计、光流估计、SLAM、三维重建、Nerf、模型轻量化设计、分布式训练、物体检测、语义分割、多传感器融合、图像增强、ISP以及传感器标定等方向。
张雨2016年获卡内基梅隆大学计算机视觉的硕士学位发表过多篇高影响力论文。
硕士毕业1年后张雨加入Waymo Research担任软件研发工程师2019年5月张雨离开了Waymo。离开Waymo后他随即加入轻舟智航目前担任轻舟智航感知总监已在轻舟经历了5年多的任期是计算机视觉、机器人学、机器学习等领域的专家负责轻舟智航感知模块算法研发工作。
李阳光2009年本科毕业于吉林大学计算机科学与技术专业2012年获中科院计算技术研究所硕士学位。
硕士毕业后李阳光随即加入极客网担任软件工程师2013年10月他离开了极客网。离开极客网后不久李阳光火速入职百度担任高级软件工程师在百度任职3年7个月。
2017年4月离开百度后李阳光加入小马智行担任感知领域技术负责人负责自动驾驶感知技术的研发及感知系统工程架构等工作。同时他也是小马智行车路协同项目的负责人负责推动车路协同技术的发展和应用场景的实践探索。
李阳光领导小马智行感知团队在感知系统方面取得了显著成果通过多样化传感器的配置和多传感器深度融合的方案实现了对自动驾驶车周围环境的精确感知。在车路协同领域他推动了多项示范场景的建设和应用如广州南沙的自动驾驶示范场景、亦庄交通队执法赋能等为车路协同技术的发展和应用提供了有力支持。
杨奎元2007年本科毕业于中国科学技术大学自动化专业2012年获中国科学技术大学自动化博士学位。
博士毕业的同年杨奎元加入微软担任研究员在这里度过了5年的职业生涯。2017年7月杨奎元从微软离职成为了DeepMotion深动科技的首席科学家兼联合创始人之一。在深动科技杨奎元度过了4年2个月的职业生涯。
2021年8月小米收购深动科技杨奎元也随之加入小米汽车成为智能驾驶部门感知方向的专家工程师。
杨奎元曾在深动科技带领团队研发了多传感器融合感知模组、高精地图自动化构图、高精度定位等技术方案在自动驾驶著名榜单KITTI、Cityscapes上多次取得优异成绩。他还发表了多篇顶级国际会议/期刊论文诸如《DenseASPP for semantic segmentation in street scenes》、《Hard-aware deeply cascaded embedding〉等他还获得了多项国际专利。由他孵化的多项基础技术已服务于高精地图自动化生产、4D时空数据自动化标注等领域。
董远强2010年毕业于美国密苏里大学哥伦比亚分校获电子和计算机工程专业博士学位。
2011年9月董远强加入UtopiaCompression担任计算机视觉科学家后于2015年11月离开UtopiaCompression。同年12月董远强加入Nvidia担任高级视觉算法工程师在Nvidia度过了3年4个月的职业生涯。
2019年4月董远强离开Nvidia加入腾讯驻美国团队担任首席科学家并负责智能驾驶感知方面的工作把控。
2021年4月董远强结束了在腾讯的工作生涯1个月后正式加入小鹏汽车担任智驾部门感知方向的首席工程师彼时向当时的智驾感知总负责人王弢汇报工作。随着王弢的离职和淡出一线董远强接管了小鹏汽车的智驾感知工作成为该领域的负责人。2022年8月董远强领导技术开发部的100成员团队团队人才涵盖感知、传感器融合、预测等领域。2023年11月董远强正式成为小鹏汽车智驾感知的总负责人并担任技术研发的掌舵者推动中美研发部门的智驾项目交付。
董远强曾发表过多篇优秀paper如《A Video-based Adaptive Intelligent Hemispherical Threat Detection System》《An Intelligent Visual Sensing System for Unmanned Surface Vehicle》等。 #CLIPContrastive Language-Image Pre-training
CLIP怎么“魔改”盘点CLIP系列模型泛化能力提升方面的研究
CLIPContrastive Language-Image Pre-training系列模型自推出以来在多个领域展现了强大的跨模态泛化能力比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中这有助于在缺乏大量标注数据的情况下提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务如视频行为识别即使在没有针对特定任务进行过训练的情况下也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景并梳理了近期发布的一些公众在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。 为了将CLIP扩展为多模态模型从而能够适用于多模态任务文章对CLIP进行了多种“改造”添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法CLIP可以被扩展为一个强大的多模态模型能够处理包括图像、视频、文本和音频在内的多种数据类型进而在多模态学习和理解任务中展现出强大的泛化能力。
1 局部物体识别
重新思考low-shot CLIP 适配中的视觉内容细化
Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang https://arxiv.org/abs/2407.14117 文章总结
最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练CLIP的low-shot能力。然而对原有模型的调整方法通常是在输入图像的全局视图上操作的因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题我们提出了在测试阶段的适应计算之前进行视觉内容细化VCR, Visual Content Refinement。具体来说我们首先将测试图像分解为不同的比例以将特征提取器的注意力转移到图像的细节上。然后我们选择每个尺度中具有最大预测边际max prediction margin的图像视图以过滤掉嘈杂的图像视图其中预测边际是根据预训练的 CLIP 模型计算的。最后我们根据所选图像视图的比例合并其内容以构建新的具有鲁棒性的表示。因此合并的内容可以直接用于帮助适配器专注于全局和局部部分而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务取得了比最先进方法的显著改进。例如与少样本分类任务的基线Tip-Adapter相比本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。
模型解析
本文的模型聚焦于图像多尺度分解即将测试图像分解成不同的尺度或称为“视图”旨在使特征提取器能够关注到图像中的细节信息通过多尺度分解不同尺度的图像视图能够捕捉到从全局到局部的多种特征。在每个尺度中选择最具代表性的图像视图即那些对分类任务贡献最大的视图以过滤掉噪声和冗余信息使用预训练的 CLIP 模型对每个图像视图进行预测并计算其预测边际。预测边际反映了模型对特定类别的确信程度通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中选择具有最大预测边际的图像视图。将不同尺度下选出的图像视图合并成一个新的表示该表示既包含全局信息也包含重要的局部细节对于不同尺度下的细化特征通过学习一个权重向量来实现该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并即将多个尺度的特征按照权重相加形成一个统一的表示。这个新的表示可以用于免训练适配器training-free adapter或提示学习器prompt learner帮助模型更有效地理解和适应不同的任务和数据。
该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并有效地提升了低样本 CLIP 适配的性能。
SAM2CLIP2SAM3D CT 扫描分割的视觉语言模型
Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias https://arxiv.org/abs/2407.15728 文章总结
本文提出了一种图像有效分割的新方法可以集成到任何模型和方法中对用于 Covid-19 检测的医学图像3D 胸部 CT 扫描进行分类。本文的方法包括视觉语言模型的组合这些模型对 CT 扫描进行分割然后将其馈送到名为 RACNet 的深度神经架构中用于 Covid-19 检测。特别是引入了一个名为 SAM2CLIP2SAM 的新框架进行分割该框架利用 Segment Anything Model SAM 和 Contrastive Language-Image Pre-Training CLIP 的优势在 CT 扫描中准确分割右肺和左肺随后将这些分割输出输入 RACNet用于对 COVID-19 和非 COVID-19 病例进行分类。首先SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板然后 CLIP 仅选择与感兴趣区域 ROI, regions of interest 相关的掩码即右肺和左肺最后SAM 被赋予这些 ROI 作为提示并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。
模型解析
文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything ModelSAM对CT扫描中的每一层slice进行初步分割生成多个基于部分的分割掩码part-based segmentation masks。利用Contrastive Language-Image Pre-TrainingCLIP模型从SAM生成的多个分割掩码中选择与感兴趣区域ROIs即右肺和左肺相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示prompts重新输入给SAMSAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。这些分割后的图像数据被输入到RACNet中RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构包括一个卷积神经网络CNN和一个递归神经网络RNN。RACNet通过处理这些分割后的图像数据提取相关特征并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。
该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势实现了对CT扫描中特定区域如肺部的精确分割。随后通过RACNet对分割后的图像数据进行深入分析提高了COVID-19诊断的准确性和可靠性。
2 图像生成
DiffX指导布局进行跨模态生成建模
Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang https://arxiv.org/abs/2407.15488 文章总结
扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是大多数扩散模型仅限于生成可见的 RGB 图像。事实上人类对世界的感知因各种观点而丰富包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGBX”生成的新型扩散模型称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集并辅以手动校正。值得注意的是DiffX 提供了一个简单而有效的跨模态生成建模管道该管道在双路径变分自动编码器 DP-VAE 的推动下在模态共享的潜在空间中进行扩散和去噪过程。此外结合了门控交叉注意力机制来连接布局和文本条件利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验DiffX在各种布局类型的指导下在三个RGBX数据集FLIR、MFNet和COME15K上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGBXY”或更多样化模态的潜力。
模型解析
文章首先使用LLaVA模型一种用于图像标注的模型来自动生成跨模态图像数据集的文本描述并辅以手动校正。然后利用DiffX模型进行跨模态生成建模该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器DP-VAE它允许在不同模态如RGB和X之间共享潜在表示从而支持跨模态生成。为了连接布局和文本条件DiffX模型结合了门控交叉注意力机制有效地将布局信息和文本信息相结合使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导DiffX模型利用Long-CLIP来嵌入长字幕从而能够处理更长的文本描述并将其转换为有效的特征表示这些特征表示被用于指导跨模态图像的生成过程。
DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术实现了有效的跨模态“RGBX”图像生成展示了在更复杂的跨模态生成任务如“RGBXY”或更多样化的模态中的潜力。
X-FormerMLLM的统一对比和重构学习
Sirnam Swetha Jinyu Yang Tal Neiman Mamshad Nayeem Rizve Son Tran Benjamin Yao Trishul Chilimbi Mubarak Shah https://arxiv.org/abs/2407.13851 文章总结
多模态大型语言模型 MLLM 的最新进展通过将视觉感知能力集成到大型语言模型 LLM 中彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 CL 的视觉编码器在捕捉整体表征方面表现出专业知识同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 MIM 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示来增强 MLLM 的视觉表示。为了实现这一目标本文推出了X-Former这是一种轻量级Transformer模块旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说X-Former 首先从两个冻结的视觉编码器即 CLIP-ViT基于 CL和 MAE-ViT基于 MIM中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。
模型解析
首先利用两个冻结的视觉编码器CLIP-ViT和MAE-ViT来引导视觉语言表示学习CLIP-ViT通过视觉语言对比学习策略进行预训练而MAE-ViT通过随机掩码图像建模机制进行训练两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息并同时学习全局和局部信息引入了一个轻量级的Transformer模块称为X-Former它扩展了Q-Former来整合全局和局部信息。X-Former的输入为一组可学习的query Z输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为queryQ-Former输出(Zq)作为key和value通过集成来自Q-Former的全局语义信息来对齐和增强M从而丰富了MAE特征(M’)。随后M’通过交叉注意整合全局和局部信息将Q-Former输出(Zq)增强到Z 。增强查询(Z )根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。
X-Former是一个轻量级的Transformer模块它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出并生成既包含全局语义信息又包含详细局部特征的视觉表示。
3 音频生成
盲文也能玩盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成
Chun Xu, En-Wei Sun https://arxiv.org/abs/2407.14212 文章总结
越来越多的中国人受到不同程度的视觉障碍的困扰这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCRVocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而用于培训的音频数据有限英语对于不同教育水平的视障人士来说并不通用。因此为了解决数据量和语言适用性问题提高视障人群的阅读效率构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型并采用了自主预训练和联合微调的策略。首先分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练并验证了它们的收敛性。随后使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明该模型在BLEU4、FADFréchet Audio Distance、WERWord Error Ratio等客观指标上均有所提升甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力也证明了整合多个基础模型的联合训练策略的有效性。
模型解析
CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段图像到文本阶段image-to-text和文本到语音阶段text-to-speech。图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习在MUGE等公开数据集上进行预训练学习图像与文本对的特征再基于Chinese CLIP模型提取的特征利用KNN算法从图像中检索出文本信息KNN根据正负样本之间的特征差异来提取文本。文本到语音阶段使用Fastspeech2 文本转语音模型在Baker等公开数据集上进行预训练学习文本到语音的映射关系。输入上一阶段生成的文本生成对应的mel频谱图并将其解码为语音。
最后使用自建的盲文图像数据集Braille dataset进行联合微调。
4 动作识别
M2-CLIP一种用于视频动作识别的多模态、多任务自适应框架
Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu https://arxiv.org/abs/2401.11649 文章总结
近年来大规模视觉语言预训练模型(如CLIP)的兴起再加上参数高效微调(PEFT)技术在视频动作识别领域引起了极大的关注。然而流行的方法倾向于优先考虑强大的监督性能代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战同时保持高监督性能和鲁棒可移植性。首先为了增强单个模态体系结构我们在可视化和文本分支中引入了多模态适配器。具体来说文章设计了一种新的视觉TED适配器它执行全局时间增强和局部时间差分建模以提高视觉编码器的时间表示能力。此外我们采用文本编码器适配器来加强语义标签信息的学习。其次文章设计了一个具有丰富监督信号集的多任务解码器以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性在监督学习中表现出卓越的性能同时在零样本场景中保持了很强的泛化。
模型解析
M2-CLIP框架输入为视频V和文本标签y视频经过视频编码器处理后其特征在时间维度上进行平均池化得到最终的视频表示v。文本标签经过文本编码器处理后得到文本表示w。输出为通过多任务解码器得到的分类结果可以用于监督学习任务和零样本分类任务。M2-CLIP引入了多模态适配器包括一个视觉TED-Adapter用于改善视觉编码器的时间表示能力来实现全局时间增强Temporal Enhancement和局部时间差异local temporal Difference建模以及一个文本编码器适配器用于加强学习语义标签信息。M2-CLIP的多任务解码器包括对比学习头Contrastive Learning Head用于对齐视频和文本表示的成对表示使用对比学习损失进行优化跨模态分类头Cross-Modal Classification Head, CMC用于突出跨模态特征的判别能力通过将问题转化为1-C分类任务来增强跨模态相似性分数跨模态掩码语言模型头Cross-Modal Masked Language Modeling Head, CMLM在文本分支的最后一层设计促进视觉特征聚焦于动作动词的识别使用BERT掩码语言模型头来预测掩码词视觉分类头Visual Classification Head, VC在视觉分支末端引入用于增强不同类别视频特征的区分度使用线性层进行分类。
M2-CLIP框架能够在保持高监督性能的同时实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器它们共同作用于视频和文本的联合表示学习并通过不同的学习任务来提升模型的语义对齐和类别区分能力。
细粒度知识图谱驱动的视频语言学习用于动作识别
Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan https://arxiv.org/abs/2407.14146 文章总结
最近的工作已经探索了视频动作识别作为视频-文本匹配问题并提出了几种基于大规模预训练视觉语言模型的有效方法。然而这些方法主要在粗粒度的层面上运行而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距我们提出了一个由知识图谱指导的对比视频语言学习框架称为KG-CLIP它将结构化信息整合到视频领域的CLIP模型中。具体来说我们通过基于组合学习的解析动作构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器和偏差补偿来自适应优化实体距离函数中的边际我们的模型旨在改善知识图谱中实体的对齐以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS一个大规模的动作解析数据集上全面评估了KG-CLIP证明了其与竞争基线相比的有效性。特别是我们的方法在样本帧少或训练数据有限的情况下在动作识别方面表现出色表现出优异的数据利用和学习能力。
模型解析
KG-CLIP通过解析视频内容如动作、场景、物体等和相关的文本描述如动作标签、句子描述等构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素如动作、身体部位的运动还包含了它们之间的语义关系和上下文信息如动作描述、概念标签等。在构建好知识图谱后KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层使其能够接收知识图谱中的结构化信息如实体嵌入、关系向量等以在视频领域实现更高效的视频-文本匹配。然后利用CLIP模型的视觉编码器部分从视频中提取出丰富的视觉特征包括视频中的基本元素如颜色、纹理、形状等及更高级别的语义信息如动作、场景等。KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息它接收知识图谱中的三元组作为输入并输出每个实体和关系的向量表示如头实体, 关系, 尾实体。这些向量表示随后被用于计算实体之间的距离和相似性。KG-CLIP引入了偏差补偿机制根据实体的具体特征和它们之间的关系动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性从而提高模型的整体性能。
KG-CLIP通过一系列创新性的设计如知识图谱构建、三元编码器实现、偏差补偿机制等成功地将结构化信息整合到CLIP模型中并在视频动作识别等任务中取得了显著的性能提升。
5 零样本异常检测
AnomalyCLIP用于零样本异常检测的对象识别提示学习
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen https://arxiv.org/abs/2310.18961 文章总结
最近大型预训练视觉语言模型 VLM例如 CLIP在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而它们的零样本异常检测(ZSAD)性能较弱因为VLM更侧重于对前景对象foreground objects的类语义进行建模而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法即AnomalyCLIP使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示这些文本提示会捕获图像中的一般正常性和异常性而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。
模型解析
AnomalyCLIP设计了两种通用的与对象无关文本提示Object-Agnostic Text Prompts模板一种用于正常性normality另一种用于异常性abnormality。这些提示模板不包含具体对象的语义而是专注于捕获图像中的异常模式无论前景对象是什么。然后进行全局上下文优化和局部上下文优化通过交叉熵损失函数将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配以捕获全局特征中的正常/异常语义。通过焦点损失Focal Loss和Dice损失优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。通过在CLIP文本编码器的每一层添加可学习的标记嵌入token embeddings来精细化原始文本空间使其更适合异常检测任务。通过引入对角突出的注意力图Diagonally Prominent Attention Map, DPAM来改进局部视觉空间使得注意力图更加关注局部视觉语义从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征以提供更多的局部视觉细节增强模型对异常区域的识别能力。
AdaCLIP使用混合可学习提示的自适应CLIP用于零样本异常检测
Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi https://arxiv.org/abs/2407.15795 文章总结
零样本异常检测ZSAD的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务利用预训练的视觉语言模型VLMCLIP。AdaCLIP将可学习的提示整合到CLIP中并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示静态提示和动态提示。静态提示在所有图像中共享用于初步调整CLIP以适应ZSAD。相比之下为每个测试图像生成动态提示为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明AdaCLIP优于其他ZSAD方法可以更好地推广到不同的类别甚至领域。最后我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。
模型解析
AdaCLIP引入了两种类型的提示——静态提示Static Prompts和动态提示Dynamic Prompts。静态提示在所有图像中共享它们在训练过程中从辅助数据中学习用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来形成混合提示这样可以提高模型对新类别图像的异常检测性能。为了解决CLIP原始架构中图像嵌入Patch Embeddings与文本嵌入维度不匹配的问题AdaCLIP添加了一个投影层来对齐这些嵌入的维度并通过引入偏差的线性层增加了一些可学习的参数以进一步微调CLIP。AdaCLIP还引入了混合语义融合模块Hybrid Semantic Fusion, HSF用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图Anomaly Maps基于图像嵌入Patch Embeddings和文本嵌入Text Embeddings之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测从而更准确地定位和识别图像中的异常区域。
综上AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数这些分数表示图像及其像素是否正常或异常。 #交互感知再升级
感知预测规划在Waymo24挑战赛中有哪些亮点 赛事链接https://cvpr2024.wad.vision/ CVPR 2024 Workshop on Autonomous Driving (WAD) 作为自动驾驶领域的重要盛会随着自动驾驶技术飞速发展不断与时俱进全面覆盖自动驾驶的各个领域包括感知、行为预测以及运动规划等。其中的Waymo Open Dataset Challenges 的参赛者需利用Waymo提供的大规模开放数据集开发并优化其自动驾驶算法以应对复杂多变的交通场景。
2024CVPR Waymo挑战赛有以下赛道
1运动预测给定相应地图上过去1秒的历史agent以及此时间间隔的相关激光雷达和相机数据预测未来8秒内最多8个代理的位置。可以选择使用激光雷达和摄像头数据。
2模拟agent给定代理在相应地图上过去1秒的轨迹以及可选的此时间间隔的相关激光雷达为场景中的所有agent模拟32个逼真的联合预测。
33D语义分割给定一个或多个激光雷达距离图像和相关的相机图像为每个激光雷达点生成语义类标签。
4占用和流量预测根据最后一秒观察到的agent轨迹预测所有观察到的和被遮挡的车辆的BEV占用和运动流量。
参赛作品往往致力于融合多个模型框架从而使模型能够处理多模态输入数据激光雷达和摄像头数据。这些作品多在损失函数策略方面创新或使用多种损失函数来优化模型通过更新锚点、恢复历史轨迹、采用多帧训练、改进场景编码等方法提高模型与场景的交互性从而提高模型对多个agent对象预测的稳健性提升模型在复杂场景中的表现。除了改进模型架构设计以外参赛者还会后续不断评估模型的性能并根据评估结果对模型进行持续优化这包括调整模型结构、优化超参数、改进数据预处理和数据增强方式等。
运动预测挑战 MOTION PREDICTION CHALLENGE
1stMTR v3模型
MTR v3: 1st Place Solution for 2024 Waymo Open Dataset Challenge - Motion Prediction
Chen Shi, Shaoshuai Shi, Li Jiang, The Chinese University of Hong Kong (Shenzhen) , DiDi Global 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%201st%20Place%20-%20MTR%20v3.pdf 本文提出的解决方案名为MTR v3是基于先进的MTR框架进行扩展。通过引入原始LiDAR数据和动态更新的锚点来改进模型同时采用简单的模型集成技术进一步提升性能。模型包括场景编码器网络和运动解码器网络其中场景编码器网络的输入为历史轨迹、道路地图和原始LiDAR点云之后通过LiDAR编码器分割网络提取体素特征生成语义标签并在BEV空间中进行编码再使用Transformer编码器通过查询中心化的局部自注意力层来聚合特征。运动解码器网络首先从K个意图点锚点生成每个焦点代理的意图查询Intention Querying再输入解码器层通过交叉注意力模块更新意图查询以聚合来自代理特征、地图特征和LiDAR特征的信息。最后通过预测头Prediction Head使用多层感知机预测多模态未来轨迹表示为高斯混合模型(GMM)。
实验过程中文章进行了动态锚点与模型集成。动态锚点即采用动态更新和不同的锚点根据预测的轨迹终点动态选择正意图查询以适应特定场景提高回归能力。并且文章训练多个模型变体在推理时采用模型集成策略通过非最大抑制(NMS)选择前6个预测轨迹。实验结果显示该在Waymo开放数据集运动预测挑战赛中排名第一soft mAP为0.4967优于其他方法。
关键技术与贡献
LiDAR数据融合通过引入原始LiDAR数据提供细粒度的语义信息改善了对行人运动的预测。
动态锚点更新采用动态更新和不同的锚点解决了传统方法中锚点稀疏导致的高回归误差问题。
模型集成策略通过模型集成技术进一步提升了最终的性能表现。
2ndModeSeq模型
Zikang Zhou, Jianping Wang, Yung-Hui Li, Yu-Kai Huang - City University of Hong Kong, Hon Hai Research Institute, Carnegie Mellon University 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%202nd%20Place%20-%20ModeSeq.pdf ModeSeq框架是一种基于顺序模式建模的多模态运动预测框架利用RNN风格的Transformer模块顺序解码轨迹模式解决了多模态真实轨迹缺失的问题提高预测轨迹的多样性。ModeSeq框架的编码器采用QCNet中的因子化Transformer获取具有旋转平移不变性的场景嵌入scene embeddings。ModeSeq的层由记忆Transformer模块和因子化Transformer模块组成顺序解码多个轨迹模式。其中记忆Transformer通过注意力机制让当前查询特征关注之前解码的模式建模模式间的顺序依赖因子化Transformer利用时间Transformer、代理-地图Transformer和代理-代理Transformer进一步丰富查询特征。最后预测头使用多层感知机解码轨迹和置信度分数。ModeSeq通过堆叠多个ModeSeq层并进行迭代细化提升预测性能并在每个新层开始前根据置信度分数对模式嵌入进行排序确保解码顺序的合理性。
在训练策略优化上文章提出Early-Match-Take-AllEMTA训练策略采用EMTA损失优化最早匹配的轨迹鼓励模型尽早解码匹配轨迹。回归损失基于Laplace负对数似然优化最早匹配的轨迹。分类损失使用二元焦点损失Binary Focal Loss优化置信度分数通过单调递减的标签分配鼓励模型先输出更自信的模式。实验结果显示在验证集上ModeSeq在mAP、Soft mAP和Miss Rate上优于QCNet但在minADE和minFDE上略逊一筹。该方法在不牺牲过多minADE和minFDE的情况下显著提高了mAP、Soft mAP和Miss Rate为多模态问题提供了新的见解和解决方案。
3rdRMP_Ensemble
Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Yuhang Han, Keng Peng Tee, Anthony Wong, Marcelo H. Ang Jr. - National University of Singapore, Moovita Pte Ltd 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%203rd%20Place%20-%20RMP_Ensemble.pdf 准确预测周围交通参与者的未来轨迹对自动驾驶车辆至关重要。当前预测方法依赖完整的历史轨迹数据但在实际场景中由于遮挡、传感器故障和恶劣天气条件历史轨迹可能不完整。因此本文希望提出一个简单的恢复模块旨在恢复不完整的历史轨迹以增强预测鲁棒性。本文基于MTR框架进行修改引入恢复模块提出了RMP集成方法。除了使用当前交通灯信息外还纳入了历史相对运动信息作为输入上下文。使用多尺度LSTM和PointNet-like网络处理时空信息并通过多上下文门控MCG进行特征融合。恢复模块是通过局部注意力机制和MLP层恢复不完整的历史轨迹并将恢复的信息集成到代理标记中。编码器对特征通过多尺度LSTM和MCG模块进行聚合和融合利用局部注意力机制进行进一步特征提取。解码器与MTR解码器相同但在损失计算之间应用了演化和不同的锚点技巧。总损失函数由MTR原始损失和恢复损失组成旨在同时优化预测精度和恢复模块性能。其中恢复损失是通过L1损失计算恢复的历史轨迹与真实历史轨迹之间的差异。实验结果显示使用Waymo Open Motion Dataset进行训练和评估RMP集成方法在Soft mAP上排名第三重叠率排名第一ADE和FDE也表现出色。在车辆、行人和自行车类别上分别进行了详细评估展示了RMP方法在不同场景下的表现。文章还通过随机掩盖历史时间戳来评估方法的鲁棒性结果显示RMP方法在处理缺失历史数据方面显著优于MTR。
模拟agent挑战 SIM AGENTS CHALLENGE
1stBehaviorGPT
Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue - City University of Hong Kong, University of Victoria, Hon Hai Research Institute, Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%201st%20Place%20-%20BehaviorGPT.pdf BehaviorGPT在自动驾驶领域展现了卓越性能在Waymo开放模拟代理挑战中其0.7473的现实性得分和1.4147的minADE得分令人瞩目且仅使用3M模型参数。该技术强调自动驾驶系统安全性评估的重要性通过模拟实现低成本、大规模的离线测试。BehaviorGPT利用仅解码器自回归模型提高数据和参数效率模拟逼真的agent对验证自动驾驶系统至关重要。
BehaviorGPT采用NP3方法解决因果混淆问题通过轨迹补丁级别的推理reason at the patch level促进长范围交互建模long-range interactions modeling提高预测准确性。该模型还通过混合模型捕捉智能体行为的多样性利用链式法则分解状态分布进一步提升了多智能体系统行为预测的能力。此外BehaviorGPT引入相对时空表示法relative spatial-temporal positional embeddings通过QCNet模型在空间和时间上对称地建模补丁处理多代理交互和动态环境。同时通过维护输入元素间的相对位置嵌入有效保持空间-时间关系提高代理的反应性和预测准确性。
总之BehaviorGPT通过创新的架构和算法为自动驾驶领域的研究与发展提供了新的思路和工具。其高性能的模拟和准确的预测能力将有助于推动自动驾驶系统的进一步完善和应用。
2ndVBD
Zhiyu Huang, Zixu Zhang, Jaime Fernández Fisac, Chen Lv - Nanyang Technological University, Princeton University 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%202nd%20Place%20-%20VBD.pdf 本文介绍了一种名为Versatile Behavior Diffusion ModelVBD的交通模拟框架该框架旨在模拟智能体在复杂交通环境中的逼真且可控行为。VBD模型通过结合场景编码器query-centric Transformer encoder、去噪器Transformer denoiser和行为预测器Transformer-based multi-modal marginal trajectory predictor能够有效模拟多代理的联合行为scene-level joint behaviors of agents并在高度交互的交通场景下降低碰撞风险。该模型利用地图和代理的历史状态作为条件输入通过去噪和可控采样技术生成高质量的交通场景。此外VBD模型还采用了一种基于动态函数的代理行为分析方法将代理行为转化为物理状态为行为预测提供了有力工具。通过编码多源输入包括代理历史、地图信息和交通灯状态VBD模型能够在复杂环境中实现准确的决策和预测。此外该模型还采用了一种改进的场景编码方法通过共享GRU网络和基于查询的Transformer层实现场景元素间相互关系的高效编码。在Waymo 2024 Sim Agents基准测试中VBD模型表现出竞争性的性能为智能交通系统的研究提供了有力支持。
3rdTrafficBotsV1.5
Zhejun Zhang, Christos Sakaridis, Luc Van Gool - ETH Zurich 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%203rd%20Place%20-%20TrafficBotsV1.5.pdf TrafficBots V1.5是基于条件变分自编码器CVAE, conditional variational autoencoder和异构折线变换器HPTR, Heterogeneous Polyline Transformer with Relative pose encoding的先进交通代理闭环模拟基线方法。它通过为每个交通代理学习特定策略根据历史数据预测其行动并在Waymo OpenSim Agents Challenge 2024中取得显著成绩。V1.5引入共享决策策略设定导航目的地和人格特性并采用相对姿态编码和K-最近邻注意力模块KNARPE, K-nearest Neighbor Attention with Relative Pose Encoding优化Transformer性能。该方法摒弃了RNN采用堆叠历史观测作为输入结合PointNet处理时间数据保留了HPTR的优势同时提高了效率和准确性。通过计划性教师强制和采样场景过滤TrafficBots V1.5在目标预测器上实现显著改进尽管在交通灯状态预测方面存在局限但整体性能通过多项优化措施得到提升。该方法为多代理交通模拟提供了新的可能性并公开代码供研究者使用为交通模拟领域的研究提供了有力基线方案。
三维语义分割挑战 3D SEMANTIC SEGMENTATION CHALLENGE
1stPTv3-EX
Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao - The Univeristy of Hong Kong, Shanghai AI Laboratory, National University of Singapore, Nanyang Technological University 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%201st%20Place%20-%20PTv3-EX.pdf 在2024年Waymo开放数据集挑战赛中Point Transformer V3 Extreme凭借其前沿的多帧训练multi-frame training和无裁剪点策略no-clipping-point policy在语义分割赛道中荣登榜首。该模型不仅通过即插即用训练和推理技术显著提升了性能还通过详细的训练设置和策略优化充分利用了Waymo高分辨率LiDAR扫描和全面标注数据的优势。Point Transformer V3 Extreme的成功展示了其在自动驾驶领域内的技术实力和创新能力为3D感知技术的发展提供了新的方向。该模型通过优化backbone设计、引入数据增强技术和无裁剪点策略提高了处理复杂现实世界环境数据的能力为语义分割领域的研究和应用提供了有价值的参考。此外本文还探讨了点云数据的序列化方法和多帧训练策略强调了它们在提升点云处理性能中的关键作用。
2ndMixSeg3D
Qing Wu - Marvell Technology 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%202nd%20Place%20-%20MixSeg3D.pdf 2024年Waymo开放数据集挑战赛中MixSeg3D以其独特的3D语义分割解决方案荣获第二名。该方法融合了MinkUNet稀疏卷积网络和LaserMix、PolarMix两种3D数据增强策略有效提升了模型在复杂LiDAR点云数据中的感知能力。MixSeg3D不仅克服了训练数据多样性不足的问题还显著提高了模型的泛化性和鲁棒性为自动驾驶技术的环境理解和导航提供了强有力的支持。MinkUNet以其高效的稀疏卷积操作和稳健的特征提取能力在处理大规模LiDAR点云数据时表现出色。而LaserMix和PolarMix的引入进一步增强了模型对未知数据的适应能力。MixSeg3D的成功不仅为自动驾驶领域带来了新的技术突破也为未来的3D语义分割研究提供了新的思路和方法。
3rdvFusedSeg3D
Osama Amjad, Ammad Nadeem - VisionRD 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%203rd%20Place%20-%20vFusedSeg3d.pdf VFusedSeg3D是由VisionRD团队开发的多模态融合系统其利用相机和LiDAR数据的互补性通过精心设计的网络架构在3D感知和分割精度上取得了显著进步。该系统结合了相机的丰富语义信息和LiDAR的精确深度感知通过两个并行特征提取流和创新的融合技术实现了对环境的全面理解。在验证集上VFusedSeg3D达到了72.46%的mIoU树立了新的性能基准。
系统采用了DLA34作为图像侧的主干网络并引入了改进的语义特征聚合模块SFAM和语义特征融合模块SFFM来有效结合LiDAR和相机的特征。由于计算资源限制系统采用了分阶段训练策略成功解决了高网格分辨率导致的内存溢出问题。此外通过全局变换和多种图像增强技术增强了模型的泛化能力。总的来说VFusedSeg3D以其高效的网络结构和多模态融合技术为需要精确环境感知的应用提供了理想解决方案展现了在3D感知领域的重要突破。
占用率和流量预测 OCCUPANCY FLOW CHALLENGE
1stDOPP
Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, Hongyang Gao, Chen Lv - Nanyang Technological University 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%201st%20Place%20-%20DOPP.pdf 本文提出并详细阐述了一种创新的DOPP系统及其MS-OccFormer模块该模块通过多阶段对齐实现了高精度的占用流场预测并结合了智能体边际运动预测的一致性意识。DOPP系统通过可微分的集成方式有效提升了未来交通状态预测的精度特别是在处理复杂交通场景时展现出强大的能力。MS-OccFormer模块则通过全局和局部交互将占用预测和向后流预测与边缘预测特征相结合进一步提升了预测精度。此外该系统还采用了一种集成学习范式持续更新预测目标确保预测结果的连贯性和准确性。这些创新技术不仅为自动驾驶系统的安全运行提供了更为坚实的预测支持同时也为处理多智能体预测中的一致性问题提供了新的解决方案。未来工作将围绕进一步优化预测性能解决运动预测与占用预测不可解耦的挑战展开。
2ndSTNet
Gaeun Kim, Daeil Han, YeongJun Koh, Hanul Kim - Seoul National University of Science and Technology, Chungnam National University 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%202nd%20Place%20-%20STNet.pdf 本文提出了一种创新的自动驾驶占用率和流量预测方法该方法通过整合agent和静态特征利用一维时间卷积和时空编码器构建多尺度特征图。该模型基于CAFormer-S18架构改造而来通过空间和时间信息的融合以及多尺度聚合有效处理包含时间维度的数据。解码器部分采用自回归设计结合双线性插值和串联操作以自回归方式预测未来帧。预测头部分利用卷积层和激活函数生成占用和流图并通过多损失函数组合优化预测性能。该方法在Waymo开放数据集挑战中取得优异成果充分展示了其在自动驾驶领域中的有效性。通过多尺度的特征提取和自回归的解码设计该模型为自动驾驶的准确预测提供了强大的技术支持对处理占用地图和流动场预测问题具有重要意义。
3rdHGNET
Zhan Chen, Chen Tang, Lu Xiong - Tongji University 链接https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%203rd%20Place%20-%20HGNET.pdf 本文提出了一种创新的层次特征引导网络HGNET, hierarchical feature guided network用于复杂交通场景中多智能体行为的预测。HGNET基于Transformer架构通过高效的特征提取和多模态交互建模有效整合了视觉、历史轨迹和地图信息显著提升了预测准确性。其中特征引导注意力模块FGAT利用潜在引导效果强化了特征间的相关性而TimeSeries Memory框架则增强了预测的时间一致性和因果关系。HGNET在Waymo Open Motion Dataset 1上表现出色尤其在占用流场轨迹预测方面。此外该系统还通过LSTM和跨注意力Transformer编码器全面捕获了交通代理与地图间的交互关系进一步提升了预测性能。通过结合文本和视觉特征以及引入层次特征引导解码器HGNET为自动驾驶领域提供了有力的技术支持尤其在处理被遮挡障碍物和提高预测连续性方面展现出巨大潜力。 #BEVGPT
BEVGPT展示自动驾驶『全知视角』预测决策规划三合一
预测、决策和运动规划对于自动驾驶至关重要。在大多数传统算法架构中它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而我们认为理想的算法是将它们整合到一个综合框架中且这种整合过程不应受到复杂的输入表示即输入解耦和冗余框架设计的困扰。为了解决上述问题我们重新思考了自动驾驶任务中各个模块的必要性并将所需的模块纳入到极简的自动驾驶框架中。我们提出了BEVGPT一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像BEV作为唯一输入源并根据周围的交通场景做出驾驶决策。最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。 ▲图1BEVGPT整体框架
如图所示BEVGPT采用两阶段训练过程。首先我们使用大量自动驾驶数据来训练生成式大模型。随后使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说预训练阶段的目标是学习驾驶场景预测和决策即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段通过在线学习的方式实现模型微调从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。
■2.1 框架设计
我们从人类驾驶员的角度重新评估每个模块的必要性以设计自动驾驶系统框架。首先人类驾驶员对环境地图有先验的知识比如在使用导航软件时每条道路的结构和路口位置都比较明显。其次人类驾驶员并不会显示地追踪周围的其他车辆并预测它们的未来轨迹。相反他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后他们会做出相应地驾驶决策。基于上述思考我们设计了一个极简的自动驾驶框架即包括决策运动规划和驾驶场景预测而把目标跟踪以及他车运动预测模块去掉了。在该框架中决策输出的是自车未来T4秒内的位置在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得如下图所示。 ▲图2驾驶场景预测
■2.2 轨迹表示
我们采用分段多项式轨迹来表示我们的微分平坦输出即和。为了在后续的motion planning模块中minimum Jerk我们选择五次多项式表示。假设轨迹总共由段组成。在这种情况下便可以表示为下面的多项式
这里的表示轨迹的段数每段具有相同的时间间隔。
■2.3 运动规划
在我们的轨迹规划问题中自车的初始状态和末状态已知。同时决策模块的输出应当被包含在未来的轨迹中。另外分段多项式轨迹的连续性也需要得到保证。因此我们的运动规划问题被表达为了如下的minimum Jerk问题
在这里我们将自车的初始状态和最终状态考虑在内同时确保了两个相邻轨迹段之间的连续性和光滑性并且考虑了最大速度和最大加速度的限制以确保动力学的可行性。
■3.1 数据集
我们采用了Lyft Level 5 Dataset这是一个由Houston等人于2021年提出的自动驾驶数据集包含了超过1000个小时的驾驶数据采集跨度4个月采集车辆是由20辆车组成的车队。关于数据处理我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒即240帧时间间隔秒的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。
■3.2 模型架构
GPT体系结构在自然语言处理NLP领域取得了很大的进展它通过添加因果自关注掩码来修改变压器体系结构从而自动回归生成预测tokens。由于其强大的理解和泛化能力我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。 ▲表1BEVGPT超参数
■3.3 预训练
在预训练阶段BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力这里使用均方误差MSE作为Loss。
这里我们采用三角函数来平衡预测和决策的loss。
■3.4 在线微调
我们使用的是Woven Planet L5Kit进行自动驾驶仿真以微调预训练模型。BEV输入模型后输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹而后得到BEV的预测。回看上面的loss公式模型要fine-tuning需要地图的信息这里我们开发了一种经验光栅化器experience rasterizer以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过时间间隔的仿真后就可以获得接下来BEV图像的真实数据。这部分的loss如下
因为这里仿真器是按照预测的轨迹进行走的所以轨迹那项的loss是0。我们使用Woven Planet L5Kit模拟器进行在线微调以适应运动规划和精确的BEV生成。
我们采用以下指标来评估的模型的决策能力和运动规划能力
●最终位移误差指标FDE指的是最终预测位置与参考位置之间的距离。
●平均位移误差指标ADE指的是时刻t之前所有预测位置与参考位置的均方误差。
●最终距离参考轨迹的距离指标FDR指的是时刻t预测位置与参考轨迹中最近点的距离。
●平均距离参考轨迹的距离指标ADR指的是时刻之前所有预测位置与参考轨迹中其最近位置的均方误差。
●L2误差L2在仿真过程中执行的轨迹和日志记录中的真实位置之间的均方误差。
●碰撞率CR它指的是模拟持续时间t内发生碰撞帧与全部帧的比例。
●越野率OR它指的是驶离道路帧数与全部帧的比例。判断指标定义为参考轨迹与自车之间的距离大于2米。
评价结果如下表所示结果显示我们提出的BEVGPT在决策和规划任务中优于许多现有的方案。 ▲表2实验结果
未来我们将在极端情况下测试所提出方法的鲁棒性并进一步改进框架。未来研究的一个有潜力的方向是提高BEVGPT模型的实时性能将其部署在自动驾驶汽车上。我们的目标是带来一个更安全、更可靠、更高效的自动驾驶框架。 #盘点CLIP系列模型泛化能力提升方面的研究
CLIPContrastive Language-Image Pre-training系列模型自推出以来在多个领域展现了强大的跨模态泛化能力比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中这有助于在缺乏大量标注数据的情况下提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务如视频行为识别即使在没有针对特定任务进行过训练的情况下也能够表现出良好的性能。
为了将CLIP扩展为多模态模型从而能够适用于多模态任务文章对CLIP进行了多种“改造”添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法CLIP可以被扩展为一个强大的多模态模型能够处理包括图像、视频、文本和音频在内的多种数据类型进而在多模态学习和理解任务中展现出强大的泛化能力。
1 局部物体识别
重新思考low-shot CLIP 适配中的视觉内容细化
Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang https://arxiv.org/abs/2407.14117 文章总结
最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练CLIP的low-shot能力。然而对原有模型的调整方法通常是在输入图像的全局视图上操作的因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题我们提出了在测试阶段的适应计算之前进行视觉内容细化VCR, Visual Content Refinement。具体来说我们首先将测试图像分解为不同的比例以将特征提取器的注意力转移到图像的细节上。然后我们选择每个尺度中具有最大预测边际max prediction margin的图像视图以过滤掉嘈杂的图像视图其中预测边际是根据预训练的 CLIP 模型计算的。最后我们根据所选图像视图的比例合并其内容以构建新的具有鲁棒性的表示。因此合并的内容可以直接用于帮助适配器专注于全局和局部部分而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务取得了比最先进方法的显著改进。例如与少样本分类任务的基线Tip-Adapter相比本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。
模型解析
本文的模型聚焦于图像多尺度分解即将测试图像分解成不同的尺度或称为“视图”旨在使特征提取器能够关注到图像中的细节信息通过多尺度分解不同尺度的图像视图能够捕捉到从全局到局部的多种特征。在每个尺度中选择最具代表性的图像视图即那些对分类任务贡献最大的视图以过滤掉噪声和冗余信息使用预训练的 CLIP 模型对每个图像视图进行预测并计算其预测边际。预测边际反映了模型对特定类别的确信程度通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中选择具有最大预测边际的图像视图。将不同尺度下选出的图像视图合并成一个新的表示该表示既包含全局信息也包含重要的局部细节对于不同尺度下的细化特征通过学习一个权重向量来实现该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并即将多个尺度的特征按照权重相加形成一个统一的表示。这个新的表示可以用于免训练适配器training-free adapter或提示学习器prompt learner帮助模型更有效地理解和适应不同的任务和数据。
该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并有效地提升了低样本 CLIP 适配的性能。
SAM2CLIP2SAM3D CT 扫描分割的视觉语言模型
Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias https://arxiv.org/abs/2407.15728 文章总结
本文提出了一种图像有效分割的新方法可以集成到任何模型和方法中对用于 Covid-19 检测的医学图像3D 胸部 CT 扫描进行分类。本文的方法包括视觉语言模型的组合这些模型对 CT 扫描进行分割然后将其馈送到名为 RACNet 的深度神经架构中用于 Covid-19 检测。特别是引入了一个名为 SAM2CLIP2SAM 的新框架进行分割该框架利用 Segment Anything Model SAM 和 Contrastive Language-Image Pre-Training CLIP 的优势在 CT 扫描中准确分割右肺和左肺随后将这些分割输出输入 RACNet用于对 COVID-19 和非 COVID-19 病例进行分类。首先SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板然后 CLIP 仅选择与感兴趣区域 ROI, regions of interest 相关的掩码即右肺和左肺最后SAM 被赋予这些 ROI 作为提示并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。
模型解析
文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything ModelSAM对CT扫描中的每一层slice进行初步分割生成多个基于部分的分割掩码part-based segmentation masks。利用Contrastive Language-Image Pre-TrainingCLIP模型从SAM生成的多个分割掩码中选择与感兴趣区域ROIs即右肺和左肺相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示prompts重新输入给SAMSAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。这些分割后的图像数据被输入到RACNet中RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构包括一个卷积神经网络CNN和一个递归神经网络RNN。RACNet通过处理这些分割后的图像数据提取相关特征并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。
该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势实现了对CT扫描中特定区域如肺部的精确分割。随后通过RACNet对分割后的图像数据进行深入分析提高了COVID-19诊断的准确性和可靠性。
2 图像生成
DiffX指导布局进行跨模态生成建模
Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang https://arxiv.org/abs/2407.15488 文章总结
扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是大多数扩散模型仅限于生成可见的 RGB 图像。事实上人类对世界的感知因各种观点而丰富包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGBX”生成的新型扩散模型称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集并辅以手动校正。值得注意的是DiffX 提供了一个简单而有效的跨模态生成建模管道该管道在双路径变分自动编码器 DP-VAE 的推动下在模态共享的潜在空间中进行扩散和去噪过程。此外结合了门控交叉注意力机制来连接布局和文本条件利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验DiffX在各种布局类型的指导下在三个RGBX数据集FLIR、MFNet和COME15K上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGBXY”或更多样化模态的潜力。
模型解析
文章首先使用LLaVA模型一种用于图像标注的模型来自动生成跨模态图像数据集的文本描述并辅以手动校正。然后利用DiffX模型进行跨模态生成建模该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器DP-VAE它允许在不同模态如RGB和X之间共享潜在表示从而支持跨模态生成。为了连接布局和文本条件DiffX模型结合了门控交叉注意力机制有效地将布局信息和文本信息相结合使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导DiffX模型利用Long-CLIP来嵌入长字幕从而能够处理更长的文本描述并将其转换为有效的特征表示这些特征表示被用于指导跨模态图像的生成过程。
DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术实现了有效的跨模态“RGBX”图像生成展示了在更复杂的跨模态生成任务如“RGBXY”或更多样化的模态中的潜力。
X-FormerMLLM的统一对比和重构学习
Sirnam Swetha Jinyu Yang Tal Neiman Mamshad Nayeem Rizve Son Tran Benjamin Yao Trishul Chilimbi Mubarak Shah https://arxiv.org/abs/2407.13851 文章总结
多模态大型语言模型 MLLM 的最新进展通过将视觉感知能力集成到大型语言模型 LLM 中彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 CL 的视觉编码器在捕捉整体表征方面表现出专业知识同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 MIM 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示来增强 MLLM 的视觉表示。为了实现这一目标本文推出了X-Former这是一种轻量级Transformer模块旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说X-Former 首先从两个冻结的视觉编码器即 CLIP-ViT基于 CL和 MAE-ViT基于 MIM中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。
模型解析
首先利用两个冻结的视觉编码器CLIP-ViT和MAE-ViT来引导视觉语言表示学习CLIP-ViT通过视觉语言对比学习策略进行预训练而MAE-ViT通过随机掩码图像建模机制进行训练两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息并同时学习全局和局部信息引入了一个轻量级的Transformer模块称为X-Former它扩展了Q-Former来整合全局和局部信息。X-Former的输入为一组可学习的query Z输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为queryQ-Former输出(Zq)作为key和value通过集成来自Q-Former的全局语义信息来对齐和增强M从而丰富了MAE特征(M’)。随后M’通过交叉注意整合全局和局部信息将Q-Former输出(Zq)增强到Z 。增强查询(Z )根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。
X-Former是一个轻量级的Transformer模块它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出并生成既包含全局语义信息又包含详细局部特征的视觉表示。
3 音频生成
盲文也能玩盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成
Chun Xu, En-Wei Sun https://arxiv.org/abs/2407.14212 文章总结
越来越多的中国人受到不同程度的视觉障碍的困扰这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCRVocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而用于培训的音频数据有限英语对于不同教育水平的视障人士来说并不通用。因此为了解决数据量和语言适用性问题提高视障人群的阅读效率构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型并采用了自主预训练和联合微调的策略。首先分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练并验证了它们的收敛性。随后使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明该模型在BLEU4、FADFréchet Audio Distance、WERWord Error Ratio等客观指标上均有所提升甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力也证明了整合多个基础模型的联合训练策略的有效性。
模型解析
CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段图像到文本阶段image-to-text和文本到语音阶段text-to-speech。图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习在MUGE等公开数据集上进行预训练学习图像与文本对的特征再基于Chinese CLIP模型提取的特征利用KNN算法从图像中检索出文本信息KNN根据正负样本之间的特征差异来提取文本。文本到语音阶段使用Fastspeech2 文本转语音模型在Baker等公开数据集上进行预训练学习文本到语音的映射关系。输入上一阶段生成的文本生成对应的mel频谱图并将其解码为语音。
最后使用自建的盲文图像数据集Braille dataset进行联合微调。
4 动作识别
M2-CLIP一种用于视频动作识别的多模态、多任务自适应框架
Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu https://arxiv.org/abs/2401.11649 文章总结
近年来大规模视觉语言预训练模型(如CLIP)的兴起再加上参数高效微调(PEFT)技术在视频动作识别领域引起了极大的关注。然而流行的方法倾向于优先考虑强大的监督性能代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战同时保持高监督性能和鲁棒可移植性。首先为了增强单个模态体系结构我们在可视化和文本分支中引入了多模态适配器。具体来说文章设计了一种新的视觉TED适配器它执行全局时间增强和局部时间差分建模以提高视觉编码器的时间表示能力。此外我们采用文本编码器适配器来加强语义标签信息的学习。其次文章设计了一个具有丰富监督信号集的多任务解码器以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性在监督学习中表现出卓越的性能同时在零样本场景中保持了很强的泛化。
模型解析
M2-CLIP框架输入为视频V和文本标签y视频经过视频编码器处理后其特征在时间维度上进行平均池化得到最终的视频表示v。文本标签经过文本编码器处理后得到文本表示w。输出为通过多任务解码器得到的分类结果可以用于监督学习任务和零样本分类任务。M2-CLIP引入了多模态适配器包括一个视觉TED-Adapter用于改善视觉编码器的时间表示能力来实现全局时间增强Temporal Enhancement和局部时间差异local temporal Difference建模以及一个文本编码器适配器用于加强学习语义标签信息。M2-CLIP的多任务解码器包括对比学习头Contrastive Learning Head用于对齐视频和文本表示的成对表示使用对比学习损失进行优化跨模态分类头Cross-Modal Classification Head, CMC用于突出跨模态特征的判别能力通过将问题转化为1-C分类任务来增强跨模态相似性分数跨模态掩码语言模型头Cross-Modal Masked Language Modeling Head, CMLM在文本分支的最后一层设计促进视觉特征聚焦于动作动词的识别使用BERT掩码语言模型头来预测掩码词视觉分类头Visual Classification Head, VC在视觉分支末端引入用于增强不同类别视频特征的区分度使用线性层进行分类。
M2-CLIP框架能够在保持高监督性能的同时实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器它们共同作用于视频和文本的联合表示学习并通过不同的学习任务来提升模型的语义对齐和类别区分能力。
细粒度知识图谱驱动的视频语言学习用于动作识别
Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan https://arxiv.org/abs/2407.14146 文章总结
最近的工作已经探索了视频动作识别作为视频-文本匹配问题并提出了几种基于大规模预训练视觉语言模型的有效方法。然而这些方法主要在粗粒度的层面上运行而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距我们提出了一个由知识图谱指导的对比视频语言学习框架称为KG-CLIP它将结构化信息整合到视频领域的CLIP模型中。具体来说我们通过基于组合学习的解析动作构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器和偏差补偿来自适应优化实体距离函数中的边际我们的模型旨在改善知识图谱中实体的对齐以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS一个大规模的动作解析数据集上全面评估了KG-CLIP证明了其与竞争基线相比的有效性。特别是我们的方法在样本帧少或训练数据有限的情况下在动作识别方面表现出色表现出优异的数据利用和学习能力。
模型解析
KG-CLIP通过解析视频内容如动作、场景、物体等和相关的文本描述如动作标签、句子描述等构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素如动作、身体部位的运动还包含了它们之间的语义关系和上下文信息如动作描述、概念标签等。在构建好知识图谱后KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层使其能够接收知识图谱中的结构化信息如实体嵌入、关系向量等以在视频领域实现更高效的视频-文本匹配。然后利用CLIP模型的视觉编码器部分从视频中提取出丰富的视觉特征包括视频中的基本元素如颜色、纹理、形状等及更高级别的语义信息如动作、场景等。KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息它接收知识图谱中的三元组作为输入并输出每个实体和关系的向量表示如头实体, 关系, 尾实体。这些向量表示随后被用于计算实体之间的距离和相似性。KG-CLIP引入了偏差补偿机制根据实体的具体特征和它们之间的关系动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性从而提高模型的整体性能。
KG-CLIP通过一系列创新性的设计如知识图谱构建、三元编码器实现、偏差补偿机制等成功地将结构化信息整合到CLIP模型中并在视频动作识别等任务中取得了显著的性能提升。
5 零样本异常检测
AnomalyCLIP用于零样本异常检测的对象识别提示学习
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen https://arxiv.org/abs/2310.18961 文章总结
最近大型预训练视觉语言模型 VLM例如 CLIP在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而它们的零样本异常检测(ZSAD)性能较弱因为VLM更侧重于对前景对象foreground objects的类语义进行建模而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法即AnomalyCLIP使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示这些文本提示会捕获图像中的一般正常性和异常性而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。
模型解析
AnomalyCLIP设计了两种通用的与对象无关文本提示Object-Agnostic Text Prompts模板一种用于正常性normality另一种用于异常性abnormality。这些提示模板不包含具体对象的语义而是专注于捕获图像中的异常模式无论前景对象是什么。然后进行全局上下文优化和局部上下文优化通过交叉熵损失函数将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配以捕获全局特征中的正常/异常语义。通过焦点损失Focal Loss和Dice损失优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。通过在CLIP文本编码器的每一层添加可学习的标记嵌入token embeddings来精细化原始文本空间使其更适合异常检测任务。通过引入对角突出的注意力图Diagonally Prominent Attention Map, DPAM来改进局部视觉空间使得注意力图更加关注局部视觉语义从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征以提供更多的局部视觉细节增强模型对异常区域的识别能力。
AdaCLIP使用混合可学习提示的自适应CLIP用于零样本异常检测
Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi https://arxiv.org/abs/2407.15795 文章总结
零样本异常检测ZSAD的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务利用预训练的视觉语言模型VLMCLIP。AdaCLIP将可学习的提示整合到CLIP中并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示静态提示和动态提示。静态提示在所有图像中共享用于初步调整CLIP以适应ZSAD。相比之下为每个测试图像生成动态提示为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明AdaCLIP优于其他ZSAD方法可以更好地推广到不同的类别甚至领域。最后我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。
模型解析
AdaCLIP引入了两种类型的提示——静态提示Static Prompts和动态提示Dynamic Prompts。静态提示在所有图像中共享它们在训练过程中从辅助数据中学习用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来形成混合提示这样可以提高模型对新类别图像的异常检测性能。为了解决CLIP原始架构中图像嵌入Patch Embeddings与文本嵌入维度不匹配的问题AdaCLIP添加了一个投影层来对齐这些嵌入的维度并通过引入偏差的线性层增加了一些可学习的参数以进一步微调CLIP。AdaCLIP还引入了混合语义融合模块Hybrid Semantic Fusion, HSF用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图Anomaly Maps基于图像嵌入Patch Embeddings和文本嵌入Text Embeddings之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测从而更准确地定位和识别图像中的异常区域。
综上AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数这些分数表示图像及其像素是否正常或异常。
CLIPContrastive Language-Image Pre-training系列模型自推出以来在多个领域展现了强大的跨模态泛化能力比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中这有助于在缺乏大量标注数据的情况下提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务如视频行为识别即使在没有针对特定任务进行过训练的情况下也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景并梳理了近期发布的一些公众在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。
为了将CLIP扩展为多模态模型从而能够适用于多模态任务文章对CLIP进行了多种“改造”添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法CLIP可以被扩展为一个强大的多模态模型能够处理包括图像、视频、文本和音频在内的多种数据类型进而在多模态学习和理解任务中展现出强大的泛化能力。
1 局部物体识别
重新思考low-shot CLIP 适配中的视觉内容细化
Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang https://arxiv.org/abs/2407.14117 文章总结
最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练CLIP的low-shot能力。然而对原有模型的调整方法通常是在输入图像的全局视图上操作的因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题我们提出了在测试阶段的适应计算之前进行视觉内容细化VCR, Visual Content Refinement。具体来说我们首先将测试图像分解为不同的比例以将特征提取器的注意力转移到图像的细节上。然后我们选择每个尺度中具有最大预测边际max prediction margin的图像视图以过滤掉嘈杂的图像视图其中预测边际是根据预训练的 CLIP 模型计算的。最后我们根据所选图像视图的比例合并其内容以构建新的具有鲁棒性的表示。因此合并的内容可以直接用于帮助适配器专注于全局和局部部分而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务取得了比最先进方法的显著改进。例如与少样本分类任务的基线Tip-Adapter相比本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。
模型解析
本文的模型聚焦于图像多尺度分解即将测试图像分解成不同的尺度或称为“视图”旨在使特征提取器能够关注到图像中的细节信息通过多尺度分解不同尺度的图像视图能够捕捉到从全局到局部的多种特征。在每个尺度中选择最具代表性的图像视图即那些对分类任务贡献最大的视图以过滤掉噪声和冗余信息使用预训练的 CLIP 模型对每个图像视图进行预测并计算其预测边际。预测边际反映了模型对特定类别的确信程度通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中选择具有最大预测边际的图像视图。将不同尺度下选出的图像视图合并成一个新的表示该表示既包含全局信息也包含重要的局部细节对于不同尺度下的细化特征通过学习一个权重向量来实现该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并即将多个尺度的特征按照权重相加形成一个统一的表示。这个新的表示可以用于免训练适配器training-free adapter或提示学习器prompt learner帮助模型更有效地理解和适应不同的任务和数据。
该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并有效地提升了低样本 CLIP 适配的性能。
SAM2CLIP2SAM3D CT 扫描分割的视觉语言模型
Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias https://arxiv.org/abs/2407.15728 文章总结
本文提出了一种图像有效分割的新方法可以集成到任何模型和方法中对用于 Covid-19 检测的医学图像3D 胸部 CT 扫描进行分类。本文的方法包括视觉语言模型的组合这些模型对 CT 扫描进行分割然后将其馈送到名为 RACNet 的深度神经架构中用于 Covid-19 检测。特别是引入了一个名为 SAM2CLIP2SAM 的新框架进行分割该框架利用 Segment Anything Model SAM 和 Contrastive Language-Image Pre-Training CLIP 的优势在 CT 扫描中准确分割右肺和左肺随后将这些分割输出输入 RACNet用于对 COVID-19 和非 COVID-19 病例进行分类。首先SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板然后 CLIP 仅选择与感兴趣区域 ROI, regions of interest 相关的掩码即右肺和左肺最后SAM 被赋予这些 ROI 作为提示并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。
模型解析
文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything ModelSAM对CT扫描中的每一层slice进行初步分割生成多个基于部分的分割掩码part-based segmentation masks。利用Contrastive Language-Image Pre-TrainingCLIP模型从SAM生成的多个分割掩码中选择与感兴趣区域ROIs即右肺和左肺相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示prompts重新输入给SAMSAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。这些分割后的图像数据被输入到RACNet中RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构包括一个卷积神经网络CNN和一个递归神经网络RNN。RACNet通过处理这些分割后的图像数据提取相关特征并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。
该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势实现了对CT扫描中特定区域如肺部的精确分割。随后通过RACNet对分割后的图像数据进行深入分析提高了COVID-19诊断的准确性和可靠性。
2 图像生成
DiffX指导布局进行跨模态生成建模
Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang https://arxiv.org/abs/2407.15488 文章总结
扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是大多数扩散模型仅限于生成可见的 RGB 图像。事实上人类对世界的感知因各种观点而丰富包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGBX”生成的新型扩散模型称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集并辅以手动校正。值得注意的是DiffX 提供了一个简单而有效的跨模态生成建模管道该管道在双路径变分自动编码器 DP-VAE 的推动下在模态共享的潜在空间中进行扩散和去噪过程。此外结合了门控交叉注意力机制来连接布局和文本条件利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验DiffX在各种布局类型的指导下在三个RGBX数据集FLIR、MFNet和COME15K上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGBXY”或更多样化模态的潜力。
模型解析
文章首先使用LLaVA模型一种用于图像标注的模型来自动生成跨模态图像数据集的文本描述并辅以手动校正。然后利用DiffX模型进行跨模态生成建模该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器DP-VAE它允许在不同模态如RGB和X之间共享潜在表示从而支持跨模态生成。为了连接布局和文本条件DiffX模型结合了门控交叉注意力机制有效地将布局信息和文本信息相结合使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导DiffX模型利用Long-CLIP来嵌入长字幕从而能够处理更长的文本描述并将其转换为有效的特征表示这些特征表示被用于指导跨模态图像的生成过程。
DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术实现了有效的跨模态“RGBX”图像生成展示了在更复杂的跨模态生成任务如“RGBXY”或更多样化的模态中的潜力。
X-FormerMLLM的统一对比和重构学习
Sirnam Swetha Jinyu Yang Tal Neiman Mamshad Nayeem Rizve Son Tran Benjamin Yao Trishul Chilimbi Mubarak Shah https://arxiv.org/abs/2407.13851 文章总结
多模态大型语言模型 MLLM 的最新进展通过将视觉感知能力集成到大型语言模型 LLM 中彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 CL 的视觉编码器在捕捉整体表征方面表现出专业知识同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 MIM 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示来增强 MLLM 的视觉表示。为了实现这一目标本文推出了X-Former这是一种轻量级Transformer模块旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说X-Former 首先从两个冻结的视觉编码器即 CLIP-ViT基于 CL和 MAE-ViT基于 MIM中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。
模型解析
首先利用两个冻结的视觉编码器CLIP-ViT和MAE-ViT来引导视觉语言表示学习CLIP-ViT通过视觉语言对比学习策略进行预训练而MAE-ViT通过随机掩码图像建模机制进行训练两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息并同时学习全局和局部信息引入了一个轻量级的Transformer模块称为X-Former它扩展了Q-Former来整合全局和局部信息。X-Former的输入为一组可学习的query Z输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为queryQ-Former输出(Zq)作为key和value通过集成来自Q-Former的全局语义信息来对齐和增强M从而丰富了MAE特征(M’)。随后M’通过交叉注意整合全局和局部信息将Q-Former输出(Zq)增强到Z 。增强查询(Z )根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。
X-Former是一个轻量级的Transformer模块它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出并生成既包含全局语义信息又包含详细局部特征的视觉表示。
3 音频生成
盲文也能玩盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成
Chun Xu, En-Wei Sun https://arxiv.org/abs/2407.14212 文章总结
越来越多的中国人受到不同程度的视觉障碍的困扰这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCRVocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而用于培训的音频数据有限英语对于不同教育水平的视障人士来说并不通用。因此为了解决数据量和语言适用性问题提高视障人群的阅读效率构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型并采用了自主预训练和联合微调的策略。首先分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练并验证了它们的收敛性。随后使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明该模型在BLEU4、FADFréchet Audio Distance、WERWord Error Ratio等客观指标上均有所提升甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力也证明了整合多个基础模型的联合训练策略的有效性。
模型解析
CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段图像到文本阶段image-to-text和文本到语音阶段text-to-speech。图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习在MUGE等公开数据集上进行预训练学习图像与文本对的特征再基于Chinese CLIP模型提取的特征利用KNN算法从图像中检索出文本信息KNN根据正负样本之间的特征差异来提取文本。文本到语音阶段使用Fastspeech2 文本转语音模型在Baker等公开数据集上进行预训练学习文本到语音的映射关系。输入上一阶段生成的文本生成对应的mel频谱图并将其解码为语音。
最后使用自建的盲文图像数据集Braille dataset进行联合微调。
4 动作识别
M2-CLIP一种用于视频动作识别的多模态、多任务自适应框架
Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu https://arxiv.org/abs/2401.11649 文章总结
近年来大规模视觉语言预训练模型(如CLIP)的兴起再加上参数高效微调(PEFT)技术在视频动作识别领域引起了极大的关注。然而流行的方法倾向于优先考虑强大的监督性能代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战同时保持高监督性能和鲁棒可移植性。首先为了增强单个模态体系结构我们在可视化和文本分支中引入了多模态适配器。具体来说文章设计了一种新的视觉TED适配器它执行全局时间增强和局部时间差分建模以提高视觉编码器的时间表示能力。此外我们采用文本编码器适配器来加强语义标签信息的学习。其次文章设计了一个具有丰富监督信号集的多任务解码器以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性在监督学习中表现出卓越的性能同时在零样本场景中保持了很强的泛化。
模型解析
M2-CLIP框架输入为视频V和文本标签y视频经过视频编码器处理后其特征在时间维度上进行平均池化得到最终的视频表示v。文本标签经过文本编码器处理后得到文本表示w。输出为通过多任务解码器得到的分类结果可以用于监督学习任务和零样本分类任务。M2-CLIP引入了多模态适配器包括一个视觉TED-Adapter用于改善视觉编码器的时间表示能力来实现全局时间增强Temporal Enhancement和局部时间差异local temporal Difference建模以及一个文本编码器适配器用于加强学习语义标签信息。M2-CLIP的多任务解码器包括对比学习头Contrastive Learning Head用于对齐视频和文本表示的成对表示使用对比学习损失进行优化跨模态分类头Cross-Modal Classification Head, CMC用于突出跨模态特征的判别能力通过将问题转化为1-C分类任务来增强跨模态相似性分数跨模态掩码语言模型头Cross-Modal Masked Language Modeling Head, CMLM在文本分支的最后一层设计促进视觉特征聚焦于动作动词的识别使用BERT掩码语言模型头来预测掩码词视觉分类头Visual Classification Head, VC在视觉分支末端引入用于增强不同类别视频特征的区分度使用线性层进行分类。
M2-CLIP框架能够在保持高监督性能的同时实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器它们共同作用于视频和文本的联合表示学习并通过不同的学习任务来提升模型的语义对齐和类别区分能力。
细粒度知识图谱驱动的视频语言学习用于动作识别
Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan https://arxiv.org/abs/2407.14146 文章总结
最近的工作已经探索了视频动作识别作为视频-文本匹配问题并提出了几种基于大规模预训练视觉语言模型的有效方法。然而这些方法主要在粗粒度的层面上运行而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距我们提出了一个由知识图谱指导的对比视频语言学习框架称为KG-CLIP它将结构化信息整合到视频领域的CLIP模型中。具体来说我们通过基于组合学习的解析动作构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器和偏差补偿来自适应优化实体距离函数中的边际我们的模型旨在改善知识图谱中实体的对齐以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS一个大规模的动作解析数据集上全面评估了KG-CLIP证明了其与竞争基线相比的有效性。特别是我们的方法在样本帧少或训练数据有限的情况下在动作识别方面表现出色表现出优异的数据利用和学习能力。
模型解析
KG-CLIP通过解析视频内容如动作、场景、物体等和相关的文本描述如动作标签、句子描述等构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素如动作、身体部位的运动还包含了它们之间的语义关系和上下文信息如动作描述、概念标签等。在构建好知识图谱后KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层使其能够接收知识图谱中的结构化信息如实体嵌入、关系向量等以在视频领域实现更高效的视频-文本匹配。然后利用CLIP模型的视觉编码器部分从视频中提取出丰富的视觉特征包括视频中的基本元素如颜色、纹理、形状等及更高级别的语义信息如动作、场景等。KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息它接收知识图谱中的三元组作为输入并输出每个实体和关系的向量表示如头实体, 关系, 尾实体。这些向量表示随后被用于计算实体之间的距离和相似性。KG-CLIP引入了偏差补偿机制根据实体的具体特征和它们之间的关系动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性从而提高模型的整体性能。
KG-CLIP通过一系列创新性的设计如知识图谱构建、三元编码器实现、偏差补偿机制等成功地将结构化信息整合到CLIP模型中并在视频动作识别等任务中取得了显著的性能提升。
5 零样本异常检测
AnomalyCLIP用于零样本异常检测的对象识别提示学习
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen https://arxiv.org/abs/2310.18961 文章总结
最近大型预训练视觉语言模型 VLM例如 CLIP在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而它们的零样本异常检测(ZSAD)性能较弱因为VLM更侧重于对前景对象foreground objects的类语义进行建模而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法即AnomalyCLIP使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示这些文本提示会捕获图像中的一般正常性和异常性而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。
模型解析
AnomalyCLIP设计了两种通用的与对象无关文本提示Object-Agnostic Text Prompts模板一种用于正常性normality另一种用于异常性abnormality。这些提示模板不包含具体对象的语义而是专注于捕获图像中的异常模式无论前景对象是什么。然后进行全局上下文优化和局部上下文优化通过交叉熵损失函数将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配以捕获全局特征中的正常/异常语义。通过焦点损失Focal Loss和Dice损失优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。通过在CLIP文本编码器的每一层添加可学习的标记嵌入token embeddings来精细化原始文本空间使其更适合异常检测任务。通过引入对角突出的注意力图Diagonally Prominent Attention Map, DPAM来改进局部视觉空间使得注意力图更加关注局部视觉语义从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征以提供更多的局部视觉细节增强模型对异常区域的识别能力。
AdaCLIP使用混合可学习提示的自适应CLIP用于零样本异常检测
Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi https://arxiv.org/abs/2407.15795 文章总结
零样本异常检测ZSAD的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务利用预训练的视觉语言模型VLMCLIP。AdaCLIP将可学习的提示整合到CLIP中并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示静态提示和动态提示。静态提示在所有图像中共享用于初步调整CLIP以适应ZSAD。相比之下为每个测试图像生成动态提示为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明AdaCLIP优于其他ZSAD方法可以更好地推广到不同的类别甚至领域。最后我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。
模型解析
AdaCLIP引入了两种类型的提示——静态提示Static Prompts和动态提示Dynamic Prompts。静态提示在所有图像中共享它们在训练过程中从辅助数据中学习用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来形成混合提示这样可以提高模型对新类别图像的异常检测性能。为了解决CLIP原始架构中图像嵌入Patch Embeddings与文本嵌入维度不匹配的问题AdaCLIP添加了一个投影层来对齐这些嵌入的维度并通过引入偏差的线性层增加了一些可学习的参数以进一步微调CLIP。AdaCLIP还引入了混合语义融合模块Hybrid Semantic Fusion, HSF用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图Anomaly Maps基于图像嵌入Patch Embeddings和文本嵌入Text Embeddings之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测从而更准确地定位和识别图像中的异常区域。
综上AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数这些分数表示图像及其像素是否正常或异常。 #Wayve的端到端进化到哪一步了
www.youtube.com/watch?va_q3Efh6-5Eab_channelWayve
Structure
Traditional AV stack 1.0
AV1.0
这是一个需要比较大成本的系统目前也没有一家公司真正做到了。
高精地图高精地图建图依赖高精度传感器建图数据标记
AV 2.0Wayve
算法易于部署在不同传感器芯片移植computationally homogeneous数据驱动Generalisation through data无图方案成本低泛化性高scalable and economic安全outperforms hand-coded solutions
case处理
Frontiers in Embodied AI Research
Simulation
端到端的仿真需要模拟出视觉信息这是非常困难的总结一些Wayve的工作
缩小了预测和行为的gap动态物体和可形变的物体模拟模拟出整个环境和平台数据驱动可移植长尾问题
Ghost Gym: A Neural Simulator for AD
https://wayve.ai/thinking/ghost-gym-neural-simulator/
闭环的仿真器
PRISM-1
动态场景重建模型
自监督4DNon-parametric scene representation
https://wayve.ai/thinking/prism-1
实时重建
水坑反射和行人踩自行车
这个水坑和动态的踩自行车真的牛。。。而且是4d重建不是一个简单的动画。
而且用正弦曲线去扰乱也能保证生成的场景很完美甚至能保证生成的行人也不漂移甚至还拿着雨伞。
训练场景集https://wayve.ai/science/wayvescenes101/
重建出来的行人都不失真
不止能重建世界也能生成一些多样化的场景所有data driven的优势
Wayve GAIA2023- Generative World Model
arxiv.org/abs/2403.02622
World Models for Autonomous Driving: An Initial Survey
arxiv.org/abs/2403.02622
World Models for Autonomous Driving: An Initial Survey
GAIA还可以添加objects并且做标记动态的
Multimodality
LLM4Drive: A Survey of Large Language Models for Autonomous Driving
Lingo1: https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/
Lingo-1
Lingo2: https://wayve.ai/thinking/lingo-2-driving-with-language/
更注重实际驾驶不仅在驾驶而且在解释。
这里的解释行为也比较重要这里根据不同场景改变了驾驶计划。
Foundation Models
A Model that is trained on a diverse set of data that can be adaped to a wide range of downstream tasks.
一些挑战 #又一家新势力危了引入华为技术却没能拯救
“银十”落幕本该欢欢喜喜交上成绩单之时却又有一家新势力被曝出降薪裁员。
远航汽车大运集团旗下的高端新能源品牌。
虽然品牌知名度不高但更早之前因为设计上的原因有过几次出圈热议。其中最热闹的一次还是在小米造车之后被误当作小米SU7的“原型车”。
但现在同属新势力的两家已然无法同日而语。
小米SU7已经实现了2万辆每月的惊人交付开启了智能化赛道上的新一轮竞速。
而远航汽车则被曝出人员流失严重、延迟发工资底盘研发部门甚至只剩下十多名员工还在坚守。
在对外回应中远航汽车也表示正在进行战略调整目前处于重组状态但是否还能再上牌桌竞速智能化答案已经变得飘渺动荡了。
以及令人感慨的是远航汽车及其母公司大运集团并非不重视技术、不重视智能化甚至还引入了华为智能车相关业务作为供应商。
但大运集团没有复刻小康集团的路线远航也没有创造赛力斯一样的佳话。
远航汽车的困境折射的是智能汽车转型期里稍纵即逝的窗口时间。
一步慢步步慢再想跟上难于登天。
远航汽车降薪裁员
消息已经遮盖不住最近新能源车企远航汽车被传出延迟发放工资人员流失严重甚至强制休假的消息。
有自称远航内部研发的员工还爆料说公司底盘研发部门人员流失速度快目前只剩下十多名员工。
还有员工透露所在部门的员工已被强制休假一周并且没有通知复岗时间待岗期间公司也没有提供工资和补偿。
并且公司的资金状况较为紧张目前正在寻求新的融资以及地方资金的支持。
另外还有门店销售人员透露公司从6月份开始就出现了工资延迟发放7月的工资延迟了2个月才发放。
第一财经向远航汽车求证后官方回应中也确认了传闻中的动荡 公司正在进行战略调整目前处于重组状态过一段时间等调整完成会恢复正常。远航汽车毕竟背靠大运集团不会轻易倒闭。目前高管、中层职员都是正常在职状态。 所以不论是爆料还是官方的回应基本证实了远航的处境。
作为一家名不见经传的新能源造车品牌远航实际上不常出现在公众视野其采用的推进战略也相对更为传统但即便如此因为远航汽车在设计等方面的特点还阴差阳错上过几次热搜。
如今这样的局面多少有些可惜可叹。
远航汽车是谁
说到远航汽车可能听起来有些陌生但他的母公司大运集团可谓是家喻户晓。
一句“风驰电掣大运摩托”唤醒了多少人的回忆。
远航汽车就是大运集团的高端新能源汽车品牌2022年8月首次面世在新势力中也是新秀。
大运集团早在1987年成立本身是靠摩托车业务起家。
但随着市场需求的变化以及国内越来越多地区禁摩大运意识到如果继续把摩托车当作主导产业企业规模也会受到限制。
所以从2004年大运开始进军商用汽车行业先后涉足重卡、中卡和轻卡领域从2009年投产以来产销量保持行业前十的位置。
从摩托车跨越到汽车这次转型可以说非常成功也给大运增添了很多信心。
所以到2016年大运紧跟着“绿色发展”布局把目光转向新能源汽车启动了新能源商用车战略又在2017年转战新能源乘用车。
2022年远航品牌问世瞄准了30万-60万元级的高端市场。
22年年底的成都车展上远航带着产品首次亮相一口气发布了两款豪华轿车远航Y6、远航Y7以及两款豪华SUV远航H8和远航H9。
为了打响招牌加深消费者对远航的“高端品牌”印象远航选择和博世、华为、阿里斑马合作联合打造了B.H.D高端纯电平台。
不过转型重卡的成功例子并没有在远航汽车身上重现。
远航汽车的困境
自2022年推出四款车型之后远航再没有推出新的产品。
按照当前的指导价价格相对最低的是远航Y6指导价是26.98-33.98万最贵的是远航H9指导价40.98-51.98万。
而现有的四款车型去年11月开始批售实际上只有远航Y6和远航H8在售并且销售情况也不算乐观。
根据中汽协数据显示远航汽车今年9月销售779台车1-9月累计销量为5584台。
在如今其他新势力动辄月销几万台的背景下这样的销量显然不在一个量级。即便是高端品牌也不及阿维塔这样的销量水平。
销量跟不上即便价高想要活得好也会有阻力被曝出资金紧缺就不算奇怪了。
远航汽车为何有如今的困境
首先是品牌的宣传度不够。
据爆料的员工表示除了车展、高铁和机场广告其他地方几乎没有任何营销方式。
远航也很少举办发布会和试驾活动市场了解的途径有限因此与之相关的报道也比较少在汽车行业甚至称得上神秘。
其次远航汽车的产品车型比较单薄。
尽管成立之初远航就一口气推出了四款车型但在这之后的两年新的车型再没有动静而且只有四款车型中只有两款在售。
也许大运并没有意识到重卡市场与新能源汽车市场实际上有非常大的不同。
在当前新能源车企技术相互竞速新产品层出不穷并且已经在全方位的“卷”包括配置、服务、营销“卷”得没有死角。
在这个汽车产品飞速迭代的时间段远航的速度走得有些太慢。
谈到技术这也是远航最大的“痛点”。
因为远航的“灵魂”基本上都是砸钱买来的。
大运董事长远勤山曾表示过远航不需要太多技术自己搞先进技术可能十年也赶不上博世、华为现在的水平所以要把最优秀的融合在一起直接买来再整合。
因此在技术上远航汽车拥有华为智能车控域控制器VDC、热管理系统TMS 2.0以华为智能转向系统。
和博世合作了一体化底盘集成技术、高功率电桥等等又选用了斑马智行的智能驾驶、智能交互技术。
但这样的模式在智能化的下半场很难立足。
其一是一步慢步步慢远航H8搭载的是高通8155芯片而零跑、银河等车型已经搭载了算力更强的高通8295芯片落后也意味着失去竞争力。
其二自研趋势越来越明显像理想、蔚来这样的头部新势力都在开始加大自研的力度适应更快节奏的智能汽车竞争。
但知人论世往往都是事后才能给出的分析了。
毕竟百年汽车工业强调自研成功的车厂有远的不说近如特斯拉就是最典型的案例。
也有依靠供应商合作伙伴成功的品牌比如赛力斯同样作为传统不高端汽车品牌的小康在新能源和智能化浪潮中率先并紧紧抱住了华为从产品设计、核心技术到营销统统让华为发挥能力自己制作好制造一项最终实现了珠联璧合下的成功不仅产品创造了销量神话品牌成功完成高端化转型还拿到了竞速下一阶段的入场券。
从最初被汽车圈“群嘲”到后来越来越多人“理解赛力斯成为赛力斯”……疗效就是最直接的证明。
然而即便远航汽车这样的玩家现如今理解了赛力斯也可能很难成为赛力斯了毕竟到处落子下界的华为忙不过来了。 #ChatTracker
即插即用多模态大模型重塑目标跟踪
视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近视觉语言VL跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器SoTA。我们发现这种劣势主要是由于他们严重依赖手动文本注释其中包括频繁提供模糊的语言描述。在本文中我们提出了ChatTracker利用多模态大语言模型MLLM中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此我们提出了一种新的基于反射的提示优化模块通过跟踪反馈迭代地改进目标的模糊和不准确的描述。为了进一步利用MLLM产生的语义信息提出了一种简单而有效的VL跟踪框架该框架可以很容易地集成为即插即用模块以提高VL和视觉跟踪器的性能。实验结果表明我们提出的ChatTracker实现了与现有方法相当的性能。
总结来说本文的主要贡献如下
我们提出了ChatTracker这是一种利用MLLM进行视觉对象跟踪的新框架。据我们所知这是将MLLM纳入跟踪框架的第一项工作。它为现有的视觉和VL跟踪器提供了即插即用的模块增强功能计算开销有限。我们引入了一个基于反射的提示优化RPO模块以缩小VL跟踪器和MLLM之间的知识差距。通过反思跟踪反馈RPO模块可以迭代优化MLLM的提示最终为跟踪目标生成准确和相关的描述。与数据集中的人工标注文本相比这些描述在跟踪性能和图像文本对齐方面都更优越。我们提出的ChatTracker在多个跟踪数据集上实现了SoTA性能。我们进行了广泛的实验包括消融研究以证明所提出的方法及其各个模块的有效性。
相关工作回顾
Vision-Language Trackers视觉语言跟踪方法Zhou等人、Ma和Wu等人探索了使用语言线索来增强视觉对象跟踪。这些方法可以根据其文本来源进行分类使用手动注释文本的方法和从预定义词典生成描述的方法。在第一类中手动注释文本已被广泛用于目标跟踪任务。LaSoT、TNL2K和MGIT等数据集为每个序列提供了手动注释的语言描述。SNLT跟踪器利用视觉和语言描述来预测目标状态然后动态组合这些预测以产生最终结果。JointNLT将视觉基础和自然语言引导的跟踪相结合有效地满足了这两个过程的不同要求。第二类利用预定义的词典生成语言描述。CiteTracker精心开发了一个类别词汇表其中包括目标的颜色、纹理和材料等属性。在跟踪过程中它使用CLIP来比较图像和文本之间的相似性选择与图像非常匹配的文本作为目标的描述。与这些方法相反我们的工作专门采用MLLM来获取目标的精确文本描述。这种方法有效地消除了对手动文本注释或预定义词典的依赖。
Large Language Model in Vision Tasks
大语言模型LLM如ChatGPT和Llama是在广泛的互联网规模文本上训练的自回归模型。它们在权重中包含了广泛的世界知识。最近GPT-4V发布因其出色的多模态感知和推理能力而立即引起了社区的关注。在此之后使用CLIP模型对图像进行分类提高了分类任务的精度。这些进步主要针对基本的视觉识别如分类和检测。在这项工作中我们致力于将LLM中包含的丰富世界知识整合到视觉对象跟踪领域。
ChatTracker方法详解
所提出的ChatTracker由三个部分组成基于反射的提示优化RPO模块、语义跟踪模块和前景验证模块。
Reflection-based Prompt Optimization Module
初始化。我们在第一帧I1中的跟踪目标上绘制一个绿色边界框创建一个新的图像输入Im。预定义的人工提供的提示模板Tinit和Im被输入到MLLM中从而对前景和背景进行初始描述 RPO模块将模板图像作为输入并生成前景和背景的文本描述。然后对于每一帧语义跟踪模块将前景和背景的文本描述作为输入利用GVLM获得前景和背景region proposals 语义跟踪模块还包括一个现成的单对象视觉跟踪器。最后前景验证模块通过考虑前景建议、背景建议和模板之间的关系选择置信度最高的前景建议作为跟踪结果。
实验结果
结论
在这项工作中我们介绍了ChatTracker这是第一种利用多模态大语言模型MLLM来提高视觉跟踪性能的方法。我们提出了一种基于反射的提示优化RPO模块通过跟踪反馈迭代地改进目标的模糊和不准确的语言描述。此外提出了一种简单而有效的视觉语言跟踪框架作为即插即用的方法来提高现有跟踪器的性能。在多个数据集上的实验结果表明我们的方法优于最先进的方法。这表明将MLLM纳入视觉跟踪对提高跟踪性能有显著效果。 #自动驾驶感知算法面经
本人2022年4月和2023年7月两次跳槽找工作面经总结在这里希望可以帮到需要的朋友。
项目相关的问题主要和经历有关参考性不大。
2023年7月
1. 文远知行
自动标注算法岗位
项目经历问的不深
coding两道题。
leetcode 55 跳跃游戏。
NMS python。
2. 易控智驾
面试体验较差不说了。
3. 斑马
coding买卖股票基础版
工作时间早十点晚上八九点
4. 蔚来
第一轮
项目问的比较细
几个公开数据集的lidar区别对点云、模型检测的影响
domain adaption相关的方法如何缩放点云
radar检测的具体优化。pointnet和pointnet的区别
pnp calibration
栏杆检测为什么不用网络学习
BN的mean和std的dimension有哪些可学习的参数train和test的时候怎么用
codingpython 计算两批shape不一样的box的IoU。不用for循环。
numpy的broadcast
自认为有技术领先性
第二轮
问的都是些比较抽象的问题
对视觉3d检测算法的了解。
举例工作中遇到的困难技术项目如何解决的
对之前公司的感知算法的问题看法认识
对未来自动驾驶算法的看法
coding未知形式的函数f(x)零点在[-1,1], 求零点精度要求1e-4
5. 有个机器人
纯纯八股文
c语言特性构造函数析构函数
batch norm是什么原理
MLP是什么 欠拟合过拟合
是否了解量化剪枝
目前是lidar为主未来会加camera。
主要是做小型物流机器人。
在做安防机器人。
感知团队5-6个人包括深度学习slam。
上班时间10-7 。
大小周 周六上班。
6. 井松智能
没问什么技术问题主要介绍下项目
要去合肥出差
工作时间九点半到六点半
7. 商汤
智慧城市
没问项目就开始coding
coding两道题NMS用pytorch手写一个transformer或者convbnfc
8. 禾赛科技
第一轮
项目问的很细
卡尔曼滤波Q和R怎么调
c 解释多态在哪些场景应用过
vector和list的差别底层实现各种操作复杂度
template是否算一种多态如果不在.h里面定义他的函数在.cpp里面定义会有什么问题
公司的优势软硬件一体易于沟通解决问题
客户的不同硬件平台不同的功能需求。
第二轮
又问了些项目相关的问题。
一堆点找最大凸包。无序的话 用什么排序极点排序最慢O(n^2)
第三轮
现场面试
介绍下最有成就感的一个项目。
coding快排时间复杂度为什么是O(NlogN)
c segment fault如何debug
vector 和list底层实现基础操作复杂度
问了些性格相关的问题
9. 字节aml
没有问八股问了些大模型的较新的技术进展
llamaMAEflamingo
transformer的encoder和decoderposition encodingrope。
10. oppo研究院
第一轮
问了项目中涉及到检测跟踪的算法
十几个人 四个方向。检测跟踪2个人做手机相册相关算法
c vector底层实现基本操作复杂度
虚函数设计模式有哪些用过哪些设计模式
第二轮
介绍下某项目中对模型做了哪些优化
yolov5v6v7
clip有什么问题。为什么适合什么场景
segement anythingprompt如何输入进网络
认为自己擅长算法的哪些方面
有些算法是外包的准备转为自研
11. navinfo四维图新
泊车感知算法
传感器超声波传感器和鱼眼相机
L2行车泊车。今年年中年末交付
自动驾驶在内部相对独立。
图像感知在北京。
超声波传感器换了新版。输出的信息更多了需要招人来。
国资背景
众包地图
上半年刚进行改革。压力比较小。
八小时弹性。无事不加班。
12. 商汤自动驾驶
第一轮
了解哪些目标检测算法各自的优缺点anchoranchor freetransformer
传感器标定是怎么做的
domain adaption怎么做的
描述两次代码重构的过程和思想
描述卡尔曼滤波的过程具体如何解决问题的
后融合怎么做的速度的gt如何得到
codingdbscan
第二轮
是否了解learning的tracking
是否了解sota的bev感知算法
是否能接受加班
13. 理想第一轮。
早九晚六七
c写的很多
coding岛屿数量延伸如何统计不同形状的岛屿如何对不同形状建模表示
描述下dbscan过程
c 为什么要用引用传参
目前lidar和融合一共20人
14. 地平线合资
第一轮
加班没有特别频繁。上海会新开office在虹桥张江。
coding快排
第二轮
问的c问题相对较难
内存分配内存池
野指针一般是什么情况下会产生如何避免
智能指针如何实现一个shared_ptr类各个成员函数什么时候调用成员变量什么时候更新。
new一个新对象时候发生了什么如何能只创建对象不分配空间
调用一个派生类的构造函数时发生了什么
15. 英伟达
自动驾驶support岗位每周去车上测试一次
描述图像resize的过程并实现
c编译出现undefined reference如何debug
迁移软件时出现找不到的binary怎么解决
c多态虚函数构造函数可以是虚函数吗为什么
内存泄漏如何避免
c模板应用场景
智能指针shared_ptr, unique_ptr
指针和引用
external
感受野怎么算如果有branch
描述NMS过程
yolo和ssd的box后处理的具体过程
transformer的self-attention过程
softmax为了让输出更稳定做了什么
2022年4月
ps以下记录的公司相关的信息已经不太可信
1. 滴滴
第一轮
pointnet input transformfeature transform
coding 834. Sum of Distances in Tree harddp2dfs
C set和ordered set底层实现insert和erase的复杂度
第二轮
英文自我介绍几个简单的问题
主要问的trackingukf有没有用具体的R如何根据mean和std调整
coding https://www.techiedelight.com/find-triplet-with-given-sum-bst/
bst遍历的时间复杂度3sum用左右指针的时间复杂度O(N^2)
Time complexity of all BST Operations O(h).Here, h Height of binary search tree
2. 轻舟智航
第一轮
pointnet input transformfeature transform
max-pooling可以用什么替代怎样可以降低nx1024的参数量
batch norm解决了什么问题有什么优缺点需要学习哪些参数还有其他什么norm
L1和L2 regularization什么作用具体怎么实现的什么区别和weight decay什么关系
卡尔曼滤波器P,Q,R怎么决定K和协方差阵的
状态量在平面坐标系观测量在极坐标系效果不好
coding 547. Number of Provinces graph dfs
dfs的时间复杂度O(N^2) 因为每个节点都要去遍历他的children相当于两层循环
c
vector底层实现空间是连续的吗vector变量存在堆上还是栈上里面的每一个值存在堆上还是栈上
unordered map和map有序还是无序底层实现insert和erase的复杂度
3. ecarx亿咖通
第一轮
codingDBSCAN
主要业务智能座舱自动驾驶
芯片xinqing科技
感知主要是lidar和camera
去年2021年获得了hdmap甲级资质
第二轮
radar 后融合 直接用cluster
偏向于lidar和camera
目前还在实现大部分功能
前装乘用车
主线多V多R多lidar
高速城区逐步release
双休九点半到八点不打卡
徐汇滨江西岸
平台系统更大自动驾驶芯片智能座舱
港股上市
和tech lead面试的问题
团队的组成二十多个人做NN模型研究生平均四五年以上大感知团队有博士
zhijia小鹏mmt华为
自己开发的训练模型的平台pytorch。
平时有发paper或者刷榜的计划安排吗? 会和平时的工作相结合互相验证。
比较看重员工的什么能力技术能力沟通。创造力。
做到25年的规划。
23年单V落地。
主要客户泊车adas吉利汽车下面的。还有一些联合开发。
4. 纵目
一轮技术面
更复杂的tracking算法。
传感器raw data。
前融合。
freespace 用雷达
视觉-系统供应商-雷达
毫米波雷达感知七八个人还有信号处理一共100多人。华为美团江淮。
hr面试
工作时间 九点半五点半六点半。双休没有打卡
毫米波雷达感知七八个人
同一批人做量产预研
中级高级差不多各一半。
总监 工作了十几年。比较平衡。
有mentor
张江
5. 采埃孚
ukf
除了hm之外的其他匹配算法
观测和预测的相似度计算
PQR都是怎么设置的
单例模式和工厂模式的区别
6. 感铠科技
L2L3adas功能实现主要在底特律
尝试前融合目前是用原始radar detection和vision
4d radar 从硬件到软件
初创公司
有期权
乘用车
公司名字可能会改四月份确定
项目制
马上要A轮
在新江湾城
7. 文远知行
第一轮
卡尔曼滤波怎么用同一个filter同时适配车辆横穿的场景
感受野计算。
centernet等基于center的recall不够高有什么办法来改善
做二分类有80%的数据是标注正确的20%是标注失败的如何训练
anchor-base和anchor-free的优劣
如果anchor-based的方法设置很多不同的anchor对于非正常宽高比的物体以及小目标会有改善吗除了计算速度以外会有什么其他问题
c11之后的新特性有没有用过
智能指针
void test (const std::vectorshared_ptr aaa){
aaa[0].b 1;
}
编译能不能通过
std::vectorgenerate() 和 void generate(std::vector*) 哪个效率高
一般是第二个效率高因为函数返回值默认会赋值一份空间除非编译器有做return value optimization
单例模式的实现static、全局变量、指针判断默认是空每次用的时候判断是不是空空就创建一个
coding二叉树的直径 543
上海这边一共50人感知67个人
大家同时做几个产品线通用算法
毫米波雷达和视觉相关都有
第二轮
coding105. 从前序与中序遍历序列构造二叉树 7. 整数反转
环卫车项目要在广州2个月左右目前是二三十个人主要是基于已有的融合tracking框架加入环卫车特有的一些规则
后面稳定下来后可以参与感知算法
8. 极氪科技
面试官是radar负责人
78点下班
coding区间合并 56
目前毫米波雷达只有两个人
背靠吉利在供应商面前占有强势地位有conti的4d radar在手
目前可以拿到传感器目标级和点云级的输入
毫米波雷达在高速上比较重要未来会扩展城区场景
主要来自蔚来华为
第二轮
面试官是感知负责人
感知包括定位等一共目标一百六七十
感知算法目标检测这边目标八九十。
前融合feature级别的融合
量产 要求较高
最终目标是城区场景
目前是装的eq5
也会涉及到lidar融合等算法
九点半之前上班。
9. autox
第一轮
codingnumber of islands
unorder_map map区别unique_ptr
int const * const x; const放在*右边指针的指向不能改这一行第一个const也可以放到左边const int也不能改 int * const y; 指向int的const指针,int值可以改指针指向的地址不能改 const int i *y; i的值不能改read only int j *y; j是别名可以改改了的话y指向的变量也会改
毫米波雷达感知只有美国一个人国内十几个人在做autox自己的雷达。
也会做和cameralidar的融合
第二轮
卡尔曼滤波器要是系统不是线性的会产生什么问题
ekf是怎么解决不是线性的问题的
匈牙利匹配是一个全局最优的有没有试过其他的匹配方法
coding判断一个点是否在一个旋转的box内
10. pony
第一轮
codinghttps://leetcode.com/problems/binary-tree-maximum-path-sum/
问了ssdyolov3centernet
第二轮
是否了解radar如何测角测速
coding无序数组选三个连续子数组每个子数组都是两个元素求这三个子数组的和的最大值
用前缀和思想
也会做和lidarcamera的融合
有不同的项目线基本上用同样的code base自己决定做哪个项目
算法迭代需求主要来自于路测问题和evaluation结果
evaluation工具比较完善
11. 千挂
主要在北京一共30, 感知5-6个人前融合
coding实现shared_ptr
两个bst各选一个数加起来等于target
12. 主线科技
第一轮
重卡物流运输
干线物流港口物流L4无安全员。
北京港口L4前瞻调研lidar和vision提供general感知地图等。300人。
按照博世系统来
上海算法十个人平均工作五年以上
去年2021年九月份成立主要是为了高速干线物流量产落地合作商用oem top2radar后融合with lidar和vision环境搭建会来一位大佬做过前后融合目前没有人做radar打算招78个人。目前是用目标级输出未来用点云。50人-100人。算法三十人。
第二轮
先做后融合
当前是L2
第三轮
日常的工作的大概内容
路测数据主导开发的原则
比较看重员工的什么能力
背景学历个性。
主要是Apollo系统
组织架构合理有凝聚力
毫米波雷达融合。
嘉定安亭。上海汽车城大厦。九点到六点半。十一点半到一点午休。没有打卡。
13. 云骥科技
第一轮coding: 54. 螺旋矩阵
感知15个人lidarcameraradar
干线物流城市货运乘用出行三个场景从城市场景开始做
做一个统一的平台优先做robotaxi。然后做robo bus
园区L4无人小巴计划六月份在上海公共道路
robotaxi已经有公司在做了和友商比较的核心竞争力是什么域控有自己的gpu不用ipc
团队完整资金足够王京傲的影响力。
自驱力自我成长团队合作精神。
14. 禾多科技
代客泊车和自动驾驶
第二轮
有多个项目
5R 1V
5R 7V
5R 7V 3L
一个人会参与多个项目
上海这边感知4/5个人
15. appen澳鹏
第一轮
澳洲上市的外企
主要工作数据预处理后处理算法开发。
上海有两个分部local和global。这个岗位负责global业务准备招4~5个人
流程本地验证和annotator合作验证跑过线上ab test由engineer部署。
第二轮
coding两个排好序的数组找公有元素。
Product quantization (PQ)
问了概率计算sample数据实现。
个人的优缺点
主要客户GoogleApple
16. 智加
codingnumber of islands
量产由其他team负责这个team负责预研及量产。
17. 商汤
点云和图片的区别
pointnet为什么没有用conv
focal loss的参数如何调
有哪些loss
anchor free和anchor based的区别
anchor-free的target assign是怎么做的怎么解决多个目标中心点位置比较靠近的问题
centernet网络输出是什么
描述卡尔曼滤波器
如果分类问题中几个类别有overlap怎么办如何设计网络结构
是否了解mmdetection的hook
如果需要在mmdetection中加一个backbone需要改哪些代码
coding二叉树中序遍历不用递归
18. 禾赛科技
第一轮
数据标注感知后处理工程
15个人点云特征十点-八点
第二轮
coding环形链表每一个node是一个pointxy连起来是一个多边形判断凸凹性
19. 均胜电子
准备单独上市去年2021年刚成立准备从100人扩张到200人
目前有五家公司在谈合作。
先做国内再做国外
算法感知10人-20人。
主要做L4 taxiL2L2芯片
目前主要在高速场景
老板郭济顺
客户稳定传统tier1有积累有资源70%业务来自于国外
第二轮面试官以前在上汽主要做视觉感知七八年
上海office在莘庄。莘学路。两栋楼。
有食堂。
九点-五点。 #如何做vslam
倘若能有一场时空对话我将告诉曾经的我如何做vslam
短短4年的时间vslam就犹如过气网红般声量渐失。曾经这个话题还能引来各路大佬欢聚一堂好不热闹如今曲终人散门前冷落鞍马稀。今日赶个晚集借这个话题做个我这几年开发的几个vslam项目总结倘若能有一场时空对话我将告诉曾经的我如何做这个事情。
衣带渐宽终不悔为伊消得人憔悴。
SLAM 技术会是一场泡沫吗
1.知彼
当被安排某个陌生的工作的时候想必大家心情是这样的
学习两年多感觉SLAM太难了大家对此有什么想法
自己队友老大都是小白也没关系都没思路也没关系可以去搜搜别人工作先。每一个好厨子都肯定先是一个好吃货。当我从别处知道一个新概念的时候那至少说明第一个螃蟹已经有人吃了我可以去搜搜他的“小x书”看看那些“网红博主”的心得。
算法领域的“小x书”大家都懂github在里面搜搜高流量star帖子就好了。在这个“知播间”里我已经替家人们汇总好了
请问是否有开源的实时视觉里程计
通过上述总结以特征点为例可以发现框架性工作为vinsmsckforbslamkimera这几篇给我们提供了优秀的ceres滤波g2ogtsam的pipeline和学习手册堪称vslam领域的基础设施。大量后来者在白嫖..啊不致敬这些作品后进行二创。
vslam要干哪些事情呢有特征提取和匹配状态优化深度解算回环检测/VPR全局BA/PGO。
在扫过大量二创后发现他们都比较关注特征提取和匹配这个环节尤其超爱线面特征。配合深度学习食用后又交叉到感知去了。
坚守SLAM还是拥抱大模型
我对3dgs/nerf和事件相机的slam方向一直不感冒可能是在企业里呆惯了也没读过博的缘故吧在我有限的认知里我看不到这几个方向落地的可能性更像是学术圈闭门造车的自嗨。算法工程师算是相对比较贵的岗位若只顾着发论文玩demo讲故事而不靠产品持续造血当资本的浪潮褪去时还是会略显尴尬吧。
方向错误是最可怕的事情你越努力朝错误的方向走得越远沉没成本越高就越难回头也越跟不上。
这样的例子有很多苏联和美国在计算机领域本在同一起跑线甚至他们的数学更强但是他们发展晶体管而不是集成电路他们玩三进制而不是二进制走错了路就再也追不上了还有日本新能源科技树点到了氢上已经彻底跟不上中美对步伐了甚至他们的铁杆盟友乌克兰把他们的氢能源车拿去做炸弹刷给榜一大哥俄罗斯这谁敢开他们的车
对错误路线的判断取决于认知认知局限导致走错路很可怕明知故走就更可怕了。
2.知己
知己知彼百战不殆。知彼是为了知道别人在想什么干什么知己是为了知道自己啥条件啥需求。
啥需求
为什么目前落地的主流SLAM技术很少用神经网络进行特征提取
室内还是室外地上跑的天上飞的还是水里游的静态还是动态环境里程计还是建图等等..
还有一个容易被忽略的点初始化。初始化分为静态初始化和动态初始化静态初始化只适用于带imu的。
vins的单目动态初始化让我格外印象深刻得瞅着一个地方剧烈的动弹几下才行而msckfkimera就更显佛系在那呆着不动把imu初始状态维护好就行了。至于哪种初始化更好就是仁者见仁智者见智萝卜白菜各有所爱一千个读者有一千个哈姆雷特的事情了。
啥条件
数据频率传感器数量质量类型钞能力标定时间对齐等等。没条件也呆胶布不是还有那么多数据集嘛。
3.没事走两步
把心仪的方案下载下来编译配置跑个demo。实践是检验吹牛的唯一标准。
那些经过普遍检验过的方法如果没跑出来要么数据有问题要么标定有问题要么镜子里的吴彦祖有问题。
经过这一步之后想必各位彦祖心里已经有信心了就可以确定原型代码是哪篇了。
4.读论文和代码
先看代码后看论文。论文有时候像渣男口里的情话让人脸上不禁激荡起一抹少女般的红晕有时候像孔乙己讨论“茴”有多少种写法高深莫测回味无穷。代码里10行搞定的事情他再配上高端晦涩的公式若干和滔滔不绝的长篇大论令无数信徒迫不及待地一键三连献上虔诚的膝盖竞相折腰。原本木讷呆板的理工生此时竟也学会了花言巧语一口一个大佬大佬的叫嚷着让人心里暖暖的。而冷酷无情的代码却化身最后的轻语让人沉默又破防。
好在代码是论文的照妖镜。就算看不懂代码里的公式但是他干什么用的一定能测出来而论文则可能会因为先验知识的缺乏而令人摸不着头脑。正如阅人无数的海王情场得意的高手早已品尝过人生百态世态炎凉在轻易看透了对方那点小心思后一切便尽在把握。毕竟比起他说的什么我更相信他做的什么。
为什么自学编程那么难
看完代码后再看论文此时论文里的内容像久别重逢的挚友失而复得的旧爱回头是岸的浪子沸羊羊的美羊羊柳暗花明豁然开朗。
原作的心思就像少年的女神一样深不可测捉摸不透令人浮想联翩。不说原作很多人可能甚至连上个星期自己写的代码都看不懂蓦然回首chatgpt竟比我更懂我。因此先不要死磕能run就行慢慢理解。如果前方有一堵墙老实人会拿头撞得头破血流皮开肉绽而小机灵鬼会避其锋芒另辟蹊径。小心思我读不懂但身体是诚实的。
先模块化调试理解数据流在不同函数之间流转过程的产出假以时日黑箱变白箱。
5.开始二创
想必到这一步时脑子里肯定已经有很多idea了。如果还没有可以继续看别人的二创现在2024年出来的vio还是有点线特征这个思路的。因此可以走别人的路让别人无路可走。说不定你会化身芳心狙击手你写的论文如蜜罐里的甜言蜜语让审稿人小鹿乱撞心神不宁坐立不安如痴如醉辗转反侧坠入爱河仿佛回到那年夏天看着十指相扣的TA。不知是一不小心还是欲拒还迎被轻而易举的击中软肋highlight和best paper就半推半就的献给了你。而你我素未谋面的老熟人翻身做了大佬春风得意容光焕发便可在朋友圈里昭告天下衣锦还乡。而企业里牛马们的二创基本是数据适配框架重构性能优化基于自有场景corner case堆if年会上鲜艳的大红花说不定就能别在你笔挺的胸前一想到刚满18岁的hr小姐姐的回眸一笑是不是还有点小激动。
6.知识迁移
slam领域就像家一样里面个个都是人才说话又好听想必各位和我一样超喜欢呆在里面的。
曾经的slam犹如正襟危坐的高冷女神但在知识的传播中不断去魅现在逐渐成为了平易近人的邻家小妹。这一篇换一下语言风格转载搬运请私信近期周更家人们点点关注不迷路。