当前位置: 首页 > news >正文

网站宣传推广策划慈溪网站制作哪家最便宜

网站宣传推广策划,慈溪网站制作哪家最便宜,温州市网站,网页传奇哪个好玩引言 真正实用的机器人需要能够理解周围的物理世界#xff0c;并以可靠且安全的方式与之交互。也就是说#xff0c;基于物理实体的AI智能体必须具备鲁棒的人类级具身推理能力#xff0c;即包含在物理具身世界中操作和运行所需的基础概念的世界知识体系。 作为人类#xf…引言 真正实用的机器人需要能够理解周围的物理世界并以可靠且安全的方式与之交互。也就是说基于物理实体的AI智能体必须具备鲁棒的人类级具身推理能力即包含在物理具身世界中操作和运行所需的基础概念的世界知识体系。 作为人类我们往往将具身推理能力视为理所当然—— 例如感知环境的 3D 结构、解析复杂的物体间关系以及直觉物理规律理解 —— 但这些能力却是构成具身AI智能体的能力基石。 此外具身AI智能体更需突破被动理解现实世界空间与物理概念的局限通过行动直接影响外部环境从而弥合被动感知与主动物理交互之间的鸿沟。 随着机器人硬件的革新构建能执行高灵巧任务的具身AI智能体迎来历史性机遇。2025年3月12日谷歌Deep Mind发布了基于多模态通用大模型Gemini2.0构建的两类大模型Gemini RoboticsVLA和Gemini Robotics-ERVLM。 Gemini Robotics 和Gemini Robotics-ER 1. Gemini Robotics-ER Gemini Robotics - ERVLM模型,其中ER 代表 “embodied reasoning”具身推理将Gemini的多模态推理能力扩展至物理世界具备增强的空间和时间理解能力包括物体检测、指向、轨迹预测和抓取预测等2D空间概念理解能力以及多视角3D场景理解和3D边界框检测等3D空间推理能力。 多视角3D场景理解 通过关联不同视角的2D点来理解3D场景 1支持零样本和少样本机器人控制 在论文中研究人员使用Gemini 2.0 Flash和Gemini Robotics-ER两类模型分别采用两种不同的机器人控制方法进行实验。 零样本zero-shot机器人控制——通过代码生成控制机器人。少样本few-shot控制——通过上下文学习in-context learning, ICL基于少量示例适应新行为。 两类模型在模拟环境中执行一组操作任务的结果对比 备注这些任务涵盖了不同难度和物体类型从简单的抓取任务如抬起香蕉到长时序、多步骤、多任务的操作如将玩具放入盒子并关闭盒子。 试验结果表明Gemini Robotics-ER 在两种控制方式下的任务完成率均表现良好。Gemini Robotics-ER能够利用上下文学习in-context learning仅凭少量示例就能提高更复杂的灵巧双臂任务如折叠衣物的执行能力并能够直接输出末端执行器的轨迹以完成任务。 在零样本机器人控制方面Gemini Robotics-ER任务完成率相比Gemini 2.0 提高了近2倍。在少样本机器人控制方面Gemini 2.0 Flash 在模拟环境中平均成功率达到51%。然而Gemini Robotics-ER 在模拟环境中的平均成功率达到 65%。 另外实验还表明模型的具身推理能力与下游机器人控制的性能之间存在强相关性。Gemini Robotics-ER 可以直接用于机器人控制包括作为感知模块如物体检测规划模块如轨迹生成以及通过生成和执行代码来协调机器人运动。 不过Gemini Robotics-ER作为VLM模型也存在局限性尤其是在更复杂的灵巧操作任务上。这主要是因为需要额外的中间步骤来将模型的具身推理能力与机器人执行动作关联起来。 2. Gemini Robotics Gemini Robotics是一种端到端的VLA视觉-语言-行动模型将强大的具身推理先验与现实世界机器人的灵巧低级控制相结合能够在不同环境下解决灵巧任务并支持不同的机器人形态。 Gemini Robotics是Gemini Robotics-ER的一个衍生版本采用了双组件架构 Gemini Robotics 主干网络托管在云端负责视觉-语言推理。Gemini Robotics 解码器运行在机器人控制器上负责动作执行。 Gemini Robotics 主干网络由Gemini Robotics-ER的一个蒸馏版本distilled version组成其查询-响应延迟已优化至小于160ms相比原始模型减少了数秒。为了补偿主干网络的延迟Gemini Robotics解码器在本地执行低级控制。 Gemini Robotics模型架构概览 Gemini Robotics 模型实验验证结果 1. 基于原始Gemini Robotics 基础模型进行测试 谷歌研究人员将Gemini Robotics 与π0 re-implement和多任务扩散策略模型Multi-task Diffusion Policy这两种最先进的基线模型进行对比试验。所有模型均在开箱即用out of the box的条件下进行评测即不进行任何任务特定的微调或额外提示。 实验结果显示 Gemini Robotics 在灵巧操作、语言指令理解以及泛化能力方面表现出色。 1灵巧操作 在该组实验中研究人员从数据集中随机抽取20个任务进行测试覆盖洗衣房、厨房、办公桌以及其它日常活动场景。 实验结果表明Gemini Robotics在一半的任务中表现出色成功率超过80%。尤其是在可变形物体操控方面表现尤为优异如“折叠粉色布料”、“缠绕耳机线”而基线模型在这些任务上表现不佳。 三个模型在20个不同任务执行过程中的成功率对比 问题点在于某些复杂的高难度灵巧任务比如“插入鞋带” 未经过微调的Gemini Robotics模型执行任务的成功率依然很低。 2语言指令理解 在该组实验中研究人员选取了25条语言指令并在5个不同的评估场景中进行测试包括训练场景以及包含未见过物体和容器的全新场景。 实验结果表明在具有挑战性的场景包含新物体和细粒度指令的任务如“将牙膏放入盥洗台底部隔间” Gemini Robotics 的表现优于所有基线模型。 针对新物体的带详细指令的 “拾取” 和 “拾取并放置” 任务的成功率 3泛化能力 研究人员评估了Gemini Robotics模型在指令泛化、视觉泛化以及动作泛化三个维度上的泛化能力。 三个模型泛化能力试验结果对比 Gemini Robotics在所有三种泛化类型上均明显优于基线模型并能更有效地适应各种变化。即使在基线模型发生灾难性失败如遇到新语言的指令的情况下Gemini Robotics 仍能取得非零成功率。 研究人员推测Gemini Robotics较强的泛化能力依赖于以下三种原因 更强大、更高容量的VLM视觉-语言模型主干网络Gemini 2.0 中最先进的视觉编码器多样化的训练数据共同提升了模型的泛化能力。 2. 基于微调后的Gemini Robotics专用模型进行测试 研究人员通过对Gemini Robotics模型在小规模高质量数据集上进行微调进一步测试模型的极限能力并探索未来可能的优化方向具体研究方向如下 能否执行复杂长时序灵巧任务推理能力、语义泛化以及空间理解是否有所增强能否快速适应新任务能否适配到不同实体形态的的机器人。 1长时序灵巧操作任务 研究人员选择了6个高难度的长时序任务来测试经过小规模高质量数据集训练微调后的Gemini Robotics模型。这六项任务分别为折纸狐狸”、“打包午餐盒”、“拼写游戏”、“玩纸牌游戏”、“夹取豌豆”、“舀坚果”。 Gemini Robotics 在 ALOHA 机器人平台上成功完成多种长时序灵巧任务 4类模型执行6项任务的成功率对比 实验结果表明 经过相同数据微调后从执行6项任务执行的成功率来看经过微调后的Gemini Robotics专用化模型明显要优于经过微调的两个基线模型【Multi-task diffusionspecialist 和 π0 re-implement specialist】。 尤其在“舀坚果”、“打包午餐盒”、“玩纸牌游戏”以及“拼写游戏”这四项任务中经过微调后的Gemini Robotics专用化模型执行任务的成功率达到了80%以上。 2单步推理、语义泛化以及空间理解能力增强 研究人员将增强推理版本的Gemini Robotics 与未经微调的原始基础 Gemini Robotics 模型进行了比较测试场景均为训练分布外的真实机器人任务。 基础Gemini Robotics 模型与增强推理版本在真实世界评估任务中的成功率对比 实验结果显示 在真实世界的分布外任务中推理增强版Gemini Robotics在单步推理、语义知识及空间理解的任务中的成功率获得显著提升。 另外实验还表明推理增强版Gemini Robotics模型还可输出类似人类思维的可解释中间步骤与Gemini Robotics-ER的具身推理轨迹高度吻合大幅提升模型可解释性。如下图所示的关键点轨迹可视化即为模型内部思维链的具象化映射。 推理增强版Gemini Robotics模型思维链预测轨迹可视化 备注红色与蓝色轨迹分别表示模型利用具身推理知识对左臂红和右臂蓝未来1秒运动路径的预测结果。 3快速适应新任务 机器人基础模型通过利用预先获取的机器人动作和物理交互常识有望实现快速任务学习。 为了验证此结论研究人员从之前的长时序任务中选取了8个子任务并对基础模型微调来观察每个任务的平均成功率随演示次数的变化情况。 各任务平均成功率随演示次数的变化曲线 实验结果显示 8项任务中有7项仅需至多100次演示相当于15分钟至1小时具体取决于任务复杂度微调后Gemini Robotics专用模型成功率便已超过70%。在其中的2项任务中“放容器到午餐盒”和“放入生菜”微调后的Gemini Robotics专用模型的任务成功率达到100%。在“折纸狐狸第一折、“放容器到午餐盒”和“午餐盒拉链闭合”这3项复杂任务中微调后的Gemini Robotics专用模型执行任务的成功率明显优于基线模型。在“放入生菜”、“浇沙拉酱”和“抽纸牌”这3项相对简单任务中微调后的π0 re-implement专用模型表现优异在100次演示后任务成功率达到100%。π0-reimplement 的表现略微优于 Gemini Robotics。 结论强大的视觉语言模型VLM主干网络能将丰富多元的机器人动作数据转化为对物理交互的深度理解这是实现新任务快速学习的关键所在。 4适配新的机器人形态 在此次实验中研究人员探索基于ALOHA 2平台动作数据训练的Gemini Robotics模型如何通过少量目标平台数据高效适配新实体形态。 新的实体形态机器人实验对象包括配备平行夹爪的双臂Franka机器人和Apptronik公司研发的配置五指灵巧手的全尺寸人形机器人Apollo。 Gemini Robotics模型可经微调操控不同机器人 备注上图为Apollo人形机器人封装午餐袋。下图为双臂工业机器人装配工业橡胶带至滑轮系统。 当Gemini Robotics适配到双臂Franka机器人新实体形态后的泛化指标细分 实验结果显示 当Gemini Robotics模型适配到新形态实体机器人双臂 Franka 机器人后在视觉泛化和动作泛化测试上 在分布内任务上执行任务成功率持平或略优于先进的单任务扩散策略在分布外任务上执行任务成功率明显优于先进的单任务扩散策略 这在一定程度上表明经过针对新形态实体机器人的微调Gemini Robotics模型能够成功地将其泛化能力迁移到不同形态的机器人。 结语 Gemini Robotics模型在精细的柔性布料操作、铰接物体精准操控等多样化任务中展现突出能力。研究人员把该模型能力突出的原因归结于 强大的视觉语言模型具备增强的具身推理能力针对机器人任务采用大规模机器人动作数据与多样化的非机器人数据的特定训练方案专为低延迟机器人控制设计的独特架构。 Gemini Robotics模型的关键优势在于成功继承Gemini Robotics-ER的具身推理特性能高效遵循开放词汇指令并展现强大的零样本泛化能力。通过微调实现专项适应该模型在新任务/新实体形态中达成较高操作精度并在挑战性场景中保持泛化能力。 此外尽管Gemini Robotics 的初步实验结果显示出了令人期待的泛化能力但谷歌研究人员表示未来工作将会继续聚焦于以下几个关键领域 1提升Gemini Robotics模型处理更复杂场景下的能力。这类场景需要模型同时具备多步推理和精确灵巧操作的复合能力尤其是在应对从未接触过的全新场景时。 2构建仿真驱动数据引擎提升 VLA 模型的能力。利用仿真生成视觉多样化且接触密集型数据发展面向现实迁移的视觉-语言-动作模型训练范式。 3扩展多具身实验减少模型适配新形态机器人所需的数据量最终实现零样本跨机器人实体形态的能力迁移。
http://www.dnsts.com.cn/news/175845.html

相关文章:

  • 网站分为哪些类型软件系统开发平台
  • windows 做网站服务器网站建设小程序南宁
  • 东莞做网站 9353网站建设的作用是什么意思
  • 常州建设工程监理员挂证网站怎么入驻电商平台
  • 东莞外贸建站及推广百度推广网站必须备案吗
  • 昆明大型网站建设景区旅游门户网站建设方案
  • 国内专业的seo机构seo公司是什么
  • 我想创业做网站做养生的网站多吗
  • 做淘宝客进哪个网站宏润建设集团有限公司网站
  • 关于网站开发给一个企业做网站
  • 网站开发仓库管理系统需求分析网站设计软件培训怎么样
  • 网站优化的前景做律师网站的公司
  • 郑州网站建设费用南通网站免费建设
  • 企业网站建站费用桂林两江四湖象山景区简介
  • 海尔建设此网站的目的是什么意思最新办公室装修效果图
  • 企业网站模板2016成套徐州网站建设xzqjwl
  • 做网站哪个语言强wordpress 登录 不同
  • 网站超级链接公司网站申请
  • 余杭门户网站一个网站做数据维护3天正常吗
  • 清远专业网站制作公司湘潭做网站的公司
  • cookie做网站访问量网站备案模板
  • 鹿泉企业网站建设赣州市人才网招聘信息查询信息
  • 网站的相对路径seo策略什么意思
  • 广州建设工程网站网站建设找什么工作
  • 网站部署到服务器网站建设原理试卷
  • app网站建设思路天津seo数据监控
  • 个人网站设计步骤外贸网站建站
  • 国内优秀网站设计欣赏旅游网站模板html5
  • 甘肃做网站的公司网站里的做菠菜
  • 汽车网站建设费用网站外链怎么购买