当前位置: 首页 > news >正文

天津网站建设要多少钱上海seo方案

天津网站建设要多少钱,上海seo方案,站长之家ping检测,最近热点新闻Abstract 最近的研究表明#xff0c;大型语言模型#xff08;llms#xff09;可以应用于将自然语言应用于各种各样的机器人技能。然而#xff0c;在实践中#xff0c;学习多任务、语言条件机器人技能通常需要大规模的数据收集和频繁的人为干预来重置环境或帮助纠正当前的…Abstract 最近的研究表明大型语言模型llms可以应用于将自然语言应用于各种各样的机器人技能。然而在实践中学习多任务、语言条件机器人技能通常需要大规模的数据收集和频繁的人为干预来重置环境或帮助纠正当前的policies。在这项工作中我们提出了一种新的方法通过利用自我监督的视觉语言启示 visuo-lingual affordance模型从现实世界中的非结构化、离线和无重置数据中有效地学习通用语言条件机器人技能该模型只需要用语言注释总数据的1%。我们在模拟和现实世界的机器人任务中进行了广泛的实验评估了我们的方法在具有挑战性的calvin基准上实现了最先进的性能并在现实世界中使用单个policy学习了25个不同的视觉运动操作任务。我们发现当与llm结合使用通过少镜头提示将抽象的自然语言指令分解为子目标时我们的方法能够在现实世界中完成长时间、多层的任务同时需要的数据比以前的方法少一个数量级。代码和视频可在http://hulc2.cs.uni-freiburg.de.         I. INTRODUCTION 大规模语言建模的最新进展在将世界语义知识桥接到机器人指令跟随和规划[1]、[2]、[3]方面产生了有希望的结果。实际上使用大型语言模型 (llm) 进行规划需要拥有大量不同的低级行为这些行为可以无缝地组合在一起以智能地在现实世界中行动。学习这种感觉运动技能并以语言为基础通常需要大量大规模的数据收集工作[1][2][4][5]频繁的人工干预将技能限制为模板拾取和放置操作[6][7]或在更简单的模拟环境[8][9][10]中部署policies。人类明显简单的任务如将水倒入杯子中很难教机器人做也被称为moravec悖论[11]。这就提出了一个问题我们如何以可扩展和数据高效的方式在现实世界中学习各种视觉运动技能如下所示指令 先前的研究表明将机器人操作分解为语义和空间路径[12][13][6]提高了多模态信息的泛化、数据效率和理解。受这些路径架构的启发我们提出了一种新颖的、样本高效的方法通过利用自监督的视觉语言启示模型从现实世界中的非结构化、离线和无重置数据中学习通用语言条件机器人技能。我们的主要观察结果是我们可以用一个基于语义概念的高级流和一个基于3D空间交互知识的低级流来分层分解目标达成问题而不是通过扩展数据收集来学习如何使用单个端到端模型从任何当前状态达到任何可实现的目标状态[14]如图1所示。 图1当与大型语言模型配对时hulc能够从现实世界中的抽象自然语言指令中完成长期、多层任务例如“整理工作空间”而无需额外培训。我们利用视觉启示模型将机器人引导到语言所指的可操作区域附近。一旦进入这个区域我们就会切换到一个7-dof语言条件视觉运动器policy它是从离线、非结构化数据中训练出来的。 具体来说我们提出了分层通用语言条件策略 Hierarchical Universal Language Conditioned Policies 2.0hulc这是一个分层语言条件agent它将hulc[10]的任务无关控制与vapo[13]的以对象为中心的语义理解相结合。hulc是一个state-of-the-art语言条件模仿学习agent它学习7-dof目标端到端达到policies。然而为了共同学习语言、视觉和控制它需要大量的机器人交互数据类似于其他端到端agents[4]、[9]、[15]。vapo提取了非结构化数据的自监督视觉启示模型不仅加速了学习而且还被证明可以提高下游控制policies的泛化能力。我们证明通过扩展vapo来学习语言条件启示并将其与基于hulc的7-dof低级policy相结合我们的方法能够直接从图像中连续跟踪多个长期操作任务同时需要的数据比以前的方法少一个数量级。与之前的工作不同之前的工作依赖于昂贵的专家演示和完全注释的数据集来学习现实世界中的语言条件agents我们的方法利用了一种更具可扩展性的数据收集方案非结构化、无重置且可能次优的远程操作游戏数据[16]。此外我们的方法只需要用语言注释总数据的1%。大量实验表明当与将抽象自然语言指令翻译成一系列子目标的llm配对时hulc可以在现实世界中完成长时间、多阶段的自然语言指令。最后我们表明我们的模型在具有挑战性的calvin基准[8]上设定了一个新的技术水平通过7自由度控制从高维感知观察中连续跟踪多个长期操纵任务并通过自然语言指定。据我们所知我们的方法是第一个明确旨在从现实世界中纯粹离线、无重置和非结构化数据中解决语言条件的longhorizon、多层任务的方法同时只需要1%的语言注释。 II. RELATED WORK 在基础语言和视觉的进步推动下机器人社区对构建语言驱动的机器人系统的兴趣日益浓厚[17][19]。早期的工作侧重于定位引用表达式[20]、[21]、[22]、[23]、[24]中提到的对象并使用预定义的运动基元遵循拾取和放置指令[25]、[6]、[26]。最近端到端学习已被用于研究融合感知、语言和控制的挑战性问题[4]、[27]、[28]、[1]、[10]、[9]、[15]、[5]。由于其灵活性从像素进行端到端学习是建模通用agents的一个有吸引力的选择因为它对对象和任务的假设最少。然而这种像素到动作模型通常具有较差的采样效率。在机器人操作领域光谱的两个极端是cliport[6]另一方面是agents如gato[5]和bc-z[4]其范围从需要几百个专家演示如何通过运动规划拾取和放置物体到需要几个月的专家演示数据收集来学习视觉运动操作技能以实现连续控制。相比之下我们取消了收集专家演示的要求以及手动重置场景的相应需求以从非结构化、无重置、远程操作的播放数据中学习[16]。另一个正交工作线通过使用预训练的图像表示[29]、[6]、[30]来引导下游任务学习解决了数据效率低下的问题我们在这项工作中也利用了这一点。 我们提出了一种新的分层方法结合了两种范式的优势从高维相机观察中学习语言条件、任务无关、长视野policies。受将机器人操纵分解为语义和空间路径的工作思路的启发[12][13][6]我们提出利用非结构化数据的自我监督启示模型将机器人引导到语言指令中提到的可操作区域附近。一旦进入这个区域我们就会切换到一个单一的多任务7-dof语言条件视觉运动器policy它也是从离线、非结构化数据中训练出来的。   III. METHOD 我们将方法分解为三个主要步骤。首先我们从非结构化、远程操作的数据中训练一个语言条件启示模型以预测提供输入语言指令的对象的3d位置第iii-a节。其次我们利用基于模型的规划向预测位置移动并切换到本地语言条件的、基于学习的policy与场景交互第iii-c节。第三我们展示了如何将hulc与大型语言模型llm结合使用将抽象语言指令分解为一系列可行的、可执行的子任务第iii-d节。 从形式上讲我们的最终机器人policy被定义为混合物 具体而言我们使用投影的末端执行器位置和来自启示模型的预测像素之间的像素距离来选择使用哪个policy。如果距离大于阈值则预测区域远离机器人当前位置我们使用基于模型的policy移动到预测位置。否则末端执行器已经接近预测位置我们继续使用基于学习的policy。因此我们将α定义为 由于启示预测以语言为条件每次agent收到新指令时我们的agent都会根据αsl决定使用哪个policy。将无模型policy活动的区域限制在提供人机交互的区域附近具有使其更具采样效率的优点因为它只需要学习局部行为。 A. Extracting Human Affordances from Unstructured Data 我们的目标是学习一个启示模型 affordance model 该模型可以在给定自然语言指令时预测世界位置。与之前需要手动绘制分割掩码的启示学习方法不同[31]我们自动从非结构化、人类远程操作的游戏数据中提取启示[16]。利用游戏数据有几个优点它收集起来既便宜又可扩展包含一般行为而且不是随机的而是由人类的启示知识构建的。具体来说游戏数据由一个长的未分段数据集D组成该数据集D包含用户在没有特定任务的情况下远程操作机器人提供的语义上有意义的行为。全状态动作流被重新标记以将前面的状态和动作视为达到访问状态的最佳行为[16]。此外我们假设少数随机序列不到数据集的1%用描述序列中正在完成的任务的语言指令进行注释。 为了从非结构化数据中提取视觉启示我们使用抓取器动作作为启发式方法来发现与任务完成相关的场景元素。考虑以下场景一个随机序列τ其中k表示窗口大小用语言指令注释。如果序列中的任何状态si动作ai包含一个抓取器关闭信号我们假设在末端执行器的位置有一个执行任务l所需的对象。为了学习视觉-语言启示模型我们将endeffector世界位置投影到相机图像上以获得像素点并用所述像素和语言指令l注释前面的帧如图2所示。直观地说这允许启示模型学习预测与完成任务l所需的对象相对应的像素。 图2从人类远程操作的非结构化、自由形式的交互数据中提取语言条件视觉启示的过程的可视化。我们在遥操作期间利用夹具打开/关闭信号将末端执行器投影到相机图像中以检测无向数据中的启示 在测试期间给定预测的像素位置假设现有的相机校准需要深度信息来计算基于模型的policy应该移动到的3d位置。我们的模型不是依赖于感官深度观测而是通过使用夹具闭合过程中端部执行器的位置作为监督来训练以产生估计的深度。我们公式的一个关键优势是通过从视觉语言特征预测深度我们的模型可以更好地适应场景中可能发生的部分遮挡。 B. Language-Conditioned Visual Affordances 我们的视觉语言启示模型见图3由一个带有两个解码器头的编码器-解码器架构组成。第一个头预测图像上的分布表示每个像素成为提供点 afforded point 的可能性。第二个头预测高斯分布从该分布中采样相应的预测深度。两个头共享相同的编码器并以输入语言指令为条件。从形式上讲给定一个由视觉观察和语言指令组成的输入启示模型Fa产生一个输出o即1逐像素热图指示提供命令任务的区域以及2相应的深度估计d。我们将这个映射表示为。  图3系统架构概述。hulc首先处理语言指令和来自静态相机的图像以预测提供的区域并将机器人引导到附近。一旦进入这个区域我们就会切换到语言条件模仿学习agent它从夹具和静态相机接收rgb观察结果并学习端到端达到policies的7-dof目标。这两个模块都从相同的自由形式、非结构化数据集中学习只需要1%的语言注释。 1) Visual Module: 视觉预测模块在给定输入的情况下生成热图A。为了训练它我们在A的所有像素上应用softmax函数。这导致图像上的分布V其中所有像素值的总和等于1。 同样通过将所有值初始化为零目标T的形状与V相同。然后我们使用与当前状态输入对应的投影位置的像素生成一个二进制one-hot像素图。最后我们利用交叉熵损失优化了视觉预测模块 其中。该优化方案[32]允许视觉模块学习图像上的多模态置信度其中具有最高值的像素表示给定输入的最可能的图像位置。在推理过程中我们使用密集像素输出预测A来选择像素位置 启示性预测遵循U-Net[33]架构在该架构中我们从LingUNet[34]中汲取灵感在瓶颈后对三个解码器层反复应用语言条件。 2) Depth Module: 如前所述我们可以通过将感兴趣像素pt变换到相机帧来计算深度模块的目标以获得其中该点的z坐标对应于真实深度。虽然我们计算了真实值但典型的深度传感器存在测量误差。因此为了设计一个对深度误差进行建模的系统我们使用地面真值深度信息通过最大化对数似然来训练高斯分布。 如图3所示深度模块由一组线性层组成这些层将编码的视觉语言特征作为输入。在这里语言调节是通过将自然语言编码连接到多层感知器的前两层来完成的。网络的输出是高斯分布d∼的参数在推理过程中对其进行采样以获得深度预测d。用于训练完整启示模型的总损失函数被定义为启示模块和深度预测模块损失的加权组合 C. Low-Level Language-Conditioned Policy 为了与对象交互我们学习了一个目标条件policy它在环境动力学下以当前状态和自由形式语言指令为条件输出在的动作。我们注意到agent无法访问环境的真实状态而是可以进行视觉观察。我们使用基于hulc[10]的通用目标达成policy对低级policy进行建模并使用多上下文模仿学习[9]进行训练。我们利用了用户提供的语义上有意义的行为的长非结构化数据集d这些数据集d是我们之前在第iii-a节中用来学习启示的。为了学习任务无关的控制我们利用目标重新标记[35]将这些短期目标图像条件演示输入到一个简单的最大似然目标条件模仿目标中 然而当学习语言条件策略时不可能将任何访问状态重新标记为自然语言目标因为目标空间不再等同于观测空间。lynch等人[9]表明将少量随机窗口与事后语言指令配对可以学习一个单一的语言条件视觉运动器policy该运动器可以执行各种各样的机器人操纵任务。这里的关键见解是求解目标图像或语言目标的单个模仿学习policy可以主要从未标记的游戏数据中进行学习控制并将语言注释的负担降低到总数据的1%以下。具体来说给定多个上下文模仿数据集具有不同的任务描述方式多上下文模仿学习在所有数据集上同时训练单个潜在目标条件的policy。 D. Decomposing Instructions with LLMs 使用启示模型将机器人引导到语言指令提供的区域然后利用低级policy执行任务原则上可以将多个语言指令链接成一行。虽然自然语言为任务规范提供了一种直观和可扩展的方式但要连续输入低级语言指令可能不切实际例如“打开抽屉”、“现在拿起粉红色块并将其放在抽屉里”、“然后拿起黄色块并将它放在抽屉内”来执行整理任务。理想情况下我们希望给机器人一个抽象的高级指令比如“整理工作空间并关闭所有灯”。与zeng等人[7]类似我们使用标准的预训练llm将抽象语言指令分解为一系列可行的子任务方法是用自然语言命令格式为注释的几个输入示例与相应的机器人代码通过少量提示配对。我们利用llm的代码编写能力[36][3]生成可执行的python机器人代码这些代码可以翻译成语言表达的操作技能。例如api调用push_buttongreen所表达的技能被翻译为“打开绿灯”然后用于执行policy的推理。我们唯一的假设是输入提示的场景描述与环境状态相匹配。我们在图4中显示了一个示例提示。 图4将抽象指令分解为子任务序列的示例提示。提示上下文为灰色输入任务命令为洋红色生成的输出突出显示。 IV. EXPERIMENTS 我们的实验旨在回答以下问题 1与使用端到端模型相比集成所提出的视觉语言启示模型是否可以提高以下语言指令的性能和数据效率 2 所提出的方法是否适用于现实世界 3 当与llm配对时agent能否通过遵循llm提出的子目标来推广新的行为  A. Simulation Experiments Evaluation Protocol. 我们使用calvin基准[8]的环境d设计我们的实验该环境由6小时的远程操作无定向游戏数据组成这些数据可能包含次优行为。为了模拟现实世界的场景只有1%的数据包含众包语言注释。calvin中agent的目标是使用机载传感通过自然语言指示5个不同的子任务解决多达1000个独特的序列链。在推理过程中只有当agent成功完成当前子任务时它才会接收链中的下一个子任务。 Results and Ablations. 我们比较了我们将机器人控制学习划分为基于语义概念的高级流和基于3d空间交互知识的低级流的方法hulc是一个state-of-the-art端到端模型它从游戏数据中学习基于语言的一般技能。为了进行公平的比较我们重新训练了原始的hulc agent以微调语言编码器因为这将平均序列长度从2.64提高到2.69。我们在表i中观察到当与我们的启示模型结合时性能增加到平均序列长度2.93。通过将控制解耦为层次结构我们表明性能显著提高。此外当使用预训练权重r3m[29]初始化我们的启示模型时hulc的平均序列长度为3.30这是一项旨在学习用于学习机器人技能的可重用表示的工作。  为了研究我们提出的方法的数据效率我们还将我们的模型与包含50%和25%总游戏数据的较小数据分割进行了比较。我们的结果表明我们的方法比基线的样本效率高出50%。由于可能很难判断每个模块对整体样本效率提高的贡献程度我们研究了将我们在25%数据上训练的启示模型与在完整数据集上训练的低级policy配对的效果。我们报告的差异很小平均序列长度为2.92。 B. Real-Robot Experiments System Setup. 我们在受模拟CALVIN环境启发的3D桌面环境中使用Franka Emika Panda机器人手臂验证了我们的结果。该环境由一张带抽屉的桌子组成抽屉可以打开和关闭木制底座上还有一个滑动门这样末端执行器就可以触及手柄。此外该环境还包含三个彩色灯开关和彩色块。我们使用来自并发工作的离线数据集[37]由9小时的非结构化数据组成这些数据是通过要求参与者在不执行任何特定任务的情况下远程操作机器人而收集的。此外我们通过要求人类注释者描述交互数据集中随机采样窗口的行为用语言注释不到总数据的1%具体为3605个窗口。该数据集包含超过25种不同的操作技能。我们注意到在现实世界中学习如此广泛的各种技能从非结构化、无重置和可能次优的数据中学习再加上不到1%的数据被语言注释是极具挑战性的。此外此设置包含的数据比相关方法少一个数量级[4]。 Baselines. 为了研究我们的分层架构的有效性我们以两个语言条件基线为基准hulc[10]和bc-z[4]。第一条基线用于评估利用启示模型对控制回路进行分层分解的影响因为低级policy是针对从非结构化数据中学习任务无关控制而定制的。另一方面bc-z基线仅在包含语言注释的数据上进行训练并包括拟议的辅助损失该损失从视觉中预测语言嵌入以更好地对齐视觉语言技能嵌入[4]。为了进行公平的比较所有模型都有相同的观察和动作空间并且它们的静态相机视觉编码器都用预训练的resnet-18 r3m特征初始化[29]。对于hulc这需要用于启示模型的视觉编码器和用于低级policy静态相机的视觉编码器。夹具相机的编码器是从头开始训练的。  Evaluation 我们首先评估受语言制约的个人技能的成功率。在使用离线游戏数据集训练模型后我们使用中性起始位置为每个任务执行了10次展开以避免在机器人的初始姿势中偏置policies。这种中性初始化打破了初始状态和任务之间的相关性迫使agent完全依赖语言来推断和解决任务。我们将每个模型的成功率记录在表2中。我们观察到由于演示不足bc-z基线在大多数任务中的性能接近于零。hulc的能力更强因为它利用了完整的数据集在10次推出中平均有42.4%但在长期规划方面遇到了困难大多数用模仿学习训练的端到端agents也是如此。总体而言hulc的能力更强在25个不同的操作任务中平均成功率为65.2%证明了在将控制解耦为层次结构之前结合语义-视觉-语言启示的有效性。  最后我们通过利用gpt-3为抽象语言输入生成子目标序列例如“整理工作区并关灯”来评估每种方法在现实世界中可以连续执行多少任务。我们报告说我们的方法平均执行了6.4个子目标而基线在完成2到3个子目标后往往会失败。请参阅补充视频了解定性结果这些结果展示了任务的多样性和不同方法的longhorizon能力。总体而言我们的结果证明了我们的方法通过利用视觉语言启示从非结构化数据中学习样本高效、语言条件化的policies的有效性。 V. CONCLUSION AND LIMITATIONS 在这篇论文中我们介绍了一种新的方法可以从包含低至1%语言注释的非结构化、离线和免重置数据中有效地学习通用、语言条件机器人技能。关键思想是从不同的人类远程操作数据中提取语言条件启示以学习在自然语言指令下交互应该在环境中的何处发生的语义先验。我们将这些知识提炼为基于模型和无模型的policies之间的相互作用允许对机器人控制学习进行样本高效的划分大大超过了具有挑战性的语言条件机器人操纵calvin基准的最新技术。我们表明当与llm结合将抽象的自然语言指令翻译成子目标序列时hulc能够完成现实世界中的长期、多层任务同时需要的数据比以前的方法少一个数量级。虽然实验结果很有希望但我们的方法有几个局限性。首先在现实世界中对技能进行排序时一个悬而未决的问题是跟踪任务进度以便知道何时进入下一个任务。在这项工作中我们以固定的时间范围对现实世界中的任务进行排序隐含地假设所有任务都需要大约相同的时间步才能完成。其次将抽象语言输入转换为子目标序列的代码生成模块假设提示的场景描述与环境状态相匹配这可以通过集成感知系统来自动化[2]。最后未来工作的一个令人兴奋的领域可能是不仅要用语言模型为行动奠定基础还要通过结合现实世界的机器人数据来探索改进语言模型本身[38]。
http://www.dnsts.com.cn/news/116120.html

相关文章:

  • 如何选择大连网站建设网站优化是往新闻中心发新闻吗
  • 湖北平台网站建设制作seo运营学校
  • 深圳网站制作哪家价格便宜电子商务网站平台不包括
  • 网站底部备案号代码西安建设主管部门官方网站
  • 以下不属于网站建设优化wordpress安装包
  • 做网站怎么去进行链接天津市最新消息今天
  • html5响应式网站开发教程wordpress 去掉底部
  • 杭州网站设计我选柚v米科技地方网站怎么做推广
  • 酒店移动网站建设方案全屏网站怎么做的
  • 兰州工业发展建设有限公司网站会员wordpress主题
  • 免费做调查的网站有哪些网站开发网页设计游戏设计
  • 北京网站建设 性价比平面设计作品欣赏官网
  • 学校网站建设专业公司帮公司做网站运营
  • 二道江网站建设扬中网站网站建设
  • 做苗木网站哪家好ps做网站logo尺寸
  • 做app必须有网站网站建设项目组织结构图
  • 百度自然排名网站的logo怎么做怎么才能建立自己的网站啊
  • 网站推广方法及特点网站二级目录建站
  • 网站运营与推广wordpress新建页面源码
  • 建站软件免费模板手机网站支持微信支付吗
  • 电子加工东莞网站建设人与马做网站
  • 天津百度推广优化排名南昌网站排名优化
  • 用jsp进行网站开发软件平台架构
  • 网站被降权后怎么办wordpress音乐批量上传
  • 网站制作模板百度网盘分类信息网站建设方案
  • 58同城网站建设目的自己做网站 需要哪些
  • 网站和新媒体建设管理办法牌具做网站可以吗
  • 自贡建设局网站wordpress 上传 主题
  • 网站制作千知寻展会展厅设计公司
  • 婚庆网站设计说明书wordpress 数据库