当前位置: 首页 > news >正文

做外贸生意的网站企业网站备案审核需要多长时间

做外贸生意的网站,企业网站备案审核需要多长时间,网站建设现状,微信群投票网站怎么做发表时间#xff1a;13 Jun 2024 作者单位#xff1a;SJTU Motivation#xff1a;以往的机器人VLM如RT-1[4]、RT-2[3]和ManipLLM[21]都专注于直接学习以机器人为中心的动作。这种方法需要收集大量的机器人交互数据#xff0c;这在现实世界中非常昂贵。 解决方法#xf…发表时间13 Jun 2024 作者单位SJTU Motivation以往的机器人VLM如RT-1[4]、RT-2[3]和ManipLLM[21]都专注于直接学习以机器人为中心的动作。这种方法需要收集大量的机器人交互数据这在现实世界中非常昂贵。 解决方法因此我们提出了 A3VLM这是一种object-centric, actionable, articulationaware vision language model。A3VLM 专注于对象的铰接结构和动作可供性。它的表示与机器人无关可以使用简单的动作原语翻译成机器人动作。以对象为中心的与以机器人为中心的方法有什么不同有什么优势不再需要机器人数据而是从被操作物体的物理性质出发建立模型然后通过动作原语让机器人采取相应的操作。 实现方式a representation that describes the objects articulation structure and action affordance simultaneously. 与之前的以机器人为中心的动作表示[3,21]相比A3VLM的表示是以对象为中心的这使得在不收集昂贵的机器人交互数据的情况下学习对象的可操作模型并且各种机器人可以使用相同的学习对象模型。 在强大的VLM主干的支持下A3VLM能够直接从单个RGB图像中预测3D铰链结构而不需要任何深度数据。 Proposed Articulation RepresentationA3VLM使用以对象为中心的表示专注于对象内可移动部件的链接和可供性。A3VLM 中可操作的部分、可供性和链接结构被表示为三元组边界框 B、Axis A轴、语义标签 S。边界框 B 定位给定图像中感兴趣的可操作部分。Axis A 表示零件的链接结构。S语义标签是指关节类型prismatic 或 rotation、链接名称和动作类型。 Instruction-following Dataset Construction构建本文用到的数据集we do not train A3VLM from scratch为了微调VLM我们需要构建一个指令跟踪数据集其中输入是图像和文本提示答案应该是结构化文本。在实践中我们不要求 VLM 在一个推理步骤中生成所有内容而是将任务分为四种不同类型的子任务与其他文章的做法类似。 Raw A3 Annotation Generation生成指令跟踪数据集的第一步是创建对象级原始注释。Within each image, we provide an annotation (B, A, S) for each visible and movable link. 我们将所有链接分为平动型和转动型。对于转动链接axisA 是 URDF 中提供的旋转轴。对于平动连杆我们使用URDF中提供的棱柱方向作为轴方向确保轴A通过连杆的3D中心。 在确定轴 A 之后我们沿 A 投影链接点并计算投影形状的最小 2D 边界框。我们使用这个边界框的较长边作为 x 轴较短的边作为 y 轴轴 A 作为边界框 B 的 z 轴原来是通过轴的方向之后利用轴向量进行投影投影到物体上来确定三维空间中的bbox的。边界框 B 的中心是铰链的 3D 中心。边界框B的宽度、高度和长度是根据链路的最远点与中心之间的距离来计算的。语义信息 S 存储链接的链接类型、名称和link的可供性动作。 值得注意的是没有提供PartNet-Mobility 数据集中链接负担得起的操作因此我们从机器人技能库Roboagent中选择动作。同时为了使得选择的动作与link匹配使用gpt4进行筛选都是数据构建的过程。 Sub-tasks Construction与ManipVQA一样REC和REG但是最开始并不是ManipVQA提出的而是参考文献9。Following these definitions, we construct four different sub-tasks: (1) Detection, (2) REC-Link, (3) REG-Joint, and (4) REC-Action. Each sub-task consists of an image, a text question, and a text answer.与ManipVQA一样同样对任务进行了扩展。 Data Augmentation Strategy原始 PartNet-Mobility 数据集的一个限制是没有纹理细节。为了解决模拟到现实(Sim2Real)的差距我们使用ControlNet[39]来生成更真实的图像使用深度图作为主要控制信号因为它们能够传达几何和语义信息。具体是怎么做的 这里的控制信号应该指的是输入Stable Diffusion的condition。 Fine-tuning Strategy两阶段微调。 我们的训练范式遵循传统的视觉问答 (VQA) 框架并在自然语言框架内封装有关链接的所有信息。为了弥合我们专业数据集和通用自然图像之间的视觉差异我们采用了两阶段微调策略。最初视觉投影层使用简单的图像标题任务进行微调利用“这是一个 [OBJ]”等基本模板来生成简单的标题。然后我们在指令跟踪数据集上同时微调视觉投影层和LLM。 Action PrimitivesAs previously mentioned, A3VLM utilizes an objectcentric representation. To translate this into a robot movement, we need to define specific action primitives。A3VLM 旨在与各种类型的机器人一起使用因此它没有针对任何特定的机械手进行优化例如平行或吸力夹具。需要一个独立的通用抓取姿势提议器来生成抓取候选列表。在操作过程中我们利用 A3VLM 生成的三元组 (B, A, S) 和抓取姿势候选。 我们定义了三种类型的动作原语Rotate、Slide 和 Scroll。对于给定的link如果它对应的关节类型是棱柱我们选择滑动动作如果它是旋转的我们选择旋转动作除非目标链接在语义上被标记为瓶盖或滚动按钮在这种情况下我们选择滚动动作。也就是说根据的是三元组 (B, A, S)中的S语义标签是指关节类型prismatic 或 rotation、链接名称和动作类型来选择对应的动作源语。 如果选择的动作是“滚动”我们确保抓取姿势与旋转轴 A 重叠。否则我们在边界框 B 中随机选择一个抓取姿势作为接触点 C。然后我们为每个动作类型使用 C 和 A 生成轨迹。根据rotation axis和contact point和反解算法生成轨迹这些轨迹构成了我们生成的动作。 实验A3VLM is developed based on the SPHINX-X [12] with LLaMA2 serving as the language backbone.SPHINX-X模型的优势关注目标对象的部分或区域细节.The visual encoders were kept frozen throughout the fine-tuning phase to maintain the integrity of the pre-trained features.我们认为这种改进来自两个方面一方面来自可操作的部分和关节结构的准确基础形成的结构化三元组另一个方面是动作原语的引入。动作原语使 A3VLM 能够对不同的铰接对象执行不同的动作。 Action Primitives Details定量评估时候的过程与上述基线不同A3VLM 以以对象为中心的方式对动作进行建模。更具体地说对于每个对象我们首先检测出a list of action parts的相应的边界框 B、轴 A、关节类型和链接名称 S也就是说把都按照三元组的形式存储在list里面。 我们从列表中选择一个随机动作部分并使用其边界框B和轴 A 来生成两个机器人轨迹B和A就能表示物体的pose利用反解算法生成轨迹。例如对于faucet水龙头的处理我们将生成轨迹顺时针和逆时针旋转。我们将在两个尝试中执行这些轨迹。如果任务在两种尝试中都成功则认为该任务是成功的。 结论了解铰接物体的关节和动作可供性。与之前的以动作为中心的机器人VLM不同A3VLM不需要任何机器人交互数据可以适应各种机器人配置。不需要的是机器人的轨迹数据。 现有的用于操作的llm/VLM可以分为三个主要类别 第一种是生成code高级规划并调用API的depends on the implementation of the low-level skills and APIs, and it is primarily limited to simple tasks such as pick-and-place。egCode-as-Policies, Instruct2Act, SayCan. 第二种是直接生成low-level action的需要大量的机器人轨迹数据。egRT-1 [3], RT-2 [3], and ManipLLM 第三种是生成中间的机器人表示然后使用简单的动作原语或控制将其转换为机器人动作。such as cost maps (VoxPoser [18]), action constraints (MOKA [25]), or affordances (ManipVQA [17]), which are then translated into robot actions using simple action primitives or controls. Our A3VLM falls into this third category. 附录:Exploration on More Input Modalities 尝试使用深度图与RGB图像一起作为模型的输入。然而训练阶段效果都很好在测试阶段A3VLM 显示出显著的改进表明纯 RGB 输入实际上更适合泛化。这种消融研究证实了我们最初的假设即使用纯 RGB 作为输入模态。 For point cloud inputs, we utilized PointBert [37] and RECON [30] as the point encoders尽管修改后的大型语言模型 (MLLM) 产生了高质量的字幕取得了成功的训练但 LLM 未能预测部分对象边界框坐标训练没崩测试崩了。这个困难归因于Lack of Visual Texture 和 Model and Data Limitations。
http://www.dnsts.com.cn/news/93375.html

相关文章:

  • 哪些网站可以做推广什么是网络营销传播
  • 免费移动网站模板下载家具网页设计素材
  • 海门网站建设培训东莞做外贸网站的公司
  • 北京欢迎你 网站建设南京seo
  • 运城网站开发app三大网络架构
  • 网站服务器租鄂尔多斯网架公司
  • 一六八互联网站建设企业系统工程
  • 上海网站建设升级手机网站专题页
  • tp框架做网站的优点深圳住房建设局网站
  • 淘宝网站内站建设现状什么是网络营销?如何理解网络营销
  • 一级a做爰片365网站汽车网络营销推广方案
  • 国内做网站比较好的公司论坛网站文本抓取怎么做
  • 购买网域名的网站好wordpress如何添加tdk
  • 网站建设的软件有哪些wordpress 空白框架
  • 服装设计参考网站可以自己做网站卖东西
  • 商城网站建设要求wordpress如何写网站
  • 小孩做阅读的网站有哪些陕西省医院信息化建设规范与测评标准—网站建设评分标准与方法
  • 东莞网站推广培训肇庆手机台app下载
  • 网站建设实施规范中天建设集团有限公司官网
  • 企业开源网站系统网站提速
  • 怎么用花生壳做网站跳网站查询的二维码怎么做的
  • 如何开通自己的网站如何进行网站备案
  • 邯郸专业做wap网站吴忠seo
  • 找人做seo要给网站程序智能小程序收款码
  • 花万元请人做网站广安市网站建设
  • 惠州做网站建设htm网页设计
  • wordpress竖状导航seo公司培训课程
  • 潍坊市作风建设年官方网站企点邮箱登录入口
  • 大庆网站设计广东两学一做网站
  • 暖色调 网站为加强政协网站建设