做网站什么公司好,php网站模板制作软件,Wordpress 大数据量优化,wordpress怎样下载论文链接#xff1a;https://arxiv.org/pdf/2409.12514 项目链接#xff1a;https://tiny-vla.github.io/
具身智能近期发展迅速#xff0c;拥有了大模型大脑的机械臂在动作上更加高效和精确#xff0c;但现有的一个难点是#xff1a;模型受到算力和数据的制… 论文链接https://arxiv.org/pdf/2409.12514 项目链接https://tiny-vla.github.io/
具身智能近期发展迅速拥有了大模型大脑的机械臂在动作上更加高效和精确但现有的一个难点是模型受到算力和数据的制约。如何使用更少的训练数据以更快的推理速度实现媲美OpenVLA的性能今天给大家分享的TinyVLA就是来解决这个难题的还有多种规模的模型可供选择
总结速览
解决的问题现有的视觉-语言-动作VLA模型在推理速度慢和需要大量机器人数据进行预训练方面面临挑战限制了实际应用。
提出的方案引入一种新型紧凑型视觉-语言-动作模型TinyVLA提供更快的推理速度和更高的数据效率消除预训练阶段的需求。
应用的技术TinyVLA框架包括两个关键组件1) 使用高效的多模态模型初始化策略骨干2) 在微调过程中集成扩散策略解码器以实现精确的机器人动作。
达到的效果TinyVLA在仿真和实际机器人上进行了广泛评估显著优于现有的VLA模型OpenVLA在速度和数据效率上表现更佳同时在语言指令、未知物体、位置变化等方面展现出强大的泛化能力。
方法
1. 训练轻量级VLM模型。 现有的VLM大多在30亿参数以上推理速度较慢训练周期长因此我们训练了一系列更加紧凑的VLM模型,我们使用pythia作为我们的LLM部分参照LLaVA的框架我们训练了3个不同大小的VLM参数量从4亿到14亿。以此作为我们VLA的主干网络。 2. 机器人数据微调VLA模型。 我们用训练好的VLM权重来初始化我们的VLA模型但是VLM只能生成语言无法直接生成动作OpenVLA和RT-2采用将动作离散化的方式将动作预测任务转变成next token prediction任务但这种方式会使得模型的训练难度大大增加因此我们采取用policy head 网络替换原有的llm head从而在不破坏动作连续性的同时使得模型训练更加简单。我们采取Diffusion policy网络来预测动作。为了增加动作的一致性以及提升动作预测效率TinyVLA一次性会预测未来16步的动作。为了进一步减少资源消耗我们使用LoRA微调VLM部分使得需要训练的参数只占总参数的5%。 实验
仿真实验结果
如图所示TinyVLA-H在metaworld的50个任务上都超越baseline特别是较难的任务中更是大幅领先。 多任务真机实验结果
1. 单臂多任务实验。 如图所示在5个真实环境下的任务分别测试20次使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H实现了最好的效果在翻马克杯任务、叠方块任务以及关抽屉任务上都达到了96%以上的成功率平均成功率达到94%比OpenVLA提升了25.7%。并且从TinyVLA-S到TinyVLA-H随着模型增加成功率也在增加证明TinyVLA符合Scaling Law。 2. 双臂任务实验。 双臂环境和单臂完全不同因为对应的动作维度不同而OpenVLA是自回归形式生成动作切换到双臂环境导致动作长度不一致使得OpenVLA没法正常生成动作并且Open-x Embodiedment数据集也只包含单臂任务这进一步导致OpenVLA无法正常生成双臂动作。而TinyVLA无需修改模型结构只需要更改动作维度即可直接迁移到双臂环境。如图所示在3个真实环境下的任务分别测试10次使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H 仍然大幅领先Baseline。 泛化实验结果
1. 指令泛化。 由于TinyVLA的主干网络是一个在大规模图片文本数据集上预训练的VLM模型尽管没在相应的机器人指令数据集上预训练但TinyVLA-H体现出了一些类似于RT-2的指令理解能力。为了更好的区分难度划分了3个难度等级越大越难第1级理解未在机器人数据中出现的颜色第2级区分不同物体第3级辨别新的物体并且实现已知物体的新用途。对于第1级TinyVLA能准确区分不同颜色的同一物体且该颜色并没有在机器人数据集中出现。第2级TinyVLA能区分不同物体这些物体虽然都出现在机器人数据中但并没有同时出现过也没有在相应的区分任务中训练过。第3级指令是全新的要求TinyVLA抓起一个没有在机器人任务中见过的小车并放到盒子里注意盒子只在开盖子的任务中出现过。 2. 视角泛化。 视角泛化是机器人领域的一大难题轻微晃动视角都可能会导致任务完成失败。TinyVLA在一定范围内展现出了视角泛化能力。如图所示我们测试了4个视角度数范围从-30度到30度左右视角分别测试。对于关抽屉任务TinyVLA展现出较好的能力但是精度要求更高的叠方块任务则较难完成任务。 3. 位置泛化。 位置泛化要求模型不仅要能在图片中识别出目标物体的位置还要求模型能泛化到不同的动作空间。而TinyVLA在这项测试中大部分位置能够完成任务少部分极端位置则逊色于OpenVLA。这可能是由于OpenVLA在大规模的机器人数据集上预训练且该数据集主要是pick place的任务类型。 4. 物体以及外观泛化。 更换不同的物体或者相同的物体变换颜色TinyVLA能实现媲美OpenVLA的性能而只需要OpenVLA约1/5的参数量且推理速度更快。 5. 背景泛化。 背景变化同样会导致任务失败因为背景通常会导致大面积的干扰从而影响任务的完成。我们测试了6种背景下模型是否还能正常完成任务且我们选择的叠方块和抓网球都是位置敏感性任务更容易收到干扰。测his结果如图TinyVLA与OpenVLA展现出了相近的能力。 6. 光照泛化。 结论
在机器人领域VLA模型展现出了强大的泛化能力包括但不限于物体、干扰物、指令泛化等。但VLA模型同时也面临着两个严峻的问题一方面现有的VLA如RT-2、OpenVLA有着70亿参数甚至550亿参数庞大的参数量到导致模型的推理速度十分缓慢OpenVLA在H100上推理也只能达到约6Hz的运行频率。另一方面现有VLA都是在庞大的机器人数据上预训练过的比如OpenVLA在Open-x Embodiedment dataset上预训练大约970K轨迹而真实环境很难收集到如此大规模的数据因此如何高效地利用少量数据也是机器人领域难点之一。为了缓解这两个问题本文推出了TinyVLA以实现更快的推理速度以及不使用大量的预训练数据并且实现媲美OpenVLA的性能。
TinyVLA将现有的VLM模型和Diffusion policy网络相结合将VLM的泛化能力迁移到机器人领域的同时还能利用Diffusion policy网络从而缓解自回归生成导致的推理速度缓慢。我们根据LLaVA的框架首先预训练了一系列不同大小的VLM然后将VLM的权重直接迁移到我们的VLA模型再用下游机器人数据进行LoRA微调。根据VLM的参数量变化我们的TinyVLA也有三种规模总参数量从4亿到13亿参数。
在下游任务上我们最大的TinyVLA-H推理延迟比OpenVLA快20倍且单臂环境平均任务成功率高出25.7%如下图所示。同时我们的TinyVLA还能够直接迁移到双臂环境无需修改网络结构等只需要修改预测的动作维度即可但受限于OpenVLA的自回归结构以及预训练数据均为单臂导致其很难在双臂环境下正常运行。此外我们的TinyVLA在多个泛化指标上能达到与OpenVLA相媲美的性能比如物体泛化、位置泛化、干扰物、背景泛化而在视角变化泛化上TinyVLA更是遥遥领先在-30度到30度的超大范围测试中部分情况仍能准确完成任务。
参考文献
[1]TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation 更多精彩内容请关注公众号AI生成未来