环评登记表在哪个网站做,建设银行不会自动弹出网站,动态表白网页在线制作,app和手机网站的区别是什么首先解释这篇工作名称Palm-E#xff0c;发表时间为2023.03#xff0c;其中的Palm是谷歌内部在2022.04开发的大语言模型#xff0c;功能类似ChatGPT#xff0c;只是由于各种原因没有那样火起来#xff0c;E是Embodied的首字母#xff0c;翻译过来就是具身多模态大语言模型…首先解释这篇工作名称Palm-E发表时间为2023.03其中的Palm是谷歌内部在2022.04开发的大语言模型功能类似ChatGPT只是由于各种原因没有那样火起来E是Embodied的首字母翻译过来就是具身多模态大语言模型大模型我们一般习惯将其称为具身多模态大模型。
何为具身这个词听起来非常陌生简单说就是AIagent机器人是其中一种agent的结合强调的的agent通过与环境互动来获取智能类似人类获得智能的范式博主将在之后的博客里做专门篇幅讲解欢迎大家继续关注下面开始来详细拆解这篇论文。
Palm-E两大任务视觉问答(VQA)和具身任务规划
Palm-E用统一的网络架构和训练方式进行多任务主要包括视觉问答(VQA)和具身任务规划。
具身任务规划
该任务要求大模型能理解人类的语言和意图还需要机器人观察和操作环境中的物体以及规划一系列的子目标和动作。其输入是多模态的输入如文本、图像、触觉信息以及机器人的3D空间状态等输出可被机器人逐步执行的任务步骤比如当我们让其去抽屉里拿薯片Palm-e会输出如下子任务步骤而后机器人利用其它模块(我们称之为Policy本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之 step1导航到抽屉 step2打开抽屉 step3取出薯片 step4关闭抽屉 step5导航至主人处 step6将薯片交给主人
VQA
该任务与agent无关用户输入图片和想问的问题大模型输出对问题的文字回复。
贡献
提出和演示一个通用的,可迁移学习的智能决策的多模态大模型训练方面引入先进的结构思想使得可以对多模态输入数据进行符号表征用于训练推理如neural scene representations entity-labeling multimodal tokens.除了具身推理embodied reasoner PaLM-E也是一个视觉语言方面的通才演示了增大模型的规模可以极大地提升多模态大模型性能特别是减少灾难性遗忘(catastrophic forgetting)
Palm-E网络结构 整个网络的结构如上所示多模态数据(图像文本物体状态等)经过特定的编码后直接输送到大语言模型借助大语言模型的能力输出文字这些文字可以是对问题的回复也可以是对任务的规划。看上去大家都应该学fei了
训练与实验
文章大篇幅介绍了相关实验实验数据集如下主要包括网络VQA数据和机器人轨迹数据。
实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。
VQA任务
VQA不是本工作的核心但附带也能进行此类认为因此也做了相关测评该实验对比了不同规模模型和训练方式对该任务的影响结果如下
纯语言任务
该实验对比了不同规模模型对纯语言问答任务的影响。
机器人具身规划任务
这一部分是本工作的核心验证了大语言模型规模和训练方式对该任务的影响分别在TAMP(纯规划)Language table(机械臂桌面push任务)和机器人移动操作任务室内移动操作任务上进行对比。
TAMP(Task and Motion Planning)任务 Language-Table
在该任务中Palm-E规划任务将高层次的人类语言转化成多个机器人可执行步骤然后调用LAVA这个工作执行整个工作流程如下所示 一些实验结果如下所示
移动操作任务
可供性评估Affordance prediction和失败检测
Affordance是指根据图片判断某个子任务skill可否被成功执行失败检测是指根据观测判断任务是否被成功完成两者都是机器人闭环任务规划的一大重要环节对比结果如下
长水平规划(Long-horizon) 实验摘要和讨论
通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)
利用多任务数据训练最终可对单个任务起促进作用。但这个实验博主觉得不太严密缺乏一个full only robot data实验
数据有效性(Data efficiency
机器人的数据很难获得但通过大量网络数据的训练Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型体现了一定的迁移性OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。
保存纯语言能力
论文介绍了两种方法
训练过程中freeze住LLM模型但这可能会使得在机器人任务中很失败使用足够大的LLM模型。
总结
我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务也有近期的工作表明了其在可供性评估上的局限性为了克服这些局限性我们提出PaLM-E一个单一模型能够在模拟和现实世界中控制不同的机器人同时 具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 即 OSRT应用到Pla-E使得即使没有大规模数据该模型在机器人多任务中也特别有效。重要的是我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的使得通向通用具身多模式模型的道路同时完全保留语言能力我们还提出了使用解冻模型的替代途径增加语言模型的大小会显着减少灾难性遗忘。最大的模型PaLM-E-562B展示了强大的思维链能力和视觉图像任务能力。
个人思考
谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中可以动态规划任务同时展现了一定的迁移泛化性。但这个工作比较难以复现模型易懂但其中最大问题就在于它需要大量的数据如同大多数其他AI工作一样机器人具身大规模数据才是最大的瓶颈。