当前位置：首页 > news >正文

建网站多少钱专业外贸平台推广

news 2026/2/26 19:44:00

建网站多少钱,专业外贸平台推广,网络策划与营销,asp网站建设实录pdf正在德国举办的机器人研究领域的顶级学术会议CoRL 2024#xff0c;清华大学交叉信息研究院高阳研究组发布重磅研究成果#xff0c;提出“基于大模型先验知识的强化学习”框架#xff08;Reinforcement Learning with Foundation Priors) 来促进具身智能体在操作任务中的学习…正在德国举办的机器人研究领域的顶级学术会议CoRL 2024清华大学交叉信息研究院高阳研究组发布重磅研究成果提出“基于大模型先验知识的强化学习”框架Reinforcement Learning with Foundation Priors) 来促进具身智能体在操作任务中的学习效率和自主探索能力。该框架通过利用策略、价值和成功奖励等基础模型为智能体提供指导和反馈成功地使机器人能够在真实环境和仿真环境中更高效地完成复杂的操作任务。 ▍现有强化学习方法当中两项棘手问题尚未解决强化学习Reinforcement Learning, RL作为一种有效的机器学习方法近年来在多个领域取得了显著成就尤其是在游戏AI和模拟机器人任务中。然而将强化学习算法直接应用于现实世界的机器人操作中依然面临很多短板包括样本效率低和奖励函数设计复杂等。针对这些问题清华大学高阳研究组提出“利用基础先验知识的强化学习框架”通过结合策略、价值和成功奖励等基础先验知识提高强化学习的效率和自主性。样本和函数复杂是制约强化学习在机器人交互当中的主要影响因素在样本的获取方面强化学习通常需要数百万次与环境的交互才能学会解决复杂任务这在现实世界中是不切实际的。而奖励函数则需要开发者精心设计从而引导智能体学习期望的行为这需要耗费大量的时间和精力成本。人类在策略、价值和成功奖励先验知识下如何解决问题这些问题限制了强化学习在真实机器人操作中的应用。而人类则完全不同人类可以通过利用先天能力和日常生活中的常识积累在与环境的少量交互中快速学习新技能。那么机器人是否可以结合先验知识来提高强化学习的效率和自主性呢基于基础模型引导的Actor-Critic方法概述 RLFP框架的提出解决了这个问题该框架通过利用策略、价值和成功奖励等基础先验知识指导智能体在强化学习过程中的探索和学习。这些先验知识分别对应强化学习中的策略函数、价值函数和成功奖励函数为智能体提供了关于“现在应该做什么”“我是否更接近目标”以及“我是否成功”的反馈。 RLFP框架包含以下几个关键部分策略先验知识为智能体提供一个初始行为指导帮助智能体从合理的起点开始探索。价值先验知识提供关于状态好坏的估计指导智能体向更有利的状态转移。成功奖励先验知识给出任务是否成功的最终反馈用于强化成功的尝试并避免不成功的行为。通过结合这些先验知识RLFP框架能够提升强化学习的样本效率减少对人类设计的奖励函数的依赖同时对先验知识的形式具有一定的鲁棒性。 ▍基于RLFP框架的FAC算法引导智能体完成高效的自主学习在RLFP框架的基础上高阳研究组又提出了一个FACFoundation-guided Actor-Critic算法该算法将策略、价值和成功奖励先验知识有效融合以指导智能体的学习过程。在算法实现上FAC首先构建了两个核心网络演员网络和评论家网络。演员网络负责根据当前状态生成动作其参数通过梯度上升法进行优化以最大化长期回报。而评论家网络则评估演员网络所采取动作的价值为演员网络提供反馈帮助其调整策略。为了实现高效的自主学习FAC算法引入了成功缓冲区存储被成功奖励先验知识识别的“成功”轨迹。在每次更新演员网络时算法不仅考虑当前的策略梯度还会从成功缓冲区中采样模仿这些成功的轨迹。这种模仿学习机制使得智能体能够快速吸收成功的经验加速学习进程。同时FAC算法还利用价值先验知识对评论家网络进行塑形以指导探索过程。通过潜在函数塑形奖励算法能够在不改变最优解的前提下引导智能体避开不理想的状态提高学习效率。此外策略正则化引导也作为算法的一部分通过策略先验知识对演员网络进行约束鼓励智能体在探索过程中保持合理的行为范围避免偏离正确路径。 ▍实验与结果分析在真实机器人实验中研究人员使用了一个具有7自由度手臂和1自由度平行夹爪的Franka Emika Panda机器人并设计了五个灵巧操作任务拾取放置、开门、浇水、拧瓶盖和高尔夫击球。在真实机器人上进行的五项任务展示了FAC在实际应用中的效率和准确性先验策略试图在没有成功抓住的情况下打开门而FAC则持续尝试在拉回手臂之前稳固地握住把手。实验结果表明经过一个小时的实时学习FAC算法在五个任务上的平均成功率达到了86%明显优于仅使用手动设计奖励的强化学习基线方法和基于GPT-4V生成代码策略的方法。 Meta-World中8项任务的成功率曲线在模拟实验中研究人员在Meta-World环境中测试了FAC算法在八个任务上的表现。实验结果显示FAC算法在七个任务上实现了100%的成功率且训练时间不超过100k帧约一小时。相比之下基线方法即使在1M帧的训练后也无法在所有任务上达到100%的成功率。消融实验结果通过消融实验研究人员进一步分析了策略、价值和成功奖励先验知识对FAC算法性能的影响。实验结果表明成功奖励先验知识对性能的影响最大而策略和价值先验知识则在不同程度上提高了样本效率和成功率。此外FAC算法还对先验知识的质量具有一定的鲁棒性即使在先验知识存在噪声的情况下仍能保持较好的性能。 ▍基于RLFP框架和FAC算法的一些思考 RLFP框架和FAC算法为强化学习在现实世界中的应用提供了新的思路和方法。通过结合策略、价值和成功奖励先验知识RLFP框架显著提高了强化学习的样本效率和自主性减少了对人类设计的奖励函数的依赖。同时FAC算法有望在更多复杂任务中发挥作用特别是在那些奖励函数难以明确定义或环境动态变化的场景下。不过研究人员也表示当前RLFP框架仍依赖于人类工程来设计低层次技能和提示并未真正完成自主生成的技能此外当前实验中使用的先验知识主要来自预训练的模型并未打通网络端在线获取或更新更加先进的知识。同时人类除了策略、价值和成功奖励先验知识外还具有其他形式的先验知识如预测未来状态的能力。这些都是未来RLFP框架需要持续迭代并解决的方向。

查看全文

http://www.dnsts.com.cn/news/35478.html