无忧企业网站系统,门网站源码,阿里云建网站费用,做自己的网站要多少钱自OpenAI的o1发布以来#xff0c;研究社区为提升开源LLM的高级推理能力做出了诸多努力#xff0c;包括使用强大的教师模型进行蒸馏、蒙特卡洛树搜索#xff08;MCTS#xff09;以及基于奖励模型的引导搜索等方法。 本研究旨在探索一个新的研究方向#xff1a;使LLM具备自回…自OpenAI的o1发布以来研究社区为提升开源LLM的高级推理能力做出了诸多努力包括使用强大的教师模型进行蒸馏、蒙特卡洛树搜索MCTS以及基于奖励模型的引导搜索等方法。 本研究旨在探索一个新的研究方向使LLM具备自回归搜索能力即单个LLM能够进行扩展推理过程并进行自我反思和自我探索新的策略。
为此我们开发了一种受经典强化学习RL社区启发的LLM后训练范式。我们的方法成果是Satori这是一个基于开源模型Qwen-2.5-Math-7B和开源数据OpenMathInstruct-2和NuminaMath训练的7B LLM。Satori的关键特性包括 • 能够在没有外部指导的情况下进行自我反思和自我探索。 • 主要通过自我提升强化学习实现最先进的推理性能。 • 在数学以外的未见领域展现出推理能力的可迁移性。
方法
我们将 LLM 推理公式化为一个顺序决策问题其中推理是一个逐步构建和完善答案的过程。具体而言LLM作为智能体的策略从输入上下文初始状态开始生成一个推理步骤动作并更新上下文下一个状态。LLM重复这一过程直到得出最终答案并获得一个奖励用于评估最终答案是否与真实答案相符。通过这种表述我们可以使用强化学习训练LLM进行推理目标是生成一系列推理步骤以最大化预期奖励。
行动思维链推理COAT
实现自回归搜索的关键挑战是让 LLM 能够在没有外部干预的情况下确定何时反思、继续或探索替代解决方案。为了实现这一点我们引入了几个特殊的元动作标记来指导 LLM 的推理过程 • 继续推理|continue|鼓励 LLM 通过生成下一个中间步骤来构建其当前的推理轨迹。 • 反思|reflect|促使模型暂停并验证先前推理步骤的正确性。 • 探索替代解决方案|explore|指示模型识别其推理中的关键缺陷并探索新的解决方案。
我们将此公式称为“行动-思维链” (COAT) 推理。每个 COAT 推理步骤都是一个标记序列从其中一个元行动标记开始。
训练架构概览
标准的 LLM 无法进行 COAT 推理实现这一点将面临两个关键挑战 • 对元动作标记的无知未经训练LLM无法识别遇到特殊元动作标记可能需要反思或提出替代解决方案。 • 长期决策和稀疏奖励推理需要长期决策奖励仅在最后出现LLM必须在获得奖励之前采取许多正确的推理步骤失败则迫使其从初始状态重新开始。由于奖励稀缺但奖励对于推动强化学习进展至关重要这使得学习变得困难。
为解决这两个挑战我们提出了一个两阶段训练框架 • 小规模格式微调阶段帮助基础LLM内化COAT推理格式。 • 大规模的强化学习阶段利用强化学习与“重启和探索”RAE技术。
*注 我们同时开展的工作DeepSeek-R1采用了类似的训练框架即先进行小规模冷启动 SFT然后进行大规模 RL 训练。尽管两项工作在这一高级理念上是一致的但我们的工作在关键方法上与 R1 有所不同包括数据合成框架和 RL 算法。
通过模仿学习进行格式调整
此阶段旨在微调预先训练的基础 LLM以模仿一些具有 COAT 推理格式的已证明的推理轨迹。为了合成这种结合反复试验的 COAT 轨迹我们提出了一个利用三个 LLM 的多智能体数据合成框架 • Generator给定一个输入问题生成器使用经典的 CoT 技术为给定的输入问题生成多条推理路径。 • Critic评论家评估生成器生成的推理路径的正确性提供反馈以改进推理并解决次优步骤。 • Reward Model奖励模型对细化的推理路径进行评分并选择最有效的路径作为最终的演示轨迹。
这三个模型协作构建了高质量的演示轨迹。我们观察到少量10K的演示轨迹足以使基础 LLM 遵循 COAT 推理格式。
通过强化学习实现自我提升
通过格式调整LLM 采用了 COAT 推理风格但难以推广到未见过的问题。强化学习阶段旨在激励利用自我反思来改善推理的实际能力。我们从格式调整后的 LLM 开始并使用经典 PPO 算法和另外两个关键策略进一步优化它 • 重启和探索 (RAE)受Go-Explore的启发我们训练 LLM 策略使其不仅从问题陈述进行推理而且还从过去轨迹中采样的中间步骤进行推理无论正确与否。我们还添加了探索奖励以鼓励更深入的思考从而进一步增加策略得出正确答案的机会。 • 迭代式自我改进策略可能会收敛到局部次优无法进一步改进。受Kickstarting的启发在每一轮强化学习训练之后我们通过监督微调将当前教师策略的知识提炼到学生模型基础 LLM中。然后从新微调的 LLM 开始我们再进行一轮强化学习训练。
基准性能
Satori 在领域内推理基准数学推理和领域外基准一般推理任务上进行了评估。所有结果均以贪婪采样的零次传递1 准确率报告。
评估任务 • 数学推理基准GSM8K、MATH500、AMC2023、AIME2024 和OlympiadBench。除 GSM8K 外其他所有数据集都具有竞赛级问题。 • 通用领域推理基准 逻辑推理FOLIO、BoardgameQABGQA。 代码推理CRUXEval。 常识推理StrategyQASTGQA。 表格推理TableBench。 领域特定推理MMLUPro STEM 子集STEM包括物理、化学、计算机科学、工程、生物和经济学。
数学推理基准
Satori-Qwen-7B 取得了 SOTA 性能并超越了使用相同基础模型Qwen-2.5-Math-7B的 Qwen-2.5-Math-7B-Instruct。经过第二轮训练后Satori-Qwen-7B第二轮在困难任务上表现出更强的性能。 通用领域推理基准
Satori-Qwen-7B仅接受数学数据集训练在各种领域外推理基准上表现出很强的可迁移性并且远远优于 Qwen-2.5-Math-7B-Instruct。此外尽管未接受其他领域的训练Satori-Qwen-7B 的性能也与其他小规模通用指令模型相当甚至超过。 更多测试结果可以查看原文
https://satori-reasoning.github.io/blog/satori/ 2月15日上午11点青稞Talk 第38期Satori第一作者、MIT博士生沈茂昊将直播分享《Satori通过训练LLM做自回归搜索来增强推理能力》。
分享嘉宾
沈茂昊MIT EECS系四年级博士生长期和MIT-IBM Watson AI lab 合作本科毕业于UIUC ECE系。研究兴趣包括提升AI系统的可靠性不确定性估计以及涉及LLM的多个方向包括提升LLM的推理能力等曾在ICML、NeurIPS、AAAI等AI学术会议发表多篇论文。
主题提纲
Satori通过训练LLM做自回归搜索来增强推理能力
1、O1 类推理模型的技术路线 2、Satori 推理模型及两阶段训练解析 - 行动思维链 COAT 推理范式 - 小规模格式微调 - 大规模的强化学习阶段 3、Satori 的推理能力及泛化讨论
成果连接
Paperhttps://arxiv.org/pdf/2502.02508
Projecthttps://satori-reasoning.github.io
直播时间
2月15日周六11:00 – 12:00