免费源码的商城网站,上海发布首页,通城做网站的,源码搭建网站2025年1月20日#xff0c;DeepSeek-R1 发布#xff0c;并同步开源模型权重。截至目前#xff0c;DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用#xff0c;直接登顶 AppStore。 DeepSeek-R1 一经发布#xff0c;各种资讯已经铺天盖地#xff0c;那就让我们一起…2025年1月20日DeepSeek-R1 发布并同步开源模型权重。截至目前DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用直接登顶 AppStore。 DeepSeek-R1 一经发布各种资讯已经铺天盖地那就让我们一起来精读一下论文看看引爆AI圈的 DeepSeek-R1 是如何炼成的 0. 前言
在正式阅读论文前我问了DeepSeek-R1一个问题“写了篇博客主要内容是阅读DeepSeek-R1论文帮我想十个标题”让我们看看它给出的回答 以下是十个吸引人且富有深度的标题建议突出技术洞察与行业价值 《推理革命DeepSeek-R1如何用强化学习重构LLM能力边界》 —— 聚焦RL技术对模型推理能力的突破性提升 《小模型逆袭大厂顶流从DeepSeek-R1看知识蒸馏的“魔法”》 —— 对比蒸馏模型与GPT-4o/Claude的性能反差 《放弃CoT反而更强DeepSeek-R1的零样本优化启示录》 —— 揭秘少样本提示失效背后的技术逻辑 《RLHF之后的下个战场DeepSeek-R1揭示模型对齐新范式》 —— 探讨安全性与推理能力的协同进化 《从32B到70B解密DeepSeek-R1的“模型缩放法则”》 —— 分析参数规模与任务性能的非线性关系 《当AI拒绝回答DeepSeek-R1安全强化学习的双刃剑效应》 —— 讨论中文QA性能下降的伦理与技术取舍 《超越AlphaGo思维DeepSeek-R1如何破解MCTS的文本生成困局》 —— 解读蒙特卡洛树搜索在NLP领域的适应性挑战 《80万样本炼金术从DeepSeek-R1看高质量训练数据的“隐形护城河”》 —— 剖析数据工程对模型性能的指数级影响 《OpenAI的真正对手DeepSeek-R1数学推理能力全面对标GPT-4》 —— 通过AIME/MATH竞赛数据展开跨模型对决 《失败的价值DeepSeek-R1研发中那些被放弃的技术路线》 —— 从PRM/MCTS实验看AI工程化的试错哲学
设计思路
冲突感使用“逆袭”“困局”“双刃剑”等词制造认知张力数据背书突出28.9% AIME、80万样本等具体数字增强可信度行业定位通过“OpenAI对手”“RLHF战场”等关联头部玩家方法论启示强调“零样本优化”“模型缩放法则”等普适性规律多维视角涵盖技术突破、伦理反思、失败案例等立体维度
这些标题既可单独使用也可作为系列文章框架适合不同传播场景需求。 可以看到它给出的回答还是比较惊艳的下面我们来看论文。
1. 背景
DeepSeek全称“杭州深度求索人工智能基础技术研究有限公司”成立于2023年7月。在硅谷DeepSeek被称作“来自东方的神秘力量”、大模型届的“拼多多”。2025年1月20日DeepSeek-R1 发布性能对标 OpenAI o1 正式版并同步开源模型权重。
2. 摘要
我们正式推出第一代推理模型DeepSeek-R1-Zero与DeepSeek-R1。其中DeepSeek-R1-Zero通过大规模强化学习RL训练无需把有监督微调SFT作为第一步展现出卓越的推理能力。通过RL训练机制该模型自发形成了多种强效且具备启发性的推理范式。
然而该版本存在可读性不足及语言混杂等局限性。为突破这些技术瓶颈并进一步提升推理性能我们开发了深度融合多阶段训练与冷启动数据预处理的DeepSeek-R1模型。实验验证表明DeepSeek-R1在核心推理任务上已达到与OpenAI GPT-o1-1217相当的基准性能。
为促进学术生态建设我们完整开源DeepSeek-R1-Zero和DeepSeek-R1模型并发布基于Qwen与Llama架构从DeepSeek-R1蒸馏获得的六个稠密模型1.5B/7B/8B/14B/32B/70B。
3. 简介
近年来大型语言模型LLMS一直在经历快速的迭代和进化逐渐减少了与人工通用智能AGI的差距。
近年来后训练已成为完整模型训练流程的重要组成部分。相较于预训练阶段该方法以较低的计算资源成本显著提升了模型在推理任务中的准确率实现了社会价值对齐与用户偏好适配。在推理能力发展领域OpenAI的o1系列模型首创了通过扩展思维链CoT推理长度实现推理时延展的创新方法在数学推导、代码生成及科学推理等任务中实现了显著突破。然而如何实现有效的测试时延展仍是学界亟待解决的核心难题。先前研究探索了多种技术路径包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索与束搜索等算法但均未达到与OpenAI o1系列相当的通用推理性能。
本文首次尝试通过纯强化学习RL提升语言模型推理能力。我们的目标是探索LLM在没有任何监督数据的情况下开发推理能力的潜力重点是通过纯RL过程进行自我进化。具体而言我们以DeepSeek-V3-Base为基础模型采用GRPO框架进行强化学习优化。训练过程中DeepSeek-R1-Zero自发形成了多种强效且富有启发性的推理模式。经过数千次RL迭代后该模型在推理基准测试中展现出卓越性能AIME 2024测试的pass1分数从15.6%跃升至71.0%多数投票机制下更提升至86.7%与OpenAI-o1-0912性能持平。
然而DeepSeek-R1-Zero仍存在可读性欠佳及语言混杂等局限性。为解决这些问题并进一步提升性能我们开发了整合冷启动数据与多阶段训练流程的DeepSeek-R1模型。具体实施包含三个阶段首先收集数千条冷启动数据对DeepSeek-V3-Base进行微调随后实施与R1-Zero相似的强化学习优化当RL过程接近收敛时通过拒绝采样生成新SFT数据并结合DeepSeek-V3在文本创作、事实问答及自我认知等领域的监督数据重新训练基础模型。经过新一轮数据微调后模型进入考虑全场景提示的附加RL阶段最终获得性能与OpenAI-o1-1217相当的DeepSeek-R1。
我们进一步探索了从DeepSeek-R1到小型稠密模型的蒸馏技术。以Qwen2.5-32B为基础模型时直接蒸馏的效果优于对其应用RL训练这表明大模型发现的推理模式对能力提升具有关键作用。我们开源了基于Qwen与Llama架构的蒸馏模型系列。值得注意的是14B蒸馏模型性能大幅超越当前最优开源模型QwQ-32B-Preview32B与70B版本更在稠密模型推理基准中创下新纪录。
3.1 贡献
后训练 基础模型的大规模强化学习
我们直接将强化学习RL应用于基础模型而不将有监督微调SFT作为初始步骤。这种方法允许模型探索思维链CoT来解决复杂问题从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力为研究界树立了一个重要的里程碑。值得注意的是它是第一项公开研究验证了 LLM 的推理能力可以纯粹通过 RL 来激励而无需 SFT。这一突破为这一领域的未来发展铺平了道路。我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL阶段旨在发现改进的推理模式并与人类偏好保持一致。以及作为模型推理和非推理能力种子的两个 SFT 阶段。我们相信通过创建更好的模型该流程将为行业带来益处。
蒸馏 小型模型也可以很强大
我们证明大模型的推理模式可以提炼成较小的模型从而获得比在小型模型上通过 RL 发现的推理模式更好的性能。开源的 DeepSeek-R1 及其API将有利于研究界将来能提炼出更好的小型模型。利用DeepSeek-R1生成的推理数据我们对研究界广泛使用的几个密集模型进行了微调用。评估结果表明提炼出的小型密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上的得分率达到 55.5%超过了 QwQ-32B-Preview。此外DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%在MATH-500上的得分为94.3%在LiveCode上的得分为57.2%、和 57.2%。这些结果明显优于以前的开源源模型并与 o1-mini 不相上下。我们开源了 1.5B、7B、8B、14B、32B 和 70B 检查点。
3.2 评估结果摘要
推理任务1DeepSeek-R1 在 AIME 2024 上的 Pass1 得分为 79.8%略微超过 OpenAI-o1-1217。在 MATH-500 任务中它获得了 97.3% 的高分与 OpenAI-o1-1217 的表现相当明显优于其他模型。(2) 在编码相关任务中DeepSeek-R1 在代码竞赛任务中表现出专家级水平在 Codeforces 中获得了 2,029 Elo 评分超过了 96.3% 的人类参赛者。在工程相关任务中DeepSeek-R1的表现略好于DeepSeek-V3这可以帮助开发人员完成现实世界中的任务。知识 在MMLU、MMLU-Pro和GPQA Diamond等基准测试中DeepSeek- R1取得了优异成绩MMLU得分90.8%MMLU-Pro得分84.0%GPQA Diamond得分71.5%明显优于DeepSeek-V3。虽然在这些基准测试中DeepSeek-R1的表现略低于OpenAI-o1-1217但它超越了其他闭源模型显示了它在教育任务中的竞争优势。在事实基准SimpleQA上DeepSeek-R1的性能超过了DeepSeek-V3这表明它有能力处理基于事实的查询。OpenAI-o1在该基准测试中超越了4o也呈现出类似的趋势。其他DeepSeek-R1 还能胜任各种任务包括创意写作、 一般问题解答、编辑、总结等。在 AlpacaEval 2.0 中它的长度控制胜率达到 87.6%在 Are- naHard的胜率高达92.3%展示了其智能处理非考试导向查询的强大能力。此外DeepSeek-R1 还在需要理解长语境的任务中表现出色大大超过了其他竞争对手。此外DeepSeek-R1 还在需要理解长语境的任务中比DeepSeek-V3表现出色。
4. 方法
4.1 概述
以往的工作主要依赖大量的监督数据来提高模型性能。在本研究中我们证明了即使不使用有监督微调SFT作为冷启动也能通过大规模强化学习RL显著提高推理能力。此外加入少量冷启动数据还能进一步提高性能。在下面的章节中我们将介绍 1DeepSeek-R1-Zero它在没有任何 SFT 数据的情况下直接将 RL 应用于基础模型 2DeepSeek-R1它从使用数千个长思维链CoT示例进行微调的检查点开始应用 RL。 3将 DeepSeek-R1 的推理能力提炼为小型密集模型。
4.2. DeepSeek-R1-Zero 基础模型上的强化学习
强化学习在推理任务中表现出了显著的有效性这在我们之前的工作中已经得到了证明。然而这些工作在很大程度上依赖于监督数据而监督数据的收集需要大量时间。在本节中我们将探索 LLMs 在没有任何监督数据的情况下探索推理能力的潜力重点关注它们通过纯强化学习过程进行自我进化的情况。首先我们将简要介绍我们的强化学习算法然后介绍一些令人兴奋的结果希望能为社区提供有价值的见解。
4.2.1 强化学习算法
组相对策略优化 为了节省强化学习的训练成本我们采用了组相对策略优化GRPO它放弃了与政策模型规模相同的批评模型而是根据群体得分来估计基线。
4.2.2 奖励建模
奖励是训练信号的来源它决定着 RL 的优化方向。为了训练 DeepSeek-R1-Zero我们采用了主要包含两种类型奖励的基于规则的奖励系统。
精度奖励精度奖励模型评估响应是否正确。例如对于结果确定的数学问题模型需要以指定格式提供最终答案从而实现可靠的基于规则的正确性验证。同样对于 LeetCode 问题编译器可根据预定义的测试用例生成反馈。格式奖励除了精度奖励模型外我们还使用了一个格式奖励模型强制模型将其思考过程放在 “ think” 和 “” 标记之间。
在开发 DeepSeek-R1-Zero 时我们没有使用结果或过程神经奖励模型因为我们发现神经奖励模型在大规模强化学习过程中可能受到奖励黑客攻击的影响而且重新训练奖励模型需要额外的训练资源会使整个训练流程复杂化。
4.2.3 训练模板
为了训练 DeepSeek-R1-Zero我们首先设计了一个简单明了的模板引导基础模型遵守我们指定的指令。如表1所示该模板要求DeepSeek-R1-Zero首先生成推理过程然后生成最终答案。我们有意将约束限制在这种结构格式上避免任何特定于内容的偏见例如强制进行反思性推理或推广特定的问题解决策略以确保我们能够在强化学习RL过程中准确观察模型的自然进程。
4.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻
DeepSeek-R1-Zero 的性能 图2描述了在整个强化学习RL训练过程中DeepSeek- R1-Zero在AIME 2024基准测试中的性能轨迹。如图所示随着 RL 训练的推进DeepSeek-R1-Zero 的性能持续稳步提升。值得注意的是AIME 2024 的平均 pass1 分数有了显著提高从最初的 15.6% 跃升至令人印象深刻的 71.0%达到了与 OpenAI-o1-0912 不相上下的性能水平。这一显著提高凸显了我们的 RL 算法在随时间优化模型性能方面的功效。
表2提供了DeepSeek-R1-Zero与OpenAI o1-0912模型在多个推理相关基准测试上的对比分析。研究结果表明强化学习使DeepSeek-R1-Zero无需任何监督微调数据即可获得强大的推理能力。这一成就值得关注因为它凸显了该模型仅通过强化学习就能有效实现学习和泛化的能力。此外通过应用多数表决法可进一步提升DeepSeek-R1-Zero的表现。例如在AIME基准测试中使用多数表决法时其性能从71.0%显著提升至86.7%从而超越OpenAI-o1-0912的表现。DeepSeek-R1-Zero无论是否使用多数表决法都能取得如此具有竞争力的性能这充分彰显了其强大的基础能力以及在推理任务中的持续发展潜力。 DeepSeek-R1-Zero的自我进化过程 该模型的自我进化过程生动展示了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型启动强化学习我们能够清晰观测模型的发展轨迹避免有监督微调阶段的影响。这种方法为追踪模型进化提供了独特视角特别是在处理复杂推理任务的能力演变方面。
如图3所示DeepSeek-R1-Zero的思考时间在整个训练过程中持续优化。这种改进并非源于外部调整而是模型内在能力的自然发展。通过利用可扩展的测试时计算生成数百至数千个推理令牌该模型能够自主掌握解决日益复杂推理任务的能力。这种计算机制使模型得以在更深的层次上探索和完善其思维过程。 自我进化最显著的特征之一是随着测试时计算的增加模型会自发涌现出复杂的行为模式。例如反思行为——模型会重新审视并评估其先前的推理步骤——以及主动探索替代性解题路径的能力。这些行为并非预先编程设定而是模型与强化学习环境交互过程中自然产生的。这种自发性发展显著提升了DeepSeek-R1-Zero的推理能力使其能以更高效率和准确率应对更具挑战性的任务。
DeepSeek-R1-Zero的顿悟时刻 在模型训练过程中观察到一个特别引人深思的现象——“顿悟时刻”。如表3所示这个关键转折点出现在模型的中间版本阶段。在此阶段DeepSeek-R1-Zero通过重新评估初始解题思路学会了为问题分配更长的思考时间。这种行为不仅证明了模型推理能力的持续进化更是强化学习能够催生意外突破性进展的生动例证。这个顿悟时刻既属于模型自身也属于观察其行为的研究团队。它深刻揭示了强化学习的独特魅力无需明确指导模型如何解决问题只需提供恰当的激励机制模型就能自主发展出高级解题策略。这一发现有力印证了强化学习在解锁人工智能系统新维度上的潜力为未来开发更自主、更具适应性的模型开辟了新的可能性。
DeepSeek-R1-Zero的局限性 尽管DeepSeek-R1-Zero展现出强大的推理能力并自主发展出意料之外的卓越行为其仍存在若干问题亟待解决。例如该模型在可读性不足、语言混杂等方面面临挑战。为提升推理过程的可读性并实现开源社区共享我们进一步探索了DeepSeek-R1方法——一种结合人类友好型冷启动数据与强化学习的技术路径。
4.3 DeepSeek-R1基于冷启动的强化学习
受DeepSeek-R1-Zero优异表现的启发我们提出两个关键问题 1通过引入少量高质量数据作为冷启动能否进一步提升推理性能或加速收敛 2如何训练出既具备清晰连贯的思维链CoT生成能力又保持强大通用性的用户友好型模型 为解决这些问题我们设计了包含四个阶段的DeepSeek-R1训练流程
4.3.1 冷启动阶段
与DeepSeek-R1-Zero直接从基础模型启动强化学习不同为避免强化学习初期不稳定性的影响DeepSeek-R1通过构建并收集少量长思维链数据对模型进行微调作为强化学习的初始执行器。数据采集采用多种创新方法
使用包含长思维链的少样本提示作为范例直接引导模型生成包含反思与验证的详细解答将DeepSeek-R1-Zero的输出转化为可读格式通过人工标注员进行后期精修
本研究共收集数千条冷启动数据用于对DeepSeek-V3-Base进行微调作为强化学习的起点。相较于DeepSeek-R1-Zero冷启动数据的优势主要体现在
可读性改进DeepSeek-R1-Zero的核心局限在于其输出内容通常不具备可读性。生成的回答可能混杂多种语言或缺乏用于突出答案的Markdown格式。针对这一问题在构建DeepSeek-R1的冷启动数据时我们设计了可读性模板每段回答末尾添加总结性内容并过滤非用户友好型响应。具体格式定义为 |special_token|推理过程|special_token|总结其中推理过程对应查询的思维链CoT总结部分用于凝练推理结果。潜力通过融入人类先验知识精心设计冷启动数据模板我们观察到模型性能显著优于DeepSeek-R1-Zero。这验证了迭代训练对推理模型优化的有效性。
4.3.2 推理导向的强化学习
在对DeepSeek-V3-Base完成冷启动数据微调后我们采用与DeepSeek-R1-Zero相同的大规模强化学习流程。此阶段专注于提升模型在代码、数学、科学和逻辑推理等领域的专项能力这些任务通常具有明确的问题定义与标准解法。
在训练过程中我们发现思维链常出现语言混杂现象尤其是当强化学习提示涉及多语言时。为此我们引入语言一致性奖励机制其计算方式为思维链中目标语言词汇的占比。消融实验表明尽管这种对齐会导致模型性能轻微下降但它显著提升了人类可读性。最终我们将推理任务准确率与语言一致性奖励直接相加形成综合奖励函数并在微调后的模型上实施强化学习直至推理任务收敛。
4.3.3 拒绝采样与监督微调
当推理导向的强化学习收敛后我们利用生成的检查点收集监督微调SFT数据用于下一轮训练。与初期专注于推理的冷启动数据不同此阶段整合了其他领域数据以增强模型的写作、角色扮演等通用能力。具体操作流程如下
推理数据 我们筛选推理提示并通过拒绝采样从强化学习检查点生成推理轨迹。在前一阶段仅包含可通过规则奖励评估的数据而本阶段通过以下方式扩展数据集
引入部分使用生成式奖励模型的数据将标准答案与模型预测输入DeepSeek-V3进行评判过滤含语言混杂、冗长段落或代码块的思维链输出对每个提示采样多组响应仅保留正确答案
最终共收集约60万条推理相关训练样本为模型的多维度能力提升奠定数据基础。
非推理数据 对于非推理类任务如文本生成、事实问答、自我认知和翻译我们采用DeepSeek-V3技术流程并复用其部分监督微调数据集。针对特定非推理任务我们会调用DeepSeek-V3生成潜在的思维链CoT再进行回答。但对于简单查询如问候语hello则直接响应而不提供CoT。最终我们收集了约20万个与推理无关的训练样本并基于约80万样本的精选数据集对DeepSeek-V3-Base模型进行了两轮微调。
4.3.4 全场景强化学习
为更好地实现人类价值对齐我们实施第二阶段强化学习旨在提升模型的有益性和无害性同时增强其推理能力。具体通过组合奖励信号与多样化提示分布进行训练对于推理数据沿用DeepSeek-R1-Zero的规则奖励方法指导数学、编程和逻辑推理对于通用数据采用奖励模型捕捉复杂场景中的人类偏好。基于DeepSeek-V3框架我们优化了偏好对和训练提示的分布策略有益性评估聚焦最终结论的实用性和相关性无害性评估则覆盖完整响应含推理过程和结论以识别潜在风险。通过整合奖励机制与多样化数据成功训练出兼具推理优势和价值对齐的模型。
4.4 知识蒸馏赋能小模型推理能力
为赋予小模型如Qwen/Llama系列DeepSeek-R1级别的推理能力我们直接使用4.3.3所述80万样本进行微调。实验表明这种简洁的蒸馏方法显著提升了小模型的推理性能。基础模型选用Qwen2.5-Math-1.5B至32B系列及Llama-3.1-8B/Llama-3.3-70B-Instruct优选推理更强的Llama-3.3。尽管引入强化学习可进一步提升性能但蒸馏模型仅采用监督微调将强化学习的探索空间留给学界。
5. 实验
5.1 DeepSeek-R1评估结果
在教育知识类基准MMLU系列、GPQA Diamond中DeepSeek-R1相比V3版本展现显著优势这主要归功于大规模强化学习RL带来的STEM问题准确率提升。在长文本QA任务FRAMES上的优异表现验证了其强大的文档分析能力彰显推理模型在智能搜索领域的潜力。
事实类基准SimpleQA测试中DeepSeek-R1超越V3版本与OpenAI-o1优于GPT-4o的趋势一致。但在中文版C-SimpleQA上由于安全强化学习导致的应答回避倾向性能略低于V3关闭安全RL后准确率可超70%。
在格式指令遵循测试IF-Eval中DeepSeek-R1的突破性表现得益于监督微调SFT和RL阶段注入的指令遵循数据。AlpacaEval2.0和ArenaHard测试显示该模型在写作和开放域问答方面具有显著优势平均输出长度分别为689 tokens和2,218字符证明大规模RL不仅增强推理能力还提升跨领域泛化性能。
数学任务表现与OpenAI-o1-1217持平显著领先其他模型。编程算法类基准LiveCodeBench、Codeforces同样由推理优化模型主导。在工程类编程任务中OpenAI-o1-1217在Aider上占优但双方在SWE Verified表现相当。我们预计下个版本将增加相关RL训练数据以提升工程能力。
5.2 蒸馏模型评估结果
如表5所示通过直接蒸馏DeepSeek-R1的输出高效的小模型DeepSeek-R1-7B即DeepSeek-R1-Distill-Qwen-7B下文采用类似简称即可全面超越GPT-4o-0513等非推理优化模型。DeepSeek-R1-14B在全部指标上超越QwQ-32B-Preview而DeepSeek-R1-32B和DeepSeek-R1-70B在多数基准测试中显著优于o1-mini。这些结果印证了知识蒸馏技术的强大潜力。值得注意的是若对蒸馏模型施加强化学习RL性能可获进一步跃升。但为突出蒸馏本身的效果本文仅展示基础SFT蒸馏模型的实验结果。
6. 讨论
6.1 知识蒸馏 vs 强化学习
实验表明通过蒸馏DeepSeek-R1可使小模型取得卓越性能。但遗留一个关键问题若不采用蒸馏仅依赖论文所述的大规模RL训练能否使模型达到可比性能 为解答此问题我们对Qwen-32B-Base进行数学、编程与STEM领域的大规模RL训练超10,000步得到DeepSeek-R1-Zero-Qwen-32B。表6显示经大规模RL训练的32B基础模型性能与QwQ-32B-Preview持平而通过蒸馏DeepSeek-R1获得的DeepSeek-R1-Distill-Qwen-32B则在所有基准上显著优于前者。由此可得以下结论
知识蒸馏优势通过蒸馏强模型赋能小模型效果显著而依赖纯RL训练的小模型需消耗海量算力且难以匹敌蒸馏效果
技术路径选择尽管蒸馏策略经济高效但突破智能边界仍需更强基础模型与更大规模RL支持。
6.2 失败实验分析
在DeepSeek-R1研发初期我们经历了若干失败尝试。本节分享关键教训注这并不否定相关方法的潜力。
过程奖励模型PRM PRM本是指引模型优化推理路径的合理方法但实际应用中存在三重局限
步骤定义模糊通用推理任务中难以明确定义细粒度步骤中间状态判定难自动标注效果欠佳人工标注难以规模化奖励篡改风险引入模型驱动的PRM易引发奖励作弊且需额外资源迭代奖励模型增加训练复杂度。
综上PRM虽能辅助模型对Top-N响应重排序或引导搜索但在大规模RL场景中性价比有限。
蒙特卡洛树搜索MCTS 受AlphaGo与AlphaZero启发我们尝试将MCTS用于增强测试时计算扩展性。该方法将答案分解为子模块引导模型系统性探索解空间。具体流程 推理阶段提示模型生成与搜索步骤关联的多级标记 训练阶段基于预训练价值模型引导MCTS搜索答案用所得QA对迭代优化策略模型与价值模型。
然而规模化训练中暴露两大挑战 搜索空间爆炸相比围棋的有限状态文本生成的搜索空间呈指数级膨胀设置节点扩展上限易陷入局部最优 价值模型瓶颈指导搜索的价值模型需细粒度训练但其性能提升困难阻碍模型迭代优化。
尽管AlphaGo通过价值模型迭代提升性能但文本生成的复杂性使该机制难以复现。 结论MCTS虽能结合预训练价值模型提升推理表现但通过自搜索持续增强模型仍面临重大挑战。
7. 结论、局限性与未来工作
本研究系统阐述了通过强化学习RL提升模型推理能力的完整技术路径。DeepSeek-R1-Zero作为纯RL驱动方案无需冷启动数据支撑在多任务场景中展现出强劲性能而融合冷启动数据与迭代式RL微调的DeepSeek-R1则实现更高突破在多项任务上达到与OpenAI-o1-1217相当的基准水平。
我们进一步探索了推理能力向小型密集模型的迁移以DeepSeek-R1作为教师模型生成80万训练样本对多个小模型进行微调。实验成果显著 DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中全面超越GPT-4o与Claude-3.5-SonnetAIME得分28.9%MATH得分83.9% 其他蒸馏模型相较同参数规模的指令微调模型亦展现出显著优势。
未来计划围绕以下方向深化研究 通用能力 当前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演及JSON输出等场景性能不及DeepSeek-V3。下一步将探索引入长思维链CoT增强此类任务表现。
多语言混杂问题 现版本主要优化中英文场景处理其他语言查询时可能出现推理与响应语言不匹配现象如使用英语回应非中英文问题。后续版本将针对性改进。
提示工程敏感性 评估发现模型对提示词设计敏感少样本提示易导致性能下降。建议用户直接采用零样本设置描述问题并明确输出格式以获得最优结果。
软件工程任务优化 因评估耗时影响RL流程效率大规模RL尚未充分应用于软件工程领域导致当前版本在相关基准上提升有限。计划通过以下方案改进 对软件工程数据实施拒绝抽样reject sampling在RL过程中引入异步评估机制提升效率。
相关链接 DeepSeek-R1论文地址 DeepSeek 网页版R1已可使用 HuggingFace 链接 DeepSeek官网