网站主要内容,苏宁易购网站建设的目标,广西网站建,wordpress怎么制作首页文章目录 1 DeepSeek的CoT思维链的优势1.2 open-r1的CoT训练数据1.3 ReAct任务与CoT任务适用场景 2 AI推理方向#xff1a;deepseek与deepmind的两条路线的差异2.1 PRM与ORM的两大学派分支的差异2.2 DeepSeek-R1的两阶段训练概述 1 DeepSeek的CoT思维链的优势
DeepSeek跟之前… 文章目录 1 DeepSeek的CoT思维链的优势1.2 open-r1的CoT训练数据1.3 ReAct任务与CoT任务适用场景 2 AI推理方向deepseek与deepmind的两条路线的差异2.1 PRM与ORM的两大学派分支的差异2.2 DeepSeek-R1的两阶段训练概述 1 DeepSeek的CoT思维链的优势
DeepSeek跟之前市面上很多其他的大模型比如豆包、通义、文心存在一定的差异 如图来自清华大学新媒体研究中心的报告《DeepSeek从入门到精通》举了两种的差异
常规的是概率预测这里其实有点歧义后者也是…我感觉可以说是问答单机版后者是链式推理这里就要强调思维链的过程。 比如一个思维过程就是
问题A有3本书B比A多2本C比B少1本C有几本
思考过程
- A有3本书 → B有325本 → C有5-14本 → 答案是4。问题用户的新问题
思考过程CoT 的优点
CoT 通过将复杂问题分解为多步骤的子问题相当显著的增强了大模型的推理能力CoT 使得大模型通过向我们展示“做题过程”使得我们可以更好的判断大模型在求解当前问题上究竟是如何工作的让大模型一步一步输出步骤我们通过这些步骤的呈现可以对大模型问题求解的过程施加更大的影响
1.2 open-r1的CoT训练数据
开源22万条DeepSeek R1的高质量数据你也能复现DeepSeek了
笔者一直好奇该准备怎么样的数据集才值得做训练可以看一下这里面的开源数据集:
挑一个例子出来看看
问题
## Task B-1.3. A ship traveling along a river has covered $24 \mathrm{~km}$ upstream and $28 \mathrm{~km}$ downstream. For this journey, it took half an hour less than for traveling $30 \mathrm{~km}$ upstream and $21 \mathrm{~km}$ downstream, or half an hour more than for traveling $15 \mathrm{~km}$ upstream and $42 \mathrm{~km}$ downstream, assuming that both the ship and the river move uniformly. Determine the speed of the ship in still water and the speed of the river.解题过程
## Solution. Let $t$ be the time required for the boat to travel $24 \mathrm{~km}$ upstream and $28 \mathrm{~km}$ downstream, $v_{R}$ the speed of the river, and $v_{B}$ the speed of the boat. When the boat is traveling upstream, its speed is $v_{B}-v_{R}$, and when it is traveling downstream, its speed is $v_{B}v_{R}$. Since $t\frac{s}{v}$, from the given data, we obtain the following system of equations: $\left\{\begin{array}{l}t\frac{24}{v_{B}-v_{R}}\frac{28}{v_{B}v_{R}} \\ t0.5\frac{30}{v_{B}-v_{R}}\frac{21}{v_{B}v_{R}} \\ t-0.5\frac{15}{v_{B}-v_{R}}\frac{42}{v_{B}v_{R}}\end{array}\right.$ By introducing new variables $x\frac{3}{v_{B}-v_{R}}, y\frac{7}{v_{B}v_{R}}$, the system transforms into: $\left\{\begin{array}{l}t8 x4 y \\ t0.510 x3 y \\ t-0.55 x6 y\end{array}\right.$ Substituting $t$ from the first equation into the remaining two, we get: $\left\{\begin{array}{l}8 x4 y0.510 x3 y \\ 8 x4 y-0.55 x6 y\end{array}\right.$ $\left\{\begin{array}{l}2 x-y0.5 \\ 3 x-2 y0.5\end{array}\right.$ The solution to the last system is (0.5, 0.5). Then we have: $\frac{3}{v_{B}-v_{R}}0.5$, hence, $v_{B}-v_{R}6 \mathrm{~and}$ $\frac{7}{v_{B}v_{R}}0.5$, hence, $v_{B}v_{R}14$. The speed of the river is $v_{R}4 \mathrm{~km} / \mathrm{h}$, and the speed of the boat is $v_{B}10 \mathrm{~km} / \mathrm{h}$. ## Note: By substituting $x\frac{1}{v_{B}-v_{R}}, y\frac{1}{v_{B}v_{R}} \mathrm{~and}$ following the same procedure, the initial system transforms into the system $\left\{\begin{array}{l}6 x-7 y0.5 \\ 9 x-14 y0.5\end{array}\right.$ The solution to this system is $\left(\frac{1}{6}, \frac{1}{14}\right)$.答案
v_{R}4\mathrm{~}/\mathrm{},v_{B}10\mathrm{~}/\mathrm{}解题过程再贴一下
##Solution. Let t t t be the time required for the boat to travel 24 k m 24 \mathrm{~km} 24 km upstream and 28 k m 28 \mathrm{~km} 28 km downstream, v R v_{R} vR the speed of the river, and v B v_{B} vB the speed of the boat. When the boat is traveling upstream, its speed is v B − v R v_{B}-v_{R} vB−vR, and when it is traveling downstream, its speed is v B v R v_{B}v_{R} vBvR. Since t s v t\frac{s}{v} tvs, from the given data, we obtain the following system of equations: { t 24 v B − v R 28 v B v R t 0.5 30 v B − v R 21 v B v R t − 0.5 15 v B − v R 42 v B v R \left\{\begin{array}{l}t\frac{24}{v_{B}-v_{R}}\frac{28}{v_{B}v_{R}} \\ t0.5\frac{30}{v_{B}-v_{R}}\frac{21}{v_{B}v_{R}} \\ t-0.5\frac{15}{v_{B}-v_{R}}\frac{42}{v_{B}v_{R}}\end{array}\right. ⎩ ⎨ ⎧tvB−vR24vBvR28t0.5vB−vR30vBvR21t−0.5vB−vR15vBvR42 By introducing new variables x 3 v B − v R , y 7 v B v R x\frac{3}{v_{B}-v_{R}}, y\frac{7}{v_{B}v_{R}} xvB−vR3,yvBvR7, the system transforms into: { t 8 x 4 y t 0.5 10 x 3 y t − 0.5 5 x 6 y \left\{\begin{array}{l}t8 x4 y \\ t0.510 x3 y \\ t-0.55 x6 y\end{array}\right. ⎩ ⎨ ⎧t8x4yt0.510x3yt−0.55x6y Substituting t t t from the first equation into the remaining two, we get: { 8 x 4 y 0.5 10 x 3 y 8 x 4 y − 0.5 5 x 6 y \left\{\begin{array}{l}8 x4 y0.510 x3 y \\ 8 x4 y-0.55 x6 y\end{array}\right. {8x4y0.510x3y8x4y−0.55x6y { 2 x − y 0.5 3 x − 2 y 0.5 \left\{\begin{array}{l}2 x-y0.5 \\ 3 x-2 y0.5\end{array}\right. {2x−y0.53x−2y0.5
The solution to the last system is (0.5, 0.5). Then we have: 3 v B − v R 0.5 \frac{3}{v_{B}-v_{R}}0.5 vB−vR30.5, hence, v B − v R 6 a n d v_{B}-v_{R}6 \mathrm{~and} vB−vR6 and 7 v B v R 0.5 \frac{7}{v_{B}v_{R}}0.5 vBvR70.5, hence, v B v R 14 v_{B}v_{R}14 vBvR14. The speed of the river is v R 4 k m / h v_{R}4 \mathrm{~km} / \mathrm{h} vR4 km/h, and the speed of the boat is v B 10 k m / h v_{B}10 \mathrm{~km} / \mathrm{h} vB10 km/h. ##Note: By substituting x 1 v B − v R , y 1 v B v R a n d x\frac{1}{v_{B}-v_{R}}, y\frac{1}{v_{B}v_{R}} \mathrm{~and} xvB−vR1,yvBvR1 and following the same procedure, the initial system transforms into the system { 6 x − 7 y 0.5 9 x − 14 y 0.5 \left\{\begin{array}{l}6 x-7 y0.5 \\ 9 x-14 y0.5\end{array}\right. {6x−7y0.59x−14y0.5 The solution to this system is ( 1 6 , 1 14 ) \left(\frac{1}{6}, \frac{1}{14}\right) (61,141).
1.3 ReAct任务与CoT任务适用场景
两个任务有相似有不同应用场景区分 CoTChain-of-Thought任务
静态推理链模型在单次生成中输出完整的中间步骤无需与外部系统交互。外部依赖:无需调用外部工具或数据源完全依赖模型内部知识生成推理链。模型调用方式单次调用生成完整推理链。线性结构仅包含“推理”环节例如
问题小明有5个苹果吃掉2个后买了3个现在有多少
推理5-23 → 336 → 答案是6。 ReActReasoning Action任务
动态交互循环模型交替执行“推理Reasoning”和“行动Action”并与外部环境如API、数据库、工具交互。外部依赖依赖外部工具如计算器、搜索引擎、API执行行动并基于返回结果调整后续推理模型调用方式可能需要多次调用模型如每次行动后生成新的推理步骤或通过单次调用生成包含交互指令的文本由外部系统解析执行循环结构包含“思考→行动→观察”的迭代过程例如
问题上海今日天气如何适合户外跑步吗
思考需要先获取上海当前天气数据。
行动调用天气API查询上海实时温度、湿度、降水概率。
观察上海今日晴温度25℃湿度60%降水概率0%。
推理天气条件适宜跑步 → 答案是适合。 选择建议与适用范围
维度CoTReAct是否需要工具否是依赖API、数据库等问题开放性封闭式答案确定开放式需动态数据延迟要求低单次生成较高需多次交互典型任务数学题、逻辑推理实时咨询、工具调用、复杂决策 2 AI推理方向deepseek与deepmind的两条路线的差异
2.1 PRM与ORM的两大学派分支的差异
PRM过程奖励模型与ORM结果奖励模型的核心差异在于奖励信号的密度与反馈时机这导致了两者在训练效率、适用场景和实现成本上的显著区别。以下是具体对比
维度PRMDeepMind路线ORMDeepSeek路线奖励粒度对推理过程的每一步骤进行细粒度打分如数学题的每一步计算、代码生成的每一行逻辑。仅对最终结果整体打分如答案是否正确、代码是否通过测试。信号密度密集反馈每一步均有奖励信号帮助模型及时修正错误。稀疏反馈仅在最终结果处提供信号模型需自行回溯错误来源。适用场景复杂推理任务数学解题、代码生成、逻辑规划需多步推理且中间步骤对结果影响大。结果明确且可快速验证的任务文本分类、简单生成任务或中间步骤难以量化评估的场景。数据成本需标注中间步骤的正确性人工或LLM-as-judge标注成本高且易引入噪音。仅需标注最终结果对错数据获取成本低。训练效率初期收敛慢需协调多步奖励但长期上限高适合需高精度推理的场景。初期收敛快但易陷入局部最优如“蒙对答案”却过程错误适合简单任务或资源有限的情况。技术挑战需设计可靠的中间步骤评估机制如MATH-SHEPHERD的自动标注易受后续推理质量干扰错误传播。依赖最终结果的明确性难以处理模糊或多解问题如开放式创作。典型应用OpenAI O1的“长思考”模式、数学解题每一步验算、代码生成逐行逻辑检查。文本偏好对齐如安全过滤、拒绝采样选择最高分结果、简单分类任务。
PRM优势
错误定位能精准识别推理链中的错误步骤避免“结果正确但过程错误”的隐患如数学题蒙对答案。泛化性通过密集反馈提升模型对复杂任务的分解能力增强多步推理的鲁棒性。上限提升在Let’s Verify Step by Step等研究中PRM相比ORM可将准确率提升10-20%。
PRM劣势
标注成本高人工标注中间步骤昂贵自动标注如MC补全依赖高质量生成模型易引入噪音。训练复杂度需协调多步奖励信号易出现“局部最优陷阱”如模型为追求单步高分而偏离整体目标。推理延迟结合搜索算法如MCTS时计算开销大幅增加。
ORM优势
低成本仅需结果标注适合数据匮乏场景如小规模人工标注或用户隐式反馈。易扩展可直接复用传统RL的稀疏奖励框架如AlphaGo的胜负奖励。稳定性对中间过程不敏感适合结果驱动型任务如文本生成的整体流畅度评估。
ORM劣势
过拟合风险模型可能学会“作弊”以优化最终指标如代码生成通过测试但逻辑混乱。反馈延迟错误需到最终步骤才能被惩罚导致训练效率低下尤其对长推理任务。可解释性差无法诊断错误来源难以迭代优化模型能力。
2.2 DeepSeek-R1的两阶段训练概述
DeepSeek采用多阶段强化学习策略通过奖励机制激励模型生成更严谨的推理路径
第一阶段RL训练侧重逻辑准确性Rule-based reward模型会因跳过关键步骤而受到惩罚第二阶段RL引入人类偏好反馈引入一些SFT数据做监督学习促使模型主动检查潜在错误并修正
Rule-based reward指基于预设规则自动计算的奖励无需人工标注常见类型包括
答案正确性数学题数值匹配、代码执行结果正确如LeetCode单元测试通过。格式规范性输出是否遵循指定模板如与分段、Markdown语法。语言一致性是否混用中英文、逻辑连接词使用合理性参考R1-Zero阶段的语言混杂惩罚。过程完整性推理步骤长度、是否包含验证环节如“Double-check: 重新计算后答案应为0.5”。
DeepSeek的step1和step2并非简单的时间分割而是能力解耦与渐进增强的过程
阶段Step1推理优先Step2综合优化核心目标专注提升推理能力通过强化学习最大化rule-based reward如数学正确率。在保持推理能力基础上优化可读性、格式、多任务泛化融合多种reward信号。数据使用完全依赖程序合成或规则生成的数据如自动构造数学题无需人工标注。引入数千条人工筛选的冷启动数据含长思维链结合拒绝采样产生的优质样本。奖励组合单一rule-based reward如答案正确性步骤长度。混合rule-based reward格式检查 模型打分语言流畅度 人工偏好对齐。关键技术纯强化学习GRPO允许输出格式混乱以探索更优推理路径。监督微调SFT修正格式拒绝采样筛选高质量答案局部再强化学习微调。
Step1训练后的模型如R1-Zero作为Step2的初始化参数通过以下方式实现能力迁移
参数继承保留已习得的推理能力神经网络权重仅新增可读性相关的embedding层微调。课程学习在Step2初期使用高温度采样鼓励探索逐步降低温度以稳定格式。奖励重塑在原有正确性奖励基础上逐步增加格式奖励的权重参考技术报告中语言一致性奖励从0.1到0.3的渐变。