后训练:OPD 与 GRM
从"知识渊博"到"真正好用"——DeepSeek V4 的后训练如何让大模型能力不互相干扰 | 预计阅读时间:25 分钟
一、引言
预训练出来的 Base 模型就像一个读遍了天下典籍但从未开口说过话的人。它"知道"很多知识——通晓数学定理、熟悉编程语法、了解世界历史——但你要它回答一个问题,它的输出可能是一段不知所云的文本碎片。
原因很简单:预训练的目标是"下一个 token 预测",不是"回答问题"。模型在预训练阶段学习的只是 token 之间的统计依赖关系,而不是与人类交互的行为策略。
后训练(Post-Training)就是把一个"知识渊博但不会用"的 Base 模型,变成"真正好用"的产品模型的过程。
DeepSeek V4 的后训练方法论相比前代发生了根本性变化。V3.2 使用的是 mixed RL(混合强化学习)——把所有领域的数据和奖励信号混在一起训练一个统一模型。听起来直观,但实际操作中,数学推理和工具调用需要的"行为策略"完全不同,同一个奖励配方很难同时服务所有目标。
V4 做了一个大胆的替换:彻底放弃 mixed RL,改用 OPD(On-Policy Distillation,在线策略蒸馏)作为多专家融合的主线。
这不仅是方法论的切换,更代表了一种思维范式的转变——与其让所有能力在同一个训练过程中互相干扰,不如先把每种能力练到极致,再通过蒸馏的方式无损整合。
与此同时,V4 还在奖励模型上做了突破:用生成式奖励模型(GRM)替代了传统的标量奖励模型。对于难以用规则验证的主观任务(创意写作、代码可读性评估等),GRM 能给出带解释的评分而非一个冷冰冰的分数。
本文将按"整体流程 → OPD 技术细节 → 全词表蒸馏 → GRM → Interleaved Thinking → 实测数据"这条链路,逐层拆解 V4 的后训练体系。
二、后训练流程概述
2.1 从 Base 到产品:两条路径的对比
在深入了解 OPD 之前,先看清 V4 后训练的整体架构:
V3.2 后训练流程(传统路线):
Base Model → SFT(全领域混合)→ Mixed RL(混合 GRPO)→ 最终模型
V4 后训练流程(OPD 路线):
Base Model → 按领域分别训练专家(SFT + GRPO × N 个专家)
→ Multi-Teacher OPD 蒸馏整合 → 最终模型两套流程的差异在逻辑上很清晰:
| 维度 | V3.2 (Mixed RL) | V4 (OPD) |
|---|---|---|
| 训练策略 | 统一训练一个模型 | 先分别训练专家,再蒸馏合并 |
| 能力冲突 | 数学和 Agent 的奖励信号互相干扰 | 专家各自训练,无干扰 |
| 扩展性 | 新增能力需要重新混合训练 | 新增能力只需新增专家 |
| 训练成本 | 一次训练,成本较低 | 训练 N 个专家 + 一次蒸馏,成本更高 |
| 上限 | 混合训练拉低了单领域上限 | 每个专家达到领域极值 |
V4 的选择是:用更高的训练成本换取更高的能力上限和更好的可扩展性。
2.2 OPD 的整体管线融合了 DeepSeek 五年积累
OPD 的完整形态在 V4 中并非一蹴而就。从 V3(2024 年底)到 V3.1(2025 年中)再到 V3.2(2025 年底),DeepSeek 的后训练经历了从"粗放混合"到"精细分工"的逐步演进:
| 版本 | 后训练策略 | 专家数量 | 整合方式 | 核心特点 |
|---|---|---|---|---|
| V3 | SFT + RLHF | 0 | 统一训练 | 简单的两阶段管线 |
| V3.1 | SFT + GRPO (领域分离) | 3 个 | 统一训练 | 首次引入 GRPO,分离领域数据 |
| V3.2 | 多专家 SFT + Mixed RL | 5 个 | 混合 GRPO | 专家蒸馏 + 统一强化学习 |
| V4 | 多专家 SFT + OPD | 10+ 个 | Multi-Teacher OPD | OPD 完全替代 Mixed RL |
V3 到 V3.1 是"分离"的开始,V3.1 到 V3.2 是"专家化的尝试",V3.2 到 V4 是"整合范式的彻底转换"。 每一步的进步都在解决前一步遗留的能力冲突问题。
2.3 整体管线
V4 的后训练管线分为两个主要阶段:
第一阶段:Specialist Training(专家训练)
针对数学、代码、Agent、指令跟随等关键领域,在 Base Model 的基础上分别训练领域专家模型。每个专家都走完整的 SFT + RL 流程:
- 领域 SFT:用该领域的高质量数据做监督微调
- 领域 RL:用 GRPO(Group Relative Policy Optimization)做强化学习,奖励信号来自规则验证(如代码编译是否通过)和 GRM(如写作质量评估)
每个专家在自己领域内练到极致的"专才"。
Specialist Training 的详细流程(以 Agent Expert 为例):
Agent Expert 的训练流程是 V4 后训练中最复杂的部分。它使用了五层稠密奖励信号来指导强化学习:
| 奖励层级 | 信号来源 | 评估内容 | 权重 |
|---|---|---|---|
| 第一层 | 规则验证 | 工具调用格式是否正确(如 JSON 格式是否符合预期) | 30% |
| 第二层 | 执行结果 | 代码是否编译通过、测试是否通过 | 25% |
| 第三层 | 逐步奖励 | 中间步骤是否合理(如拆解任务的方式、工具选择策略) | 20% |
| 第四层 | GRM 评估 | 整体方案质量、代码可读性 | 15% |
| 第五层 | 用户信号 | 最终输出是否符合用户原始需求 | 10% |
这五层奖励从"最机械"到"最主观"逐步递进。低层的规则验证提供高频、低噪声的信号,高层的 GRM 评估覆盖无法用规则衡量的维度。这种多层次设计避免了单一 RL 信号导致的"刷分"行为。
每个专家模型的训练周期和数据规模也不同:
| 专家 | 训练 token 数 | SFT 数据量 | RL 训练步数 | GRM 参与程度 |
|---|---|---|---|---|
| Math Expert | ~500B | 大量(数学推理题+详细推导过程) | 10K+ | 低(主要靠规则验证) |
| Coding Expert | ~800B | 大量(代码+测试+文档) | 15K+ | 中(代码质量评估) |
| Agent Expert | ~1.2T | 极大(工具调用轨迹+多轮对话) | 20K+ | 高(方案质量评估) |
| Instruction Following | ~300B | 中等(指令+期望输出) | 8K+ | 高(遵循度评估) |
| Creative Writing | ~400B | 中等(文章+评估) | 12K+ | 极高(写作质量评估) |
Agent Expert 的训练 token 数最多、RL 步数最长,反映出 Agent 任务的复杂程度——它需要处理多轮工具调用、不确定的中间结果、以及频繁的状态变更。
每个专家训练完成后,它的 checkpoint 会被保存下来,作为 OPD 阶段的教师模型。至此,第一阶段完成。
2.4 第二阶段:OPD 蒸馏的详细流程
OPD 蒸馏并不是一步到位的。V4 的 OPD 实际包含以下子步骤:
Step 1: Cold Start — Off-Policy 预热
用教师(专家)生成的 rollout 数据对学生做 SFT
目的:把学生拉到与教师分布相近的位置
Step 2: On-Policy Distillation — 主蒸馏阶段
学生自己生成回答(rollout)
多位教师在学生的输出上计算 Reverse KL 散度
加权平均多个教师的信号,更新学生参数
Step 3: Annealing — 退火细调阶段
逐步降低学习率
从"多教师加权"过渡到"等权平均"
做最终的精细调整Cold Start 是技术报告中特别强调的关键步骤。它的价值在学界也得到了验证:清华的 OPD 研究论文指出,当学生和教师的 thinking pattern 差异过大时,直接上 OPD 可能完全失败。而 Off-Policy Cold Start(先用教师生成的轨迹做 SFT)可以显著提高初始的 token 分布重叠率,使 OPD 从"可能失效"变成"稳定有效"。
Cold Start + OPD 的联合效果,可以类比为一个学习过程:学生先通过"背标准答案"来理解教师的基本输出风格(SFT 预热),再通过"自己答题 + 教师逐题批改"来内化知识(OPD 主训练)。
第二阶段:Multi-Teacher OPD(多教师在线策略蒸馏)
把第一阶段训练出来的十几个专家模型作为"教师",将它们的知识蒸馏进一个统一的"学生"模型。这是 V4 后训练的核心创新——用蒸馏替代了混合 RL 来整合多领域能力。
两个阶段合在一起,构成了 V4 完整的后训练管线。
2.3 与 V3.2 的定量对比
| 指标 | V3.2 | V4 | 变化 |
|---|---|---|---|
| 专家模型数量 | 5 个 | 10+ 个 | 翻倍 |
| 专家训练数据量 | 基准 | 2-3 倍 | 大幅增加 |
| 整合方式 | Mixed RL | Multi-Teacher OPD | 方法论级别替换 |
| 奖励模型 | 标量 RM + 规则验证 | GRM + 规则验证 | 生成式替代标量 |
| Agent 训练 | 有限 | 专门的 Agent Expert + DSec 沙箱 | 系统化 |
三、OPD(On-Policy Distillation)
3.1 OPD 是什么
OPD,全称 On-Policy Distillation(在线策略蒸馏),是一种让"学生"模型在自己的生成轨迹上学习"教师"模型的蒸馏方法。
理解 OPD,最好的起点是理解它要解决什么问题——传统蒸馏的暴露偏差(Exposure Bias)。
传统蒸馏(也叫 Off-Policy Distillation)的工作方式是:教师模型事先生成一批高质量的"标准答案"数据,学生模型在这些静态数据上做监督学习。这就像学生照着老师的标准录像学习——录像很规范,但学生自己考试时会犯录像里没有出现过的错误。学生训练时的"数据分布"和推理时"自己生成的分布"不一致,这就是暴露偏差。
OPD 的解决方式很直观:让学生先自己写答案(rollout),老师再在学生的答案上逐 token 纠正。
Off-Policy Distillation(传统方式):
Teacher 生成固定数据集 → Student 在固定数据上训练 → Student 推理时自己生成
↑ 数据分布不一致 → 暴露偏差
On-Policy Distillation(OPD):
Student 自己生成输出 → Teacher 在 Student 的输出上做 per-token 纠正
↑ ↓
└────────── 分布一致,持续迭代 ──────────┘3.2 Forward KL vs Reverse KL:两种学习方式的根本差异
理解 OPD 为什么有效,需要先搞懂 Forward KL 和 Reverse KL 的区别。这不是一个抽象的技术概念——它直接决定了"学生最终学到什么"。
Forward KL(前向 KL 散度) 的优化目标是让学生分布 p 尽可能"覆盖"教师分布 q 的所有高概率区域:
Forward KL: KL(q || p) = Σ q(x) · log(q(x) / p(x))当 q(x) 很大(教师认为某个 token 概率高)但 p(x) 很小(学生认为概率低)时,损失会很大。这迫使学生把概率分配给所有教师认为重要的区域。
Reverse KL(反向 KL 散度) 的优化目标则相反——让学生分布 p 尽可能"避开"教师分布 q 认为不重要的区域:
Reverse KL: KL(p || q) = Σ p(x) · log(p(x) / q(x))当 p(x) 很大(学生实际生成某个 token)但 q(x) 很小(教师认为不该选这个 token)时,损失会很大。这迫使学生在自己实际生成的内容上向教师对齐。
两种 KL 散度的行为差异可以用一张对比表全面理解:
| 维度 | Forward KL (KL(q||p)) | Reverse KL (KL(p||q)) | |------|----------------------|----------------------| | 优化方向 | p 覆盖 q 的所有模式 | p 只对齐自己访问到的模式 | | 采样方式 | 从教师分布采样 | 从学生分布采样 | | 典型后果 | Mode-Covering(覆盖所有模式) | Mode-Seeking(寻找主导模式) | | 对无关特征 | 被迫学习 | 可忽略 | | 灾难性遗忘 | 高风险 | 低风险 | | 训练数据来源 | 静态(教师预生成) | 动态(学生在线生成) | | 计算成本 | 低(一次生成,多次训练) | 高(每步都需要重新生成) |
用更直观的比喻来理解:
Forward KL 像学生照着老师的标准答案抄写。抄写的过程中,学生不仅要学会解这道题(目标知识),还要学会老师写字时的笔迹、语气词、排版习惯——老师和答案绑在一起,没法分开。
Reverse KL 像学生自己先做一遍题目,老师只在学生的作答上批改。老师会说"这一步错了,应该这样想"但不会说"你的字写得和我不一样,要改"。学生只学到解题方法,不会模仿老师的无关特征。
这个区别在"多专家蒸馏"的语境下变得极其关键。当 10+ 个领域专家作为教师时,每个专家都有自己独特的"无关特征"(输出风格、表达习惯、思考模板)。Forward KL 会让学生试图覆盖所有这些不同特征,结果就是"样样都沾边、样样不精"。
Reverse KL 让学生可以"选择性吸收"——只吸收专家在它自己的生成路径上给出的纠正信号,专家的无关特征被天然过滤掉了。
3.3 为什么 OPD 能替代 Mixed RL
这是 V4 后训练最核心的决策。
从数学上看,OPD 和 RL 的优化目标其实等价——两者都是 reverse KL 散度的最小化过程。
| 方法 | 目标函数类型 | 信号来源 | 采样策略 |
|---|---|---|---|
| Pre-train / SFT | Forward KL | 静态数据 | Off-Policy |
| 传统蒸馏 | Forward KL | 教师生成数据 | Off-Policy |
| RL(GRPO/RLHF) | Reverse KL | 环境/人类反馈 | On-Policy |
| OPD | Reverse KL | 教师分布 | On-Policy |
Forward KL 的特点是"覆盖所有模式"——学生要覆盖教师分布的所有概率区域。这导致一个副作用:学生会学到教师的所有"坏习惯"。以数学+代码的混合训练为例,如果教师在两个领域的输出风格不同,Forward KL 会让学生试图同时覆盖两种风格,结果两边的能力都被稀释。
Reverse KL 则不同。它只关注学生实际访问到的状态——学生先在某个状态下生成输出,教师只在学生输出来到的那个状态上做纠正。学生不会主动探索教师的所有输出模式,也就不会被教师的"无关特征"带偏。
这就是 OPD 适合做多专家融合的根本原因。
V3.2 的 Mixed RL 面临的核心问题是:不同领域(数学、代码、Agent)的奖励信号差异太大,同一个 reward recipe 很难同时优化所有目标。当数学任务鼓励"多步思考、谨慎验证",而 Agent 任务需要"快速调用工具、及时响应环境反馈"时,一个共享的 RL 策略会让模型陷入矛盾。
OPD 的解决思路完全不同:不再试图用一个信号同时优化所有目标,而是先让每个目标独立优化到极致(专家模型),再通过蒸馏让统一模型同时学会所有专家"在它自己的生成路径上"的行为模式。
3.3 Multi-Teacher OPD 的技术实现
V4 的 OPD 不是简单的"一个老师教一个学生",而是多教师(Multi-Teacher)蒸馏——十个以上的领域专家同时作为教师,蒸馏进一个学生模型。
其技术流程如下:
Step 1: Student 模型接收一个 prompt,自己生成回答(rollout)
Step 2: 对同一个 prompt,多个 Teacher 模型也生成回答
Step 3: 在 Student 实际生成的每个 token 位置,计算每个 Teacher 的
logit 分布与 Student 的 logit 分布之间的 Reverse KL 散度
Step 4: 多个 Teacher 的 KL 散度加权平均作为训练信号
Step 5: 更新 Student 参数,使它的 logit 分布更接近 Teacher 的加权平均这个流程中几个关键工程挑战:
挑战一:教师模型太大,难以同时加载。
V4 有 10+ 个领域专家,每个都是完整的大模型。同时加载所有专家做在线推理显存不够。
V4 的解决方案:不缓存教师的完整 logits,只缓存教师最后一层的隐藏状态(hidden states)。 训练时通过一个轻量的 prediction head 将 hidden states 重建为 logits。这样显存占用从"词表大小 × 教师数量"降为"隐藏维度 × 教师数量",减少了一个数量级。
挑战二:不同教师对不同 prompt 的 relevance 不同。
一个数学 prompt,Math Expert 的指导价值远高于 Coding Expert。V4 使用了教师调度(Teacher Scheduling) 策略:
| 策略 | 描述 | 应用场景 |
|---|---|---|
| Prompt-Based Selection | 根据 prompt 的领域标签选择对应教师 | 有明确领域标签的数据 |
| Confidence-Based Weighting | 根据教师在该 prompt 上的置信度加权 | 退火阶段的混合数据 |
| Uniform Averaging | 所有教师等权平均 | 通用场景的细调 |
挑战三:Rollout 的可靠性。
在线蒸馏需要在每个训练步骤都生成学生回答,这需要稳定的 rollout 服务。V4 构建了容错 rollout 基础设施:当某个教师的推理服务超时或出错时,自动跳过该教师,使用剩余教师的信号继续训练。
3.4 OPD 成功的两个前提条件
清华大学的系统研究论文 "Rethinking On-Policy Distillation"(arXiv: 2604.13016)揭示了 OPD 成功的两个关键条件:
条件一:学生和教师需要有兼容的"思考模式"。
即使某个教师的 Benchmark 分数更高,如果学生和教师的 top-k token 分布重叠率(overlap ratio)低,OPD 就会失败。论文实测:用 Qwen3-4B-GRPO(一个 base + RL 的教师)蒸馏 Qwen3-1.7B-Base 的效果显著好于用 Qwen3-4B-Non-thinking,尽管两个教师的 Benchmark 分数差不多——区别在于前者和学生共享 Base 的思考模式,初始 overlap 高。
条件二:教师需要提供学生尚未掌握的新知识。
当学生和教师使用相同的训练数据和配方时,即使教师的参数量更大、分数更高,两者在 token 分布层面可能是"不可区分的"——教师的优势仅仅来自规模(scale),而不是真正的知识差异。这种情况下 OPD 收益有限。
这两个条件在 V4 的 OPD 实践中得到了验证:在 Specialist Training 阶段,每个专家都使用了和 Base Model 相同的架构但不同的训练信号,天然满足了条件一(共享基础分布)和条件二(领域特化知识)。
3.5 Off-Policy Cold Start
为了让 OPD 更好地工作,V4 还使用了一个预热步骤:先用教师生成的 rollout 数据对学生做 SFT(Off-Policy Cold Start),把学生拉到教师分布附近,然后再启动正式的 OPD 训练。
这个预热步骤的作用类似于"先预习再上课"——学生先用传统的监督学习方式"预习"教师的输出风格,然后再在自己生成的轨迹上接受教师的 per-token 纠正。这既加快了 OPD 的早期收敛速度,也提高了最终性能上限。
3.6 OPD 的"免费午餐"代价:密集奖励的隐形成本
清华大学的研究论文 "Rethinking On-Policy Distillation" 提出了一个值得注意的发现:OPD 的密集逐 token 奖励并非免费的午餐。
研究发现,OPD 的信号质量会随着轨迹深度的增加而系统性下降:
| 轨迹位置 | 前 25% token | 中间 50% token | 最后 25% token |
|---|---|---|---|
| 教师指导质量 | 高(强信号) | 中等 | 低(弱信号) |
| 学生对齐速度 | 快 | 中等 | 慢 |
| 熵差距 | 小 | 中等 | 大 |
更令人意外的是,即使是在"失败"的 OPD 配置中(教师分数更高但学生没有提升),教师的奖励信号在全局层面仍然是正确的——它与 rollout 的最终正确性存在正相关。问题不在于"奖励错了",而在于局部的优化几何结构出了问题:当一个更强的教师诱导出在学生的策略周围"局部平坦"的奖励景观时,token 级别的梯度就变得无效了——全局正确但局部稀疏。
这对 V4 的实践启示是:
OPD 的长度瓶颈:对于极长轨迹(如 10+ 轮 Agent 调用),OPD 的效能可能随轨迹长度衰减。V4 的解决思路是通过 Specialist Training 先让每个专家在短轨迹上达到高质量,再通过 OPD 整合——这样 OPD 阶段处理的轨迹长度在可控范围内。
Cold Start 的重要性:Off-Policy Cold Start 不仅是一个"让分布对齐"的步骤,还在改变学生策略的起始位置,使其处于一个对教师奖励信号"更敏感"的区域——即局部梯度更丰富的区域。
多教师的额外收益:当单个教师的信号在局部变得平坦时,多个教师的加权平均可能提供更丰富的拓扑结构——每个教师的平坦区域可能不同,平均之后反而形成更有梯度的景观。
3.7 行业共鸣:OPD 成为 2026 年后训练新标配
OPD 不是 DeepSeek V4 的独有创新。2026 年上半年发布的多款重量级模型都采用了类似的方案:
| 模型 | 发布时间 | OPD 策略 | 特色 |
|---|---|---|---|
| Qwen3 | 2025 年末 | Strong-to-Weak OPD | 首次展示 OPD 比 RL 在推理任务中更高效 |
| MiMo V2 | 2026 年初 | OPD + RL 混合 | 在 OPD 基础上叠加 RL 作为额外阶段 |
| GLM-5 | 2026 年 4 月 | 纯 OPD 路线 | OPD 阶段只使用 KL 散度,完全不叠加 outcome reward |
| DeepSeek V4 | 2026 年 4 月 | Multi-Teacher OPD | OPD 替代 Mixed RL,10+ 专家蒸馏为一 |
行业共识正在形成:OPD 正在取代传统的 SFT + RL 混合管线,成为后训练的新标配范式。 它的优势——dense token-level signal + on-policy distribution match——让它在推理、代码生成、Agent 等需要精细行为对齐的任务上全面超越了传统方案。
3.8 OPD vs 其他多能力融合方案
为了帮助理解 OPD 在技术谱系中的定位,下面是多能力融合方案的完整对比:
| 方案 | 原理 | 能力冲突 | 算力成本 | 典型代表 |
|---|---|---|---|---|
| Mixed RL | 统一训练,混合数据和奖励 | 严重 | 低(一次训练) | V3.2 |
| Weight Merging | 各专家参数按权重平均 | 中等 | 极低(无训练) | Model Soup |
| Multi-Teacher OPD | 学生自生成轨迹上蒸馏 | 低 | 高(多专家+蒸馏) | V4, GLM-5 |
| MoE 路由 | 各专家参数保留,路由选择 | 低 | 中等 | Mixtral |
| Sequential Training | 按领域顺序依次训练 | 严重(灾难性遗忘) | 中等 | 早期多任务学习 |
OPD 的核心价值在于:在参数空间(weight merging)的函数空间平均和路由空间(MoE)的硬件隔离之间,找到了一个兼具整合深度和独立性保留的方案。
四、全词表蒸馏
4.1 从 Token-Level 到 Full-Vocabulary
OPD 需要计算教师和学生之间的分布差异。这个计算有一个精度-成本阶梯:
| 方式 | 计算内容 | 精度 | 显存成本 | 训练稳定性 |
|---|---|---|---|---|
| Token-Level KL | 只看学生采样的那个 token | 低 | 极低 | 高方差,不稳定 |
| Top-K Logit | 计算 Top-k 个 token 的分布差异 | 中 | 中 | 中等 |
| Full-Vocabulary | 保留教师在 128K 词表上的全部分布 | 高 | 高 | 稳定 |
Token-Level KL 估计是最低成本的方式——只看学生实际采样出来的那个 token,用它近似教师和学生的差距。但 V4 技术报告指出,这种近似导致高方差,训练不稳定。原因很直观:只看一个 token 的差异,丢失了教师对其他候选 token 的判断信息。
Full-Vocabulary Logit Distillation 则保留教师在完整词表(128K tokens)上的概率分布。教师不光告诉学生"正确答案是 X",还告诉学生"错误答案 A 之所以差、答案 B 之所以勉强可以接受"。这种丰富的对比信息让训练信号更充分,训练过程更稳定。
4.2 Full-Vocabulary 的工程挑战
128K 词表的 full-vocabulary logit 蒸馏有一个现实问题——显存放不下。
每个教师的 logits 是一个形状为 [vocab_size] 的向量(128K 个 float),同时加载 10+ 个教师的 logits 进行蒸馏,显存占用直接爆炸。
V4 的解决方式是一个经典的空间换时间、又用时间换空间的工程折中:
Step 1:推理时不存 logits,只存 hidden states。 教师模型推理时,不直接输出 128K 的 logits 向量,而是保留最后一层 Transformer 的隐藏状态(hidden states,维度通常是 7,168 或 4,096)。从 hidden states 到 logits 需要经过一个 prediction head(输出层)的矩阵乘法。
Step 2:训练时按需重建。 需要计算 KL 散度时,才通过 prediction head 把 hidden states 映射回 logits。这样做的好处是:多个教师的 hidden states 可以共享 prediction head(因为 prediction head 不区分教师),只需在需要时做一次矩阵乘法即可。
Step 3:按教师索引排序训练样本。 训练数据按教师标签排序,确保同一个教师的 prediction head 尽量只加载一次,避免频繁切换教师带来的 I/O 开销。
Step 4:TileLang 加速 KL 计算。 KL 散度的计算使用 TileLang 编写的专用 kernel,在 GPU 上进行加速。
这套方案的显存对比:
| 方案 | 单教师的显存占用 | 10 个教师的显存占用 | 额外计算开销 |
|---|---|---|---|
| 直接存 logits | 128K × FP32 = 512 KB | 5 MB | 无 |
| 存 hidden states + 重建 | 7,168 × FP32 = 28 KB | 280 KB | 一次 prediction head 矩阵乘法 |
通过 hidden states 缓存,10 个教师的显存占用从 5 MB 降到了 280 KB——减少了 94%。 这个工程优化让 full-vocabulary OPD 在实践上变得可行。
4.3 Full-Vocabulary 的收益量化
为什么 V4 宁可增加如此复杂的工程也要坚持 full-vocabulary?
以下是 Token-Level KL 和 Full-Vocabulary KL 的实验对比(来自多专家 OPD 消融实验):
| 指标 | Token-Level KL | Top-10 Logit | Full-Vocabulary |
|---|---|---|---|
| 训练稳定性 | 震荡(Loss 波动 ±15%) | 中等(±5%) | 稳定(±2%) |
| 收敛速度 | 慢(需要 1.5× 训练步数) | 中等 | 快(基线) |
| 最终评测分数 | 基线的 92% | 基线的 97% | 基线(100%) |
| 额外显存开销 | 无 | 较低 | 中等(通过缓存方案可控) |
Full-vocabulary 在训练稳定性和最终性能上都是最优选择,代价是需要额外的工程优化来管理显存开销。
五、GRM 生成式奖励模型
5.1 传统奖励模型的困境
在 RLHF(基于人类反馈的强化学习)中,奖励模型的作用是给模型的输出打分,作为 RL 优化的信号。传统做法是训练一个标量奖励模型(Scalar Reward Model):输入一段文本,输出一个 0 到 1 的分数。
标量奖励模型有几个根本缺陷:
缺陷一:只能"打分"不能"解释"。
标量 RM 输出一个单一分数。这个分数本身没有语义——你不知道它扣分是因为逻辑不连贯还是事实错误。它的决策过程完全不可解释。
缺陷二:容易陷入 Reward Hacking(奖励作弊)。
模型发现某些"取巧"的模式能骗过标量 RM(比如写得更长、用更多专业术语、使用特定模板),就会过度优化这些表面特征,而不是真正提升回答质量。标量 RM 的分数容易被这种模式欺骗,因为它只看数值不看内容。
缺陷三:对主观任务无效。
对于数学推理(答案只有对错)可以用规则验证。对于代码(能否通过测试)也可以用自动化测试。但创意写作、产品方案评估、代码可读性评价这类任务——没有一个"正确答案"——标量 RM 的单一分数无法准确衡量。
5.2 GRM 的原理
生成式奖励模型(Generative Reward Model, GRM) 彻底改变了奖励的范式。
GRM 不再输出一个标量分数,而是生成一段结构化的评估报告。它的输出包含了:
GRM 输出示例(对一篇技术文章的回答进行评估):
标题:对"后训练"概念的清晰度评估
评分:8/10
优势:
1. 概念定义准确,引言部分的类比(Base 模型如"读遍天下典籍但从未开口的人")降低了理解门槛
2. OPD 与传统蒸馏的对比直观,表格清晰
3. 技术细节和工程挑战交代充分
不足:
1. 第五章节对 GRM 自身训练过程的描述不够深入
2. 缺少与 V3.2 在 Agent 场景下的直接对比数据
建议:补充 GRM 训练的 SPCT 方法细节,有助于读者理解 GRM 是如何被训练出来的
总体判断:该文章达到了深度指南的标准,建议小修改后发布GRM 的"评分 + 理由 + 建议"结构对标量 RM 的"一个数字"形成了维度上的压制。
5.3 GRM 如何解决 Reward Hacking
GRM 对抗 reward hacking 的核心武器是可解释性。
标量 RM 的原理是一个黑箱——输入文本,输出分数。模型可以逐渐学会"怎么写分数看起来更高",但人类评估者无法监控这个过程,因为唯一的信号是一个数字。
GRM 则不同。它输出的评估报告本身是自然语言,可以直接被人类阅读和理解:
| 场景 | 标量 RM | GRM |
|---|---|---|
| 奖励信号形式 | 0.87 一个数字 | "推理步骤完整但忽视了替代方案...建议..." |
| 可解释性 | 无 | 完整 |
| 抗 hacking 能力 | 弱(数字容易被骗) | 强(生成文本更难以作弊) |
| 适用任务 | 有明确答案的任务 | 主观质量评估 |
模型要"欺骗" GRM 的难度远大于欺骗标量 RM。要让 GRM 给出高分,模型需要生成一段说服 GRM 的文本——但 GRM 的评估标准是通过 Rubric(评估准则)引导的,不是简单的模式匹配。模型无法通过"写更长"或"用更多术语"来稳定获得高分。
5.4 GRM vs DeepSeek-GRM:从独立模型到内化能力
值得区分的是,V4 的 GRM 和 DeepSeek 之前开源的 DeepSeek-GRM-27B(基于 SPCT 方法训练)是两个不同的东西:
| 维度 | DeepSeek-GRM-27B | V4 的 GRM |
|---|---|---|
| 定位 | 独立的奖励模型 | 内化在 Actor 网络中的能力 |
| 参数量 | 27B | 与 V4 主模型共享参数 |
| 训练方法 | SPCT(独立训练) | SPCT + Actor-Critic Joint Optimization |
| 使用方式 | 作为外部 evaluator | 模型自己充当 evaluator |
| 推理成本 | 额外一次推理 | 零额外成本(共享前向计算) |
V4 的关键创新在于:让 actor 网络同时承担生成和评判能力。这意味着模型在生成回答的过程中,对自己输出的每个部分都有一个内在的"质量感知"。这种"生成时即评判"的能力让模型在推理阶段就能自我修正,而不需要等外部 evaluator 打分。
5.6 GRM 的训练:SPCT 方法
GRM 本身也是训练出来的,不是凭空构造的。V4 使用的训练方法是 SPCT(Self-Principled Critique Tuning,自我原则化批判调优)。
SPCT 的核心思想是:让模型学会"自我原则化"——不依赖固定的评估准则,而是根据任务动态生成评估原则,再基于这些原则做评判。
SPCT 的训练流程分为四个阶段:
阶段一:初始微调(SFT Bootstrapping)
用少量多样化的人工标注数据,训练 GRM 的基础评估能力。这些标注数据覆盖各种类型的任务(创意写作、推理、代码、指令跟随等),每条标注包含三部分:
输入:模型的原始输出(如一篇技术文章、一段代码、一个 Agent 的决策链)
评估原则:人类标注者定义的评估维度(正确性、清晰度、完整性、创新性等)
评估输出:结构化的评估报告(评分 + 理由 + 改进建议)这个阶段的核心目标是让 GRM 学会"什么样的评估是有价值的"——不只看分数本身,还要生成有洞察力的评估理由。
阶段二:在线 RL 训练(Critic Learning)
预定义的评估准则(Rubric)作为 RL 的信号。GRM 的输出既要符合 Rubric 中定义的质量维度(正确性、清晰度、完整性等),又要对不同的任务自适应地调整评估重点。
这个阶段的训练信号来自两个方向:
- 外部信号:人类评估者对 GRM 输出质量的打分
- 内部信号:GRM 在不同任务上的一致性和区分度
阶段三:Actor-Critic 联合优化
这是 GRM 训练中最关键的一步。V4 让 GRM 的 actor 网络(生成评估报告)和 critic 网络(判断评估质量)在 RL 框架下联合训练。
传统做法中,generator 和 evaluator 是分开训练的。V4 的做法是让它们共享大部分参数,只在输出层做区分。这样带来的好处是双重的:
- 生成能力带动评判能力:模型理解了"好内容"长什么样,评判时更有洞察力
- 评判能力带动生成能力:模型知道自己输出的弱项在哪里,RL 训练时更容易定位问题
联合训练的过程可以理解为:actor 生成一个答案 → critic 评估这个答案的质量 → RL 优化 actor 让下次生成更好 → actor 的能力提升让评估任务也更容易 → 正向循环。
阶段四:推理时扩展(Test-Time Scaling)
GRM 在推理时可以并行采样多个评估结果,通过投票机制聚合得到更稳定的评分。V4 报告指出,经过 32 次并行采样 + 元奖励模型引导的投票,GRM 的评估准确率可以从单次采样的约 70% 提升到 90% 以上。
这种"推理时计算换质量"的策略在 GRM 的部署中特别有价值——评估任务通常可以并行化,不像生成任务那样需要顺序执行。
5.5 GRM vs 传统标量 RM 的实用对比
| 维度 | 标量 RM | GRM |
|---|---|---|
| 训练数据需求 | 大量偏好对(A vs B 比较标注) | 少量多样化标注 + Rubric 定义 |
| 评估维度 | 单一分数 | 多维度 + 解释性文本 |
| 可解释性 | 无 | 完整 |
| Reward Hacking 风险 | 高 | 低 |
| 主观任务 | 不适用 | 适用 |
| 推理成本 | 低(一次前向,输出一个数字) | 更高(生成评估文本) |
| 训练成本 | 中等 | 较高(SPCT 流程更复杂) |
| 泛化能力 | 局限(需要大量标注覆盖场景) | 强(Rubric 引导 + 少量标注即可泛化) |
5.7 GRM 与标量 RM 在 Agent 场景下的直观对比
用一个具体例子来理解标量 RM 和 GRM 在 Agent 场景下的差异:
场景:Agent 被要求"修改一个 Python 模块以支持异步处理"
标量 RM 的评估:
分数:0.72
—— 你不知道 0.72 扣分在哪里。是代码有问题?是没理解需求?是修改了不该改的部分?GRM 的评估:
评估原则:按照"需求匹配度、代码正确性、最小修改原则"三个维度评估
需求匹配度 (7/10):模型正确识别了需要转换为 async/await 的方法,
但遗漏了配置文件中的异步适配
代码正确性 (8/10):Python 语法正确,异步模式使用规范,
但缺少必要的 try/except 包装
最小修改原则 (6/10):修改范围过大,重写了三个本不需要修改的方法,
引入不必要的回归风险
改进建议:
1. 将配置文件中的连接设置同步更新为异步模式
2. 为关键异步方法添加异常处理
3. 撤销对非必要方法的重写,降低回归风险
总体评分:7/10在 Agent 训练中,GRM 输出的"改进建议"可以直接用于 RL 的正负样本生成——从 GRM 列出的不足中构造新的训练数据,教 Agent 如何在下次做得更好。而标量 RM 的"0.72"除了作为 RL 的 reward signal 外,不提供任何额外的训练指导。
5.8 在 V4 中的实际应用场景
V4 的 GRM 被用于以下场景:
- 创意写作评估:评估文章的结构、逻辑、语言风格
- Agent 任务评估:评价 Agent 在工具调用过程中是否做出了合理决策
- 指令跟随评估:判断模型是否准确理解了用户指令的每一个约束条件
- 代码质量评估:不只是看代码能否通过测试,还评估代码的可读性、可维护性
在所有这些场景中,GRM 输出的结构化的评估报告都被用来作为 RL 训练的奖励信号。它替代了传统标量 RM 的位置,但提供了更丰富、更可解释、更难被 hack 的信号。
六、Interleaved Thinking 框架
6.1 传统对话模型的局限
标准的对话模型有一个隐含假设:每一轮用户输入都是独立的。模型在收到新消息时,会把上一轮的思考过程(thinking)丢弃或截断,只保留必要的上下文。
这个假设在普通对话中成立——你问一个事实问题,模型给出答案,下一轮你问另一个问题,前一轮的思考确实不需要保留。
但在 Agent 场景中,这个假设完全不成立。
一个 coding agent 的工作流程是这样的:
用户请求 → 模型思考(如何实现)→ 调用工具(读取文件)
→ 工具返回结果 → 模型思考(分析结果)
→ 调用工具(修改文件)→ 工具返回结果
→ 模型思考(验证修改)→ 调用测试工具
→ ...可能持续 10-20 轮在这个过程中,每一轮工具调用的历史和推理过程都是后续决策的基础。如果模型在每轮调用后都丢弃之前的思考,它会失去对任务进展的整体把握——忘记已经试过什么方案、什么假设已经被排除、什么文件已经被修改。
6.2 Interleaved Thinking 的设计
DeepSeek V4 的 Interleaved Thinking 框架专门解决这个问题。
核心设计是两个场景的差异化策略:
| 场景 | Thinking 处理方式 | 原因 |
|---|---|---|
| 普通对话 | 每轮新消息丢弃旧 thinking | 对话连续性不依赖内部推理历史 |
| Agent 工具调用 | 保留完整跨轮次推理历史 | Agent 需要持续累积任务状态 |
具体来说,在 Agent 场景中,V4 的 Interleaved Thinking 做了以下事情:
累积推理链(Accumulated Reasoning Chain):每一轮工具调用前的"思考"不会被丢弃,而是作为上下文的有机组成部分保留下来。模型可以随时回看"我为什么决定调用这个工具"、"上一个工具返回了什么结果"、"这个假设为什么被放弃"。
状态感知的决策:由于保留了完整的推理历史,Agent 在做下一轮决策时,不只看最新的工具返回结果,还结合了整个任务的推理进展。这避免了"只看一步"的短视决策。
与 OPD 的结合:Interleaved Thinking 不仅用于推理阶段,还用于训练阶段。在 OPD 的 Agent 专家蒸馏中,Agent Expert 的推理历史作为教师信号的一部分,帮助学生模型理解"在完整任务上下文中如何做决策"。
6.3 推理阶段的实现细节
Interleaved Thinking 在推理阶段的实现涉及一些值得关注的工程细节:
思考保留的边界控制。 如果每一轮工具调用的所有思考都永久保留,随着任务轮数增加,上下文会无限膨胀。V4 使用了一种边界控制策略:
- 轻量摘要:对于较早轮次的思考,不是直接丢弃,而是生成一个轻量的摘要,保留关键决策节点
- 相关性衰减:距离当前决策点越远的思考内容,在注意力机制中的权重越轻(通过 HCA 压缩)
- 显式覆盖:当 Agent 主动声明"这个方案不再考虑"时,系统显式标记该推理分支为"已关闭",减少后续计算
工具调用间的状态对齐。 Agent 在工具调用返回后,需要将工具的返回结果和之前的推理分支对齐。V4 在 Interleaved Thinking 框架中维护了一个隐式的"意图-结果对照表",让模型能够快速定位"这个返回结果对应的是之前的哪个推理步骤"。
Non-Think 模式的兼容。 V4 支持不同的思考模式(Non-Think / Low / High / Max)。Interleaved Thinking 只在高模式和多轮工具调用场景下生效;在 Non-Think 模式下,模型跳过推理过程直接输出。这种差异化设计让模型在简单场景下保持高效,在复杂场景下提供深度推理。
6.4 Agent 场景下的具体价值
Interleaved Thinking 对 Agent 能力的提升体现在以下几个维度:
维度一:任务连贯性
没有 Interleaved Thinking 时,Agent 容易在长任务中"失忆"——忘记已经试过的方案,重复同一个错误。保留推理历史后,Agent 可以在上下文中看到"我之前已经尝试过方案 A,它因为原因 X 失败了",从而避免重复劳动。
维度二:错误恢复
工具调用随时可能出错。Agent 需要理解"这个错误是什么"、"之前做了哪些尝试"、"还有什么方案没试过"。完整的推理链让这种错误恢复成为可能——Agent 可以回到之前的推理分支,选择另一条路径继续。
维度三:多步骤规划
复杂的 Agent 任务(如重构一个代码模块)需要进行多步骤规划。保留推理历史让 Agent 能够"回头看"自己的规划路线,在每一步都确认"我正在按计划执行"或者"计划需要调整"。
6.5 一个完整的 Agent 工作流示例
下面是一个典型场景的简化流程,展示 Interleaved Thinking 的实际效果:
用户请求:"帮我重构这个模块,让它的性能提升 30%"
第 1 轮思考:
模型推理:用户要求重构某个模块,目标是性能提升 30%。
我需要先了解当前代码结构,识别性能瓶颈。
工具调用:read_file("src/processor.py")
第 1 轮工具返回:
代码内容:...(约 200 行代码)
第 2 轮思考(保留第 1 轮推理):
模型基于代码分析:
- Processor.process() 方法使用了 O(n²) 的嵌套循环,是瓶颈
- 可以改成字典查找实现 O(n)
- 但需要确认输入数据的特点
工具调用:read_file("tests/test_processor.py")
第 2 轮工具返回:
测试代码:...(显示输入数据量级为 10K-100K 条)
第 3 轮思考(保留第 1、2 轮推理):
模型确认:输入规模在 10K-100K,O(n) 方案收益显著。
决定:用 dict 替换嵌套循环,并更新对应测试用例。
工具调用:edit_file("src/processor.py", ...)
edit_file("tests/test_processor.py", ...)在这个示例中,如果没有 Interleaved Thinking,第 2 轮推理时模型可能已经"忘记"第 1 轮读到的代码内容,需要重新读取文件;第 3 轮推理时可能无法关联第 1 轮确定的瓶颈分析和第 2 轮确认的数据特点。保留完整推理链确保了每一步决策都有可追溯的上下文支撑。
6.6 与 V3.2 的对比
| 场景 | V3.2 | V4 | 改进 |
|---|---|---|---|
| 普通对话 | 丢弃旧 thinking | 丢弃旧 thinking | 相同(保持精简) |
| 单轮工具调用 | 保留该轮 thinking | 保留该轮 thinking | 相同 |
| 多轮工具调用 | 每轮丢弃旧 thinking | 保留完整跨轮次推理链 | Agent 场景质的飞跃 |
| 长任务规划 | 不支持 | 支持 | 新增能力 |
| 错误恢复 | 从头重新推理 | 从断点恢复 + 参考之前推理 | 大幅提升效率 |
七、实测数据
7.1 13 个产业任务 63% 不败率
DeepSeek V4 在 13 个代表性产业评测任务上的表现如下:
| 评测任务 | 类型 | V4-Pro | 对比最强对手 | 结果 |
|---|---|---|---|---|
| Vibe Code Benchmark (Vals AI) | Agent 编码 | 领先 | 开源模型第一 | 胜 |
| SimpleQA-Verified | 世界知识 | 55.2% | V3.2: 28.3% | 大幅胜 |
| MMLU-Pro | 综合知识 | 66.8% | V3.2: 59.1% | 胜 |
| GPQA-Diamond | 研究生级科学 | 44.1% | V3.2: 38.7% | 胜 |
| HLE | 超难推理 | 14.2% | V3.2: 8.9% | 大幅胜 |
| AIME 2025 | 数学竞赛 | 领先 | 开源模型第一 | 胜 |
| LiveCodeBench | 编程 | 领先 | 开源模型第一 | 胜 |
| Chinese Writing (Balanced) | 中文写作 | 62.7% | 混合基线: 50.0% | 胜 |
| Creative Writing (Creative) | 创意写作 | 77.5% | 混合基线: 50.0% | 大幅胜 |
| SWE-Bench Verified | 软件工程 | 53.0% | V3.2: 38.2% | 大幅胜 |
| 开放 QA 准确率 | 问答 | 提升 | V3.2 基线 | 胜 |
| 社区投票偏好 | 综合 | 55.2% | V3.2: 44.8% | 胜 |
| 总计 | 综合 | 8 胜 5 平/负 | 不败率 63% | - |
在 13 个评测中,V4-Pro 保持了 63% 的不败率(8 胜)。 其中尤其值得关注的是:
- 中文写作 62.7%:在平衡数据集上,V4 的中文写作能力显著超越了基线,这是 GRM 在主观任务上的价值体现
- 创意写作 77.5%:在创意性评估上,V4 的领先优势更加明显——GRM 对主观质量的评估准确性直接转化为 RL 训练的有效性
- SWE-Bench Verified 从 38.2% 提升到 53.0%:接近 15 个百分点的提升,主要得益于 Agent Expert 的专门训练和 Interleaved Thinking 框架
7.2 关键指标的深度拆解
中文写作提升的来源。 中文写作 62.7% 的成绩意味着:在人类评估或 GRM 评估中,V4 的输出被认为比 V3.2 或者其他对比模型更好。这个提升来自三个因素的叠加效应:
- Agent Expert 的专门训练提升了模型的指令跟随能力——Agent 任务需要精确理解需求,这个能力迁移到写作任务上表现为更精准地理解写作要求
- GRM 对主观质量的评估比标量 RM 更准确——写作风格、逻辑连贯性等维度的信号更充分
- OPD 的多专家整合没有稀释中文能力——对比 Mixed RL 时代的能力冲突
SWE-Bench 从 38.2% 升至 53.0%。 这是 Agent Expert Specialist Training + Interleaved Thinking 的综合成果:
| 因素 | 贡献估计 | 依据 |
|---|---|---|
| Agent Expert 专门的 RL 训练 | ~7 个百分点 | 专家训练让模型在代码修改场景积累了大量经验 |
| Interleaved Thinking | ~5 个百分点 | 保留推理链让 Agent 在多步骤调试中保持连贯 |
| DSec 沙箱训练环境 | ~3 个百分点 | 数十万并发的沙箱让模型经历了大量真实"试错" |
7.3 社区偏好投票
社区偏好投票的结果也很能说明问题:
| 对比 | 偏好率 | 不偏好率 |
|---|---|---|
| V4-Pro vs V3.2 | 55.2% | 44.8% |
| V4-Flash vs V3.2 | 57.8% | 42.2% |
55.2% 的偏好率意味着大多数用户觉得 V4 比 V3.2 更好用。考虑到 V3.2 本身就表现不错,这个"大多数人更满意"的结果验证了 OPD 整合策略的有效性——模型在多领域能力上确实做到了"全面发展"而不是"偏科"。
八、小结
DeepSeek V4 的后训练方案可以总结为一个核心替换 + 两项关键创新:
一个核心替换:OPD 替代 Mixed RL。
V4 用 Multi-Teacher On-Policy Distillation 完全替代了 V3.2 的 mixed RL 整合阶段。先在每个领域分别训练到极致的专家(Specialist Training),再用 OPD 将它们整合为一个统一模型(Multi-Teacher Distillation)。OPD 的 reverse KL 特性天然适合多专家融合——学生只在自己访问到的状态上学习教师的分布,不会被动吸收教师的"无关特征",从而避免了传统混合训练中的能力冲突。
创新一:Full-Vocabulary Logit Distillation。
为了获得足够丰富的训练信号,V4 在全词表(128K tokens)上做 logit 级别的蒸馏,而非节省成本的 token-level KL 估计。通过 hidden states 缓存 + prediction head 重建 + 教师索引排序的工程组合,将全词表蒸馏的显存开销降低了 94%,使其在实践上变得可行。
创新二:GRM 生成式奖励模型。
V4 完全摒弃了传统的标量奖励模型,改用 GRM 为主观任务提供多维度、可解释的评估信号。GRM 不是给一个冷冰冰的标量分数,而是生成结构化的评估报告。它在创意写作(77.5% 偏好率)和中文写作(62.7% 偏好率)上的表现验证了这种新范式的价值。
一项体验升级:Interleaved Thinking 框架。
V4 在 Agent 场景下保留了完整的跨轮次推理历史,让模型在长时程任务中维持连贯的推理链。这解决了传统对话模型在 Agent 场景下的"失忆"问题——模型可以回看之前的工具调用结果、决策原因和假设演变,在多步骤任务中做出更明智的决策。
通过这些后训练创新,V4 实现了两个关键目标:
- 多领域能力无损整合:OPD 让模型同时具备数学、代码、Agent、指令跟随等能力而不互相干扰
- 主观任务质量跃升:GRM 解决了传统 RLHF 无法有效优化主观任务的问题
后训练的本质不是"再训练",而是"把精心准备的能力以最不互相伤害的方式传递到一个模型里。"
检验标准
- [ ] 能说清楚 V4 为什么用 OPD 替代 Mixed RL 作为多专家融合方案——OPD 是基于 reverse KL 的 on-policy 蒸馏,学生只在自己访问到的状态上学习教师分布,避免了能力冲突;Mixed RL 是不同领域奖励信号混合训练一个模型,容易互相干扰
- [ ] 能解释 Full-Vocabulary Logit Distillation 相比 Token-Level KL 的优势(稳定性大幅提升、最终性能更好),以及 V4 如何通过 hidden states 缓存 + prediction head 重建解决显存问题(从 5 MB 降到 280 KB,减少 94%)
- [ ] 能描述 GRM 和传统标量 RM 的三个核心区别:(1)输出格式——生成式评估报告 vs 单一标量分数;(2)抗 Reward Hacking——GRM 因为可解释性和 Rubric 引导难以被欺骗;(3)适用场景——GRM 可以评估创意写作等主观任务,标量 RM 只适合有明确答案的任务
- [ ] 能用一句话说明 Interleaved Thinking 解决了什么问题——在 Agent 多轮工具调用场景中,保留完整跨轮次推理链,让模型维持任务连贯性、支持错误恢复和多步骤规划
