百度 ERNIE 5.1:用 6% 的训练成本,打了场什么仗
2026 年 5 月 9 日,百度发布文心大模型 ERNIE 5.1。参数压缩到前代的 1/3,训练成本降到同级别模型的 6%,Agent 能力超越 DeepSeek-V4-Pro。这不仅仅是一个「新模型发布」的故事——它指向的是大模型竞争的核心变量正在从「谁的参数最大」转向「谁的效率最高」。
一个数字抓住眼球:6%
6%。
ERNIE 5.1 的预训练计算成本,只有同级别模型的约 6%。不是降了 6%,是只剩 6%。
与此同时,它做到了:
| 维度 | 数据 |
|---|---|
| 总参数 | 压缩到 ERNIE 5.0 的约 1/3 |
| 激活参数 | 压缩到约 1/2 |
| LMArena 搜索榜 | 全球第 4,中国第 1(1223 分) |
| LMArena 文本榜 | 全球第 13,中国第 1(1476 分) |
| Agent 能力 | 超越 DeepSeek-V4-Pro |
| 数学推理(AIME26) | 99.6 分,全球第二,仅次于 Gemini 3.1 Pro |
| 创意写作 | 内部评测接近 Gemini 3.1 Pro |
一句话:参数少了,成本降了,性能没掉。
这不是魔术——是工程。
怎么做到的:三个关键技术决策
1. 多维弹性预训练(Once-For-All)
传统做法是「不同规模的模型分别训练」——想做三个尺寸的模型,就得跑三次预训练。
百度的思路完全不同:一次训练,生成多种规模的模型。
他们在 ERNIE 5.0 阶段设计了一个弹性训练框架,在单次预训练中同时优化大量子模型。具体在三个维度上做弹性控制:
传统训练: ERNIE 5.0 弹性训练:
┌───────────────┐ ┌─────────────────────────┐
│ 模型 A (大) │ ← 独立训练 │ │
└───────────────┘ │ ┌─────┐ ┌─────┐ │
┌───────────────┐ │ │子模型│ │子模型│ ... │
│ 模型 B (中) │ ← 独立训练 │ │ A │ │ B │ │
└───────────────┘ │ └─────┘ └─────┘ │
┌───────────────┐ │ ↑ 动态采样 ↑ │
│ 模型 C (小) │ ← 独立训练 │ 同一次预训练中联合优化 │
└───────────────┘ └─────────────────────────┘
训练 3 次 = 3 倍成本 训练 1 次 = 1 倍成本三个弹性维度:
- 弹性深度:训练时随机变化 Transformer 层数,深浅子模型共享权重
- 弹性宽度/专家容量:MoE 层中动态调整参与路由的专家数量
- 弹性稀疏度:通过可变 Top-k 路由机制,灵活调整激活专家数
ERNIE 5.1 就是从这个子模型矩阵中「挑」出来的最优子网络。它不需要重新预训练——直接继承 5.0 的知识,只花了 6% 的成本。
2. 解耦全异步强化学习
为了把大模型推向 Agent 方向,百度在飞桨(PaddlePaddle)上搭了一套全新的 RL 基础设施。
核心设计:以 RL Controller 为中心,把训练、推理、奖励、Agent 循环四个子系统完全解耦。
┌──────────────────────────────────────────────────┐
│ RL Controller(控制面) │
│ │
│ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────────┐ │
│ │ 训练 │ │ 推理 │ │ 奖励 │ │ Agent 循环│ │
│ │ │ │ │ │ │ │ │ │
│ │独立部署│ │独立部署│ │独立部署│ │ 独立部署 │ │
│ │独立扩缩│ │独立扩缩│ │独立扩缩│ │ 独立扩缩 │ │
│ └──┬───┘ └──┬───┘ └──┬───┘ └────┬─────┘ │
│ │ │ │ │ │
│ └─────────┴─────────┴───────────┘ │
│ 高性能网络数据组件(数据面) │
└──────────────────────────────────────────────────┘三个关键优化:
| 优化方向 | 具体做法 | 效果 |
|---|---|---|
| 解耦全异步 | 四大子系统独立部署、独立扩缩 | 推理-训练-奖励形成 Pipeline,完全重叠 |
| FP8 训练推理一致性 | 统一 FP8 算子库 + Rollout Router Replay(R3) | 训练推理精度偏差降低 50%(K3 KL 散度) |
| 异构弹性资源调度 | 空闲 CPU 跑代码沙箱和验证器 | 资源利用率提升,训练迭代时间降低 |
这套架构解决的核心问题是:长时间 RL 训练中的资源浪费和训练-推理偏差。 不是某个算法的改进,是基础设施层面的重构。
3. 四阶段后训练流水线(MOPD)
传统后训练是串行的:SFT → RL → 结束。百度设计了一个以「多教师在线蒸馏」为中心的四阶段流水线:
┌──────────────────────────────────────────────────────┐
│ │
│ Stage 1: 统一 SFT │
│ ┌─────────────────────────────────────────┐ │
│ │ 多领域指令数据微调 → 基础指令跟随能力 │ │
│ └──────────────────────┬──────────────────┘ │
│ ↓ │
│ Stage 2: 领域专家并行训练 │
│ ┌───────────┐ ┌───────────┐ ┌───────────┐ │
│ │ 代码专家 │ │ 推理专家 │ │ Agent 专家 │ ... │
│ │ (独立奖励) │ │ (独立奖励) │ │ (独立奖励) │ │
│ └─────┬─────┘ └─────┬─────┘ └─────┬─────┘ │
│ └──────────────┼──────────────┘ │
│ ↓ │
│ Stage 3: 在线蒸馏(OPD) │
│ ┌─────────────────────────────────────────┐ │
│ │ 统一 SFT 模型 = 学生 │ │
│ │ 多个领域专家 = 教师 │ │
│ │ 学生从自身策略分布采样,同时向多教师学习 │ │
│ │ → 把多专家能力压进一个模型 │ │
│ └──────────────────────┬──────────────────┘ │
│ ↓ │
│ Stage 4: 通用在线 RL │
│ ┌─────────────────────────────────────────┐ │
│ │ 专门处理高熵任务(开放对话、创意写作) │ │
│ │ 不用蒸馏,直接在线 RL │ │
│ │ → 保证生成多样性和人类偏好对齐 │ │
│ └─────────────────────────────────────────┘ │
│ │
└──────────────────────────────────────────────────────┘为什么这么做?因为串行训练有「跷跷板效应」——提升代码能力会牺牲推理能力,提升推理能力又会拖累对话质量。多教师蒸馏让每个专家独立训练、互不干扰,最后再融合。
这是工程思维,不是算法创新——但工程思维往往比算法创新更有杀伤力。
诚实说:短板在哪
看了一圈第三方评测和 benchmark 数据,三个明显的短板:
| 短板 | 具体表现 |
|---|---|
| 通用世界知识 | MMLU-Pro 上和顶尖闭源模型有可见差距。不挂搜索用的时候,知识厚度不如 GPT-5.1 和 Gemini 3.1 Pro |
| 深度多步搜索 Agent | 单轮搜索很强(Search Arena #4)。但多步规划-浏览-综合的深度研究工作流,还落后于 Claude Opus 4.6 和 Gemini 3.1 Pro |
| 实际编程 | 能生成看起来像样的代码,但维护长程序全局状态的能力,和前沿编程模型差距明显。Claude Code 式的工作流里,这是最关键的缺口 |
还有一个值得注意的点:SpreadsheetBench-Verified 上和 Claude Opus 4.6、Gemini 3.1 Pro 的差距不小。办公自动化场景下,端到端可靠执行的能力还需要补。
对比表:ERNIE 5.1 在什么位置
| 能力维度 | ERNIE 5.1 | DeepSeek V4 Pro | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| 数学(AIME26) | 99.6,#2 | #4 | #3 | #1 |
| 多轮工具调用(τ³) | #2 | #4 | #1 | #3 |
| 电子表格 | #3 | #4 | #1 | #2 |
| 研究生科学(GPQA) | #2 | #4 | #3 | #1 |
| 通用知识(MMLU-Pro) | #4 | #3 | #2 | #1 |
| 指令跟随(AdvanceIF) | #2 | #3 | #4 | #1 |
| 训练成本 | 约 6% | 未知 | 未知 | 未知 |
数据来源:Fello AI、ERNIE Blog
一个有趣的观察:ERNIE 5.1 在数学和工具调用上已经能跟全球顶尖模型掰手腕,但通用知识和长链编程还有差距。这是一个在特定维度上做到顶尖、但均衡性还需补课的模型。
几个判断
第一,6% 的成本数字,是这篇文章里最重要的信息。 大模型竞赛正在从「谁的参数最大」转向「谁的效率最高」。ERNIE 5.1 的弹性预训练框架证明了一件事:你不需要每次都从头训练一个大模型。 一次训练、多尺寸产出——这不是小优化,是训练范式的变化。对独立开发者和小团队来说,训练成本降低 94% 意味着更多可能性。
第二,Agent 能力正在成为新的主战场。 百度在这版发布中花了大量篇幅讲 Agent——解耦 RL 基础设施、τ³-bench 排名、agentic post-training。这不是偶然。2026 年的大模型竞争,对话能力已经是标配,真正的差异化在于模型能不能作为一个自主决策的 Agent 完成复杂任务。ERNIE 5.1 在 Agent 能力上超过 DeepSeek-V4-Pro,这个信号值得关注。
第三,工程创新 > 算法创新。 回头看 ERNIE 5.1 的三个核心技术创新——弹性预训练、解耦异步 RL、多教师蒸馏流水线——没有一个是全新的算法。每一个都是「把已有技术用更聪明的方式组合起来」。好的工程不是发明新技术,是把现有技术用到极致。Claude Code 51 万行代码用 grep 打败 RAG 也是同一个道理。
第四,百度在打一场「性价比」战争。 不是参数量战争,不是 benchmark 战争,是「我用 6% 的成本做出 90% 的性能」的战争。这个策略在商业上非常聪明——对价格敏感的企业客户、对成本敏感的独立开发者、对国产化有要求的政企场景,ERNIE 5.1 的定位非常精准。
第五,但差距是真实的,别被 headline 骗了。 6% 的成本很惊艳,Agent 能力超过 DeepSeek-V4-Pro 很亮眼。但在实际编程、深度多步推理、通用知识这些「真正决定日常使用体验」的维度上,和 Claude、Gemini 的差距仍然存在。选模型的时候,别只看 headline 数字,想清楚你用它来干什么。
试试看
ERNIE 5.1 已经上线:
- 官网体验:ernie.baidu.com
- 千帆模型广场:企业用户和开发者可通过百度千帆平台调用 API
- 飞桨 AI Studio:提供 Playground 环境,可直接上手测试
5 月 13-14 日,百度 AI 开发者大会(Create 2026)将在北京国家会议中心二期举行,届时会有更多技术细节和商业化规划披露。
ERNIE 5.1 不是一个让你惊呼「AI 又飞跃了」的模型。它是一个让你意识到「AI 的竞争规则变了」的模型。从比谁烧钱多,到比谁花得值——这个方向,对整个行业都是好消息。
