百度 ERNIE 5.1：用 6% 的训练成本，打了场什么仗

2026 年 5 月 9 日，百度发布文心大模型 ERNIE 5.1。参数压缩到前代的 1/3，训练成本降到同级别模型的 6%，Agent 能力超越 DeepSeek-V4-Pro。这不仅仅是一个「新模型发布」的故事——它指向的是大模型竞争的核心变量正在从「谁的参数最大」转向「谁的效率最高」。

一个数字抓住眼球：6%

6%。

ERNIE 5.1 的预训练计算成本，只有同级别模型的约 6%。不是降了 6%，是只剩 6%。

与此同时，它做到了：

维度	数据
总参数	压缩到 ERNIE 5.0 的约 1/3
激活参数	压缩到约 1/2
LMArena 搜索榜	全球第 4，中国第 1（1223 分）
LMArena 文本榜	全球第 13，中国第 1（1476 分）
Agent 能力	超越 DeepSeek-V4-Pro
数学推理（AIME26）	99.6 分，全球第二，仅次于 Gemini 3.1 Pro
创意写作	内部评测接近 Gemini 3.1 Pro

一句话：参数少了，成本降了，性能没掉。

这不是魔术——是工程。

怎么做到的：三个关键技术决策

1. 多维弹性预训练（Once-For-All）

传统做法是「不同规模的模型分别训练」——想做三个尺寸的模型，就得跑三次预训练。

百度的思路完全不同：一次训练，生成多种规模的模型。

他们在 ERNIE 5.0 阶段设计了一个弹性训练框架，在单次预训练中同时优化大量子模型。具体在三个维度上做弹性控制：

传统训练：                          ERNIE 5.0 弹性训练：
┌───────────────┐                 ┌─────────────────────────┐
│ 模型 A (大)    │ ← 独立训练      │                         │
└───────────────┘                 │  ┌─────┐ ┌─────┐       │
┌───────────────┐                 │  │子模型│ │子模型│ ...   │
│ 模型 B (中)    │ ← 独立训练      │  │ A   │ │ B   │       │
└───────────────┘                 │  └─────┘ └─────┘       │
┌───────────────┐                 │     ↑ 动态采样 ↑        │
│ 模型 C (小)    │ ← 独立训练      │  同一次预训练中联合优化    │
└───────────────┘                 └─────────────────────────┘
训练 3 次 = 3 倍成本               训练 1 次 = 1 倍成本

三个弹性维度：

弹性深度：训练时随机变化 Transformer 层数，深浅子模型共享权重
弹性宽度/专家容量：MoE 层中动态调整参与路由的专家数量
弹性稀疏度：通过可变 Top-k 路由机制，灵活调整激活专家数

ERNIE 5.1 就是从这个子模型矩阵中「挑」出来的最优子网络。它不需要重新预训练——直接继承 5.0 的知识，只花了 6% 的成本。

2. 解耦全异步强化学习

为了把大模型推向 Agent 方向，百度在飞桨（PaddlePaddle）上搭了一套全新的 RL 基础设施。

核心设计：以 RL Controller 为中心，把训练、推理、奖励、Agent 循环四个子系统完全解耦。

┌──────────────────────────────────────────────────┐
│              RL Controller（控制面）                │
│                                                   │
│  ┌──────┐  ┌──────┐  ┌──────┐  ┌──────────┐     │
│  │ 训练  │  │ 推理  │  │ 奖励  │  │ Agent 循环│     │
│  │      │  │      │  │      │  │          │     │
│  │独立部署│  │独立部署│  │独立部署│  │ 独立部署  │     │
│  │独立扩缩│  │独立扩缩│  │独立扩缩│  │ 独立扩缩  │     │
│  └──┬───┘  └──┬───┘  └──┬───┘  └────┬─────┘     │
│     │         │         │           │            │
│     └─────────┴─────────┴───────────┘            │
│           高性能网络数据组件（数据面）               │
└──────────────────────────────────────────────────┘

三个关键优化：

优化方向	具体做法	效果
解耦全异步	四大子系统独立部署、独立扩缩	推理-训练-奖励形成 Pipeline，完全重叠
FP8 训练推理一致性	统一 FP8 算子库 + Rollout Router Replay（R3）	训练推理精度偏差降低 50%（K3 KL 散度）
异构弹性资源调度	空闲 CPU 跑代码沙箱和验证器	资源利用率提升，训练迭代时间降低

这套架构解决的核心问题是：长时间 RL 训练中的资源浪费和训练-推理偏差。 不是某个算法的改进，是基础设施层面的重构。

3. 四阶段后训练流水线（MOPD）

传统后训练是串行的：SFT → RL → 结束。百度设计了一个以「多教师在线蒸馏」为中心的四阶段流水线：

┌──────────────────────────────────────────────────────┐
│                                                       │
│  Stage 1: 统一 SFT                                    │
│  ┌─────────────────────────────────────────┐          │
│  │ 多领域指令数据微调 → 基础指令跟随能力      │          │
│  └──────────────────────┬──────────────────┘          │
│                         ↓                             │
│  Stage 2: 领域专家并行训练                               │
│  ┌───────────┐  ┌───────────┐  ┌───────────┐         │
│  │ 代码专家   │  │ 推理专家   │  │ Agent 专家 │  ...    │
│  │ (独立奖励) │  │ (独立奖励) │  │ (独立奖励) │         │
│  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘         │
│        └──────────────┼──────────────┘                 │
│                       ↓                                │
│  Stage 3: 在线蒸馏（OPD）                               │
│  ┌─────────────────────────────────────────┐          │
│  │ 统一 SFT 模型 = 学生                     │          │
│  │ 多个领域专家 = 教师                       │          │
│  │ 学生从自身策略分布采样，同时向多教师学习     │          │
│  │ → 把多专家能力压进一个模型                  │          │
│  └──────────────────────┬──────────────────┘          │
│                         ↓                             │
│  Stage 4: 通用在线 RL                                  │
│  ┌─────────────────────────────────────────┐          │
│  │ 专门处理高熵任务（开放对话、创意写作）      │          │
│  │ 不用蒸馏，直接在线 RL                      │          │
│  │ → 保证生成多样性和人类偏好对齐              │          │
│  └─────────────────────────────────────────┘          │
│                                                       │
└──────────────────────────────────────────────────────┘

为什么这么做？因为串行训练有「跷跷板效应」——提升代码能力会牺牲推理能力，提升推理能力又会拖累对话质量。多教师蒸馏让每个专家独立训练、互不干扰，最后再融合。

这是工程思维，不是算法创新——但工程思维往往比算法创新更有杀伤力。

诚实说：短板在哪

看了一圈第三方评测和 benchmark 数据，三个明显的短板：

短板	具体表现
通用世界知识	MMLU-Pro 上和顶尖闭源模型有可见差距。不挂搜索用的时候，知识厚度不如 GPT-5.1 和 Gemini 3.1 Pro
深度多步搜索 Agent	单轮搜索很强（Search Arena #4）。但多步规划-浏览-综合的深度研究工作流，还落后于 Claude Opus 4.6 和 Gemini 3.1 Pro
实际编程	能生成看起来像样的代码，但维护长程序全局状态的能力，和前沿编程模型差距明显。Claude Code 式的工作流里，这是最关键的缺口

还有一个值得注意的点：SpreadsheetBench-Verified 上和 Claude Opus 4.6、Gemini 3.1 Pro 的差距不小。办公自动化场景下，端到端可靠执行的能力还需要补。

对比表：ERNIE 5.1 在什么位置

能力维度	ERNIE 5.1	DeepSeek V4 Pro	Claude Opus 4.6	Gemini 3.1 Pro
数学（AIME26）	99.6，#2	#4	#3	#1
多轮工具调用（τ³）	#2	#4	#1	#3
电子表格	#3	#4	#1	#2
研究生科学（GPQA）	#2	#4	#3	#1
通用知识（MMLU-Pro）	#4	#3	#2	#1
指令跟随（AdvanceIF）	#2	#3	#4	#1
训练成本	约 6%	未知	未知	未知

数据来源：Fello AI、ERNIE Blog

一个有趣的观察：ERNIE 5.1 在数学和工具调用上已经能跟全球顶尖模型掰手腕，但通用知识和长链编程还有差距。这是一个在特定维度上做到顶尖、但均衡性还需补课的模型。

几个判断

第一，6% 的成本数字，是这篇文章里最重要的信息。 大模型竞赛正在从「谁的参数最大」转向「谁的效率最高」。ERNIE 5.1 的弹性预训练框架证明了一件事：你不需要每次都从头训练一个大模型。 一次训练、多尺寸产出——这不是小优化，是训练范式的变化。对独立开发者和小团队来说，训练成本降低 94% 意味着更多可能性。

第二，Agent 能力正在成为新的主战场。 百度在这版发布中花了大量篇幅讲 Agent——解耦 RL 基础设施、τ³-bench 排名、agentic post-training。这不是偶然。2026 年的大模型竞争，对话能力已经是标配，真正的差异化在于模型能不能作为一个自主决策的 Agent 完成复杂任务。ERNIE 5.1 在 Agent 能力上超过 DeepSeek-V4-Pro，这个信号值得关注。

第三，工程创新 > 算法创新。 回头看 ERNIE 5.1 的三个核心技术创新——弹性预训练、解耦异步 RL、多教师蒸馏流水线——没有一个是全新的算法。每一个都是「把已有技术用更聪明的方式组合起来」。好的工程不是发明新技术，是把现有技术用到极致。Claude Code 51 万行代码用 grep 打败 RAG 也是同一个道理。

第四，百度在打一场「性价比」战争。 不是参数量战争，不是 benchmark 战争，是「我用 6% 的成本做出 90% 的性能」的战争。这个策略在商业上非常聪明——对价格敏感的企业客户、对成本敏感的独立开发者、对国产化有要求的政企场景，ERNIE 5.1 的定位非常精准。

第五，但差距是真实的，别被 headline 骗了。 6% 的成本很惊艳，Agent 能力超过 DeepSeek-V4-Pro 很亮眼。但在实际编程、深度多步推理、通用知识这些「真正决定日常使用体验」的维度上，和 Claude、Gemini 的差距仍然存在。选模型的时候，别只看 headline 数字，想清楚你用它来干什么。

试试看

ERNIE 5.1 已经上线：

官网体验：ernie.baidu.com
千帆模型广场：企业用户和开发者可通过百度千帆平台调用 API
飞桨 AI Studio：提供 Playground 环境，可直接上手测试

5 月 13-14 日，百度 AI 开发者大会（Create 2026）将在北京国家会议中心二期举行，届时会有更多技术细节和商业化规划披露。

ERNIE 5.1 不是一个让你惊呼「AI 又飞跃了」的模型。它是一个让你意识到「AI 的竞争规则变了」的模型。从比谁烧钱多，到比谁花得值——这个方向，对整个行业都是好消息。

百度 ERNIE 5.1：用 6% 的训练成本，打了场什么仗 ​

一个数字抓住眼球：6% ​

怎么做到的：三个关键技术决策 ​

1. 多维弹性预训练（Once-For-All） ​

2. 解耦全异步强化学习 ​

3. 四阶段后训练流水线（MOPD） ​

诚实说：短板在哪 ​

对比表：ERNIE 5.1 在什么位置 ​

几个判断 ​

试试看 ​