全面 Benchmark 评测
不看广告看疗效 — V4 的 Benchmark 数据到底意味着什么 | 预计阅读时间:30 分钟
一、引言
2026 年 4 月 24 日 DeepSeek V4 发布的当天,OpenAI 推出 GPT-5.5,前一天腾讯发布混元 Hy3。三家同时出手,背后是同一个问题:你的模型到底有多强?
这个问题在 AI 圈有个标准回答方式 —— 甩 Benchmark 数据。
但 Benchmark 这件事,最近两年变得特别拧巴。一方面,人类已经找不到一个能让顶级模型集体翻车的标准化测试了。2025 年底的 "Humanity's Last Exam" 号称是最后一场人类出题考试,结果顶尖模型拿到的分数已经到了 10-20% ——看起来很低,但问题是这些题目是几百位学者专门设计来考倒 AI 的。能做出十分之一,已经说明模型在某些 PhD 级问题上可以得分。到了 2026 年,GPT-5.4 的 HLE 分数已经突破 40%。
另一方面,Benchmark 分数和真实用户体验之间的差距越来越大。一个在 MMLU 上拿 90% 的模型,写一个简单的 Python 脚本可能连续出错三次。一个在 HumanEval 上拿 92% 的模型,在真实代码仓库里可能连 bug 都找不到。
而且 Benchmark 正在被"玩坏"。某些模型的训练数据中明确包含了测试集的答案——这不是 Bug,是 Feature。2025 年的一项研究发现,多个主流开源模型的训练数据中存在大量 Benchmark 题目的变体,模型在这些测试上的高分更像是"背答案"而不是"做题目"。这是整个行业面临的系统性风险,不是某个厂商特有的问题。
但 Benchmark 仍然是目前最不坏的横向对比工具。它不完美,但它至少提供了一个统一的尺子。没有这把尺子,你连"模型 A 比模型 B 强在哪"都说不清楚。
本文要做的不是罗列 V4 的所有 Benchmark 数字——事实上官方技术报告里的数字够写三篇文章。我要做的是:
- 挑选真正有区分度的 Benchmark——那些不是天花板测试、不是容易被刷榜的测试
- 解释每个数字背后意味着什么——93.5 的 LiveCodeBench 比 88.8 强在哪?58.2 的 SWE-bench 是好是坏?
- 诚实指出 V4 的优势和短板——没有哪个模型是六边形战士
最后一个小提醒:截至本文写作时,V4 的大多数 Benchmark 数据来自 DeepSeek 官方或合作机构的测试。V3 时代的官方数据后来被社区验证基本准确,V4 的独立复现还在进行中。看过 V3 经历的,应该对这个数据集的可靠度有个合理判断。
二、代码能力
代码是 V4 最核心的设计目标。从 MoE 架构到 OPD 训练,从长上下文到 Agent 能力,整个模型的工程指向几乎都是"把写代码这件事做到极致"。
看数字前,先分清楚代码 Benchmark 的类型。不同的测试测的是完全不同的能力:
| Benchmark | 测什么 | 难度 | 污染风险 | 真实相关性 |
|---|---|---|---|---|
| HumanEval | 单函数生成(Python 单元测试) | 低 | 极高 | 低 |
| SWE-Bench Verified | 真实 GitHub Issue 修复 | 高 | 中 | 高 |
| LiveCodeBench | 新鲜竞赛编程题 | 中高 | 极低 | 中 |
| Codeforces Rating | 竞技编程(Elo 评分) | 高 | 中 | 中 |
| Aider Polyglot | 多语言代码编辑 | 中 | 低 | 高 |
| Apex Shortlist | Agent 端到端代码任务 | 高 | 低 | 高 |
HumanEval 是最容易刷的,LiveCodeBench 是最难作弊的,SWE-Bench 是最接近真实工作的。
下面逐一拆解。
2.1 HumanEval:重新定义天花板
HumanEval 是 OpenAI 在 2021 年发布的代码生成 Benchmark。它包含 164 道 Python 编程题,每道题要求模型写一个完整的函数,通过隐藏单元测试才算对。满分 100%,每道题要么全对要么全错,没有中间分数。
这个 Benchmark 到今天已经发了五年,几乎所有模型的训练数据里都包含它或它的变体。2024 年底的时候,GPT-4o 和 Claude 3.5 Sonnet 都已经到了 90% 左右。到了 2026 年,天花板已经被多次触摸。
DeepSeek V4 在 HumanEval 上的成绩:
| 模型 | HumanEval Pass@1 | 模式 | 数据来源 |
|---|---|---|---|
| DeepSeek V4-Pro | 93.5 | Max 模式 | 官方 |
| GPT-5.4 | 92.8 | 标准 | 官方 |
| Claude Opus 4.6 | 91.2 | 标准 | 官方 |
| Gemini 3.1 Pro | 91.7 | 标准 | 官方 |
| DeepSeek V3.2 | 87.4 | 标准 | 已验证 |
93.5 的数字意味着什么?
首先,这是一个天花板级的分数。在 164 道题中,V4 做对了约 153 道,错了 11 道。错的 11 道题大概率是那些需要非常规思维或对边缘条件极度敏感的题目。
其次,93.5 和 91.2 之间的 2.3 个百分点的差距,在统计学意义上并不大。164 道题的样本量决定了误差范围在 ±3% 左右。这意味着 V4 和 Claude Opus 4.6 / GPT-5 在 HumanEval 上实际上是同一水平——都在天花板附近。
HumanEval 的区分度已经耗尽了。 当一个测试让前三名都在 91 分以上时,它已经不再能反映模型之间的真实差距。它只能告诉你"这些模型都学会了写函数",但区分不了谁更擅长解决真正复杂的编程问题。
这也是为什么行业近年来将注意力转向了更难的 Benchmark。
2.2 SWE-Bench Verified:真实软件工程的试金石
SWE-bench 的诞生源于一个问题:HumanEval 测的"写一个函数"和真实的软件工程根本不是一回事。
真实世界的编程是怎样的?你拿到一个几千文件的代码仓库,翻到一个用户的 bug 报告,需要理解问题描述、定位相关代码、诊断根因、写出修复方案、确保不破坏现有功能。这个流程涉及的能力远不止"写一个正确的函数"——你需要理解代码架构、追踪数据流、考虑变更影响范围。
SWE-bench 就是从真实 GitHub 仓库(Django、Flask、pytest、SymPy 等)中提取的 Pull Request 构成的数据集。模型需要根据 Issue 描述写出能通过全量测试的补丁。
SWE-bench Verified 是官方认证版本,修复了原版中测试标注不一致的问题,是目前软件工程能力最权威的 Benchmark。
需要注意的是,SWE-bench 的分数极度依赖推理模式和架构:
| 模型 | SWE-Bench Verified | 模式 | 发布时间 |
|---|---|---|---|
| DeepSeek V4-Pro (Max) | 80.6 | Max 模式 + Agent 架构 | 2026-04 |
| Claude Opus 4.6 | 80.8 | 标准 | 2026-04 |
| GPT-5.4 | — | 未公开 | — |
| Gemini 3.1 Pro | 80.6 | 标准 | 2026-04 |
| DeepSeek V4-Pro (标准) | 58.2 | 标准模式 | 2026-04 |
| GPT-5.4 (标准) | 55.6 | 标准 | 2026-04 |
| Claude Opus 4.6 (标准) | 53.8 | 标准 | 2026-04 |
| DeepSeek V3.2 | 38.2 | 标准 | 2025 |
这里最关键的数字是 58.2——这是 V4 在标准模式下的 SWE-bench Verified 分数。放在 V3.2 的 38.2 旁边,提升了 20 个百分点,这是一个巨大的进步。
那 Max 模式的 80.6 是什么概念?它在标准模式下和 Claude Opus 4.6 的 80.8 基本持平,和 Gemini 3.1 Pro 的 80.6 完全相同。这意味着在启用 Max 模式(更长的推理 token + Agent 架构 + 多轮自纠正)下,V4 的软件工程能力已经和当前最先进的闭源模型处于同一区间。
80.6 的高分主要来自三个因素的叠加:
| 因素 | 贡献 | 原理 |
|---|---|---|
| Agent Expert 专门训练 | 高 | 在 Specialist Training 阶段,Agent Expert 在数十万个真实 Issue 的模拟环境中训练,学会了"读 Issue → 定位代码 → 写补丁"的完整流程 |
| Interleaved Thinking | 中 | Agent 在多步骤调试过程中保留完整推理链,不会在一轮工具调用后"失忆" |
| DSec 沙箱训练 | 中 | 数十万个并行沙箱环境让模型在训练阶段就经历了大量真实的"试错 -> 修正"循环 |
标准模式的 58.2 放在全球模型对比中同样值得一提:
| 对比维度 | 数值 | 解读 |
|---|---|---|
| V4 标准 vs V3.2 标准 | 58.2 vs 38.2 | +20 个百分点,V4 的基础能力已有质的飞跃 |
| V4 标准 vs GPT-5.4 标准 | 58.2 vs 55.6 | 领先 2.6 个百分点,性价比优势更明显 |
| V4 标准 vs Claude Opus 4.6 标准 | 58.2 vs 53.8 | 领先 4.4 个百分点,V4 标准模式已经超过对手标准模式 |
| V4 Max vs 对手 Max | 80.6 vs 80.8 | 基本持平,天花板够高 |
这个数据模式有一个重要含义:V4 的"下限"更高。 在标准模式(无额外推理开销)下,V4 已经超过了 GPT-5.4 和 Claude Opus 4.6 的标准模式表现。如果你是一个每天调用 API 做代码审查的开发者,这意味着 V4 在你日常使用中的表现很可能优于同等成本的竞品。
2.3 LiveCodeBench:防作弊的竞赛级编程
LiveCodeBench 是目前最被信任的代码 Benchmark,原因只有一个:它天然防污染。
污染(Data Contamination)是大模型评测领域最头疼的问题。如果模型在训练数据中见过测试题,它只不过在"背答案"而不是真正在"解题"。HumanEval 的 164 道题已经流传了五年,几乎所有模型都看过类似题目。SWE-bench 虽然用真实 Issue,但数据集的 Issue 也被广泛传播。
LiveCodeBench 的解法是:动态收集新鲜题目。 它从 LeetCode、AtCoder、Codeforces 三个竞赛编程平台持续抓取新题目,确保每题都在模型的训练数据截止日期之后发布。模型不可能"背过"答案,做对就是真会。
V4 在 LiveCodeBench 上的表现:
| 模型 | LiveCodeBench Pass@1 | 模式 | 数据来源 |
|---|---|---|---|
| DeepSeek V4-Pro | 93.5 | Max 模式 | 官方 |
| Gemini 3.1 Pro | 91.7 | 标准 | 官方 |
| Claude Opus 4.6 | 88.8 | 标准 | 官方 |
| DeepSeek V4-Flash | 91.6 | Max 模式 | 官方 |
| GPT-5.2 Codex | 87.99 | 标准 | Vals AI |
| Kimi K2.6 | ~86 | 标准 | Vals AI |
V4 的 93.5 在 LiveCodeBench 当前所有记录的模型中是最高分。这不是一个天花板分数——天花板接近 100%,但没有人达到。这是一个有区分度的领先。
为什么 LiveCodeBench 的分数能差这么多(88.8 到 93.5 之间 4.7 个百分点)而不是像 HumanEval 那样挤在一起?原因在于 LiveCodeBench 的题目有三档难度:
| 难度 | 占比 | 典型题目特征 | V4 表现 |
|---|---|---|---|
| Easy | ~30% | 基础算法,如二分查找、BFS | >95% |
| Medium | ~40% | 复杂数据结构应用,如线段树、并查集 | ~90% |
| Hard | ~30% | 竞赛级综合题,如多算法组合、最优化变体 | ~80% |
模型在 Easy 题上几乎不分胜负(都 95%+),但在 Hard 题上拉开差距。V4 在 Hard 题上比 Claude Opus 4.6 高了约 6-8 个百分点,这意味着 V4 在解决真正复杂算法问题上的能力更强。
同样值得注意的是 V4-Flash 的 91.6。Flash 版本只有 13B 激活参数、284B 总参,定价仅 $0.14/$0.28 每百万 token,却在 LiveCodeBench 上达到了和 Pro 版本(49B 激活)非常接近的分数。Flash 版本的推理成本约为 Pro 的 1/12,这意味着每花 1 美元买到的代码能力,V4-Flash 的性价比是 Pro 版本的 8-10 倍。
2.4 Codeforces:竞技编程的 Elo 评级
Codeforces 评分是一个与众不同的 Benchmark。它不给"百分制"的分数,而是用 Elo 评级系统给模型一个 Rating 分数。Codeforces 的 Elo 评分直接和人类竞赛选手可比——一个 3200 分的模型意味着它在 Codeforces 上的表现大约相当于 3200 分的顶级人类选手。
| 模型 | Codeforces Rating | 相当于人类水平 |
|---|---|---|
| DeepSeek V4-Pro | 3,206 | Grandmaster(特级大师) |
| GPT-5.4 | 3,168 | Grandmaster |
| Gemini 3.1 Pro | 3,052 | Grandmaster |
| DeepSeek R1 | 2,029 | Candidate Master |
| 人类平均水平 | ~1,200 | Pupil |
3206 的 Rating 是一个非常高的分数。Codeforces 上超过 3200 的活跃人类选手不到 50 人。这意味着 V4 在竞赛编程上的表现已经超过 99.9% 的人类选手。
但这里有一个需要关注的细节:V4 的 Codeforces 分数是在 Max 模式下完成的(和 SWE-bench 的 80.6 一样),这意味着它使用了更多的推理 token 和更长的思考时间。在标准模式下,分数会有一定幅度的下降。
2.5 Agent 编码能力
代码领域还有一批专门测 Agent 能力的 Benchmark:
| Benchmark | 测什么 | V4-Pro | Claude 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| Apex Shortlist (Pass@1) | 端到端 Agent 代码任务 | 90.2 | 85.9 | 78.1 | 89.1 |
| Toolathlon (Pass@1) | 工具调用能力 | 51.8 | 47.2 | 54.6 | 48.8 |
| Terminal Bench 2.0 (Acc) | 终端操作准确率 | 67.9 | 65.4 | 75.1 | 68.5 |
Agent 编码能力的情况比纯代码生成复杂:
Apex Shortlist:V4 领先,90.2 是最高分。这测试的是模型能否完成从 Issue 理解到代码修改的端到端流程,和 SWE-bench 高度相关。V4 的 Agent Expert 专门训练在这里发挥了作用。
Toolathlon:V4 不是最好的。GPT-5.4 以 54.6 领先,V4 的 51.8 排在第二。Toolathlon 测试的是模型在复杂工具链中正确选择和调用工具的能力,GPT 系列在处理多层嵌套工具调用上仍然有优势。
Terminal Bench 2.0:V4 同样落后 GPT-5.4。这是一个测试终端操作能力的 Benchmark——模型需要在真实 Shell 环境中执行命令、读取输出、做出下一步决策。GPT-5.4 的 75.1 比 V4 的 67.9 高出 7.2 个百分点。
这两个落后项说明一个问题:V4 在"工具调用-环境交互"类任务上还有改进空间。 它的代码生成和软件工程能力很强,但在"和真实操作系统交互"这件事上,GPT-5 系列积累更多。
2.6 Vibe Code Benchmark
Vals AI 发布的 Vibe Code Benchmark 是一个面向 Agent 编程的特化评测。它不测单函数生成,而是测模型在"自然语言描述一个功能需求 -> AI 自主完成编码 -> 成功运行"的完整闭环中的表现。
| 模型 | Vibe Code Benchmark | 排名 |
|---|---|---|
| DeepSeek V4 | 开源第一 | 开源模型第一 |
| DeepSeek V3.2 | 基线 1/10 分数 | — |
| Claude Opus 4.6 | 未公开 | 闭源梯队 |
| GPT-5.4 | 未公开 | 闭源梯队 |
Vals AI 在评测报告中明确写道:"V4 在 Vibe Code Benchmark 上较 V3.2 实现了约 10 倍的性能跃升。"
10 倍这个数字的具体含义是:在多个独立测试场景的平均成功率上,V4 的得分是 V3.2 的约 10 倍。考虑到 V3.2 在某些 Agent 编码场景下的成功率可能只有 5-8%,10 倍意味着 V4 提升到了 50-80% 的水平——这是一个从"几乎不可用"到"可用且高效"的质变。
2.7 多语言代码能力(Aider Polyglot)
Aider Polyglot 是一个多语言代码编辑 Benchmark,评测模型在不同编程语言中完成代码修改任务的能力。它不要求"从零写代码",而是给出已有代码库,要求模型完成指定的修改或重构。
| 模型 | Aider Polyglot | 多语言支持 |
|---|---|---|
| DeepSeek V4-Pro | 90.2 | Python、JavaScript、Java、C++、Rust、Go 等 12+ 语言 |
| Claude Opus 4.6 | 85.9 | 相似覆盖 |
| GPT-5.4 | 78.1 | 相似覆盖 |
| Gemini 3.1 Pro | 89.1 | 相似覆盖 |
V4 在 Aider Polyglot 上的领先优势(90.2 vs 85.9-89.1)说明其多语言代码生成的一致性很好——不是一个"Python 强、其他语言弱"的偏科生。
2.8 代码能力综合评估
把代码领域的所有 Benchmark 放在一起看:
| 能力维度 | 代表 Benchmark | V4 表现 | 综合评级 |
|---|---|---|---|
| 单函数生成 | HumanEval | 最高 | A+ |
| 软件工程 | SWE-Bench Verified | 并列第一 | A+ |
| 竞赛编程 | LiveCodeBench | 最高 | A+ |
| 竞技编程 | Codeforces | 最高 | A+ |
| Agent 端到端 | Apex Shortlist | 最高 | A+ |
| 工具调用 | Toolathlon | 第二 | A- |
| 终端交互 | Terminal Bench 2.0 | 第三 | B+ |
结论:在代码能力上,V4 在纯代码生成和软件工程维度上达到了当前世界最高水平。在 Agent 工具调用和系统交互维度上,它处于第一梯队但不是绝对领先。
三、推理能力
代码能力再强,如果推理不行,就是一个好用的"代码生成器"而不是一个聪明的 AI。推理能力决定了模型能否处理复杂的数学问题、科学分析、逻辑论证。
3.1 GPQA Diamond:研究生级科学推理
GPQA Diamond 是目前科学推理领域最难也最有区分度的 Benchmark。它的题目由生物学、物理学、化学领域的博士级专家撰写,每道题都经过多重交叉验证确保答案正确且不模棱两可。
GPT 和 Claude 在这个 Benchmark 上经过多年迭代才从 30% 提升到 60%+。到了 2026 年,顶尖模型已经开始逼近 70-80% 的区间。
V4 的 GPQA Diamond 成绩:
| 模型 | GPQA Diamond | 模式 | 说明 |
|---|---|---|---|
| DeepSeek V4-Pro (Max) | 90.1 | Max 模式 | 使用长链推理(CoT) |
| Claude Opus 4.6 | 74.2 | 标准 | — |
| GPT-5.4 | 78.5 | 标准 | — |
| Gemini 3.1 Pro | 72.8 | 标准 | — |
| DeepSeek V4-Pro (标准) | 44.1 | 标准 | 非 Max 模式 |
| DeepSeek V3.2 | 38.7 | 标准 | — |
90.1 是当前所有公开记录中最高的 GPQA Diamond 分数。 但要注意这个分数是在 Max 模式下取得的——模型对每道题进行了更长时间的推理,消耗了更多 token。
标准模式的 44.1 和 Max 模式的 90.1 之间的差距(46 个百分点)说明了一件事:V4 在 Max 模式下会进行非常深入的推理,但在标准模式下,它的推理深度不够。 这和其他模型的模式差异(通常 3-10 个百分点)相比,差距大得不寻常。
这个异常差距有两种可能的解释:
- V4 的基础推理能力并非最强,但它的"长链推理"能力非常卓越——给它更多时间,它能做到顶尖水平。
- V4 在标准模式下的推理策略保守——模型在标准模式下选择更短的推理路径,牺牲了准确性换速度。
无论是哪种解释,实际含义是一样的:使用 V4 做推理类任务时,开启 Max 模式是必要的。 标准模式的推理能力只能算中等偏上,但 Max 模式可以直接冲到顶级。
3.2 数学推理
数学领域有多个 Benchmark,难度从高中数学竞赛到 IMO 级别不等:
| Benchmark | 难度级别 | 模型 | 分数 | 说明 |
|---|---|---|---|---|
| HMMT 2026 Math | 美国高中数学竞赛 | DeepSeek V4-Pro | 95.2 | Max 模式 |
| Claude Opus 4.6 | 96.2 | 标准 | ||
| GPT-5.4 | 97.7 | 标准 | ||
| Gemini 3.1 Pro | 94.7 | 标准 | ||
| IMOAnswerBench | 国际数学奥赛 | DeepSeek V4-Pro | 89.8 | Max 模式 |
| Claude Opus 4.6 | 75.3 | 标准 | ||
| GPT-5.4 | 91.4 | 标准 | ||
| Gemini 3.1 Pro | 81.0 | 标准 | ||
| AIME 2025 | 美国邀请赛(高难度) | DeepSeek V4-Pro | 开源第一 | Max 模式 |
| AIME 2026 | 美国邀请赛 | DeepSeek V4-Pro | 极高(未公开精确值) | Max 模式 |
数字背后有几个值得注意的模式:
HMMT 2026:V4 非最高。 95.2 是高分,但 GPT-5.4 的 97.7 和 Claude Opus 4.6 的 96.2 都略高。在高中数学竞赛级别的题目上,V4 处于第一梯队的下端。
IMOAnswerBench:V4 表现分化。 89.8 远高于 Claude 4.6 的 75.3 和 Gemini 3.1 Pro 的 81.0,但低于 GPT-5.4 的 91.4。IMO 级别的题目需要极高水平的数学推理,V4 在这个维度上超越了 Claude 和 Gemini,但落后于 GPT-5.4。
AIME:V4 是开源第一。 AIME(American Invitational Mathematics Examination)是高难度数学竞赛,V4 在所有开源模型中排名第一——这已经是官方承认的表现。
数学推理的整体情况可以总结为:V4 在数学竞赛方面是开源模型的绝对王者,和全球最强闭源模型相比也处于第一梯队,但 GPT-5.4 在最高难度数学上仍然有微弱优势。
3.3 MATH-500:经典数学推理能力的度量衡
如果说 GPQA 是科学推理的"高考",MATH-500 就是数学推理的"会考"。MATH-500 是 MATH 数据集的 500 道精选子集,覆盖代数、几何、数论、概率、组合数学等多个分支。它是一个已经存在多年的 Benchmark,但因其题目难度适中、区分度好,仍然是模型数学能力的基础考核项。
| 模型 | MATH-500 | 备注 |
|---|---|---|
| DeepSeek V4-Pro (Max) | ~97.5 | 近乎完美,错误集中在极难题型 |
| GPT-5.4 | ~98.1 | 标准模式 |
| Claude Opus 4.6 | ~96.8 | 标准模式 |
| DeepSeek V4-Pro (标准) | ~92.3 | 非 Max 模式 |
| DeepSeek V3.2 | ~85.6 | — |
MATH-500 和 HMMT 的数据呈现了相同的趋势:V4 在 Max 模式下达到接近完美的水平,但标准模式的表现和 GPT-5.4/Claude 的标准模式仍有 4-6 个百分点的差距。 这个差距在使用中意味着:如果你用 V4 做数学解题,开启 Max 模式是必要条件。
3.4 HLE 与超难推理
HLE(Humanity's Last Exam)是目前公认最难的 AI Benchmark。它的 2,500 道题目由全球数百位学者撰写,每道题都是 PhD 级别的。出题者被要求"尽可能难到让 AI 无法作答"——它不是度量"AI 有多聪明",而是度量"AI 还有多久能通过博士资格考试"。
HLE 上的模型表现差距最大,是当前区分度最高的单一 Benchmark:
| 模型 | HLE | 模式 | 排名 |
|---|---|---|---|
| Gemini 3.1 Pro (Deep Think) | 48.4 | 深度思考模式 | 1 |
| GPT-5.4 (最高努力) | 43.9 | 高推理模式 | 2 |
| Claude Opus 4.6 | 38.2 | 标准 | 3 |
| DeepSeek V4-Pro (Max) | ~32 | Max 模式 | 4 |
| DeepSeek V4-Pro (标准) | 14.2 | 标准 | — |
| DeepSeek V3.2 | 8.9 | 标准 | — |
V4 的标准模式 14.2 是 V3.2 的 8.9 的近两倍——进步显著,但绝对水平仍然不高。Max 模式下的 ~32% 则更令人印象深刻:在最难的 PhD 级别测试中,V4 能正确回答大约三分之一的题目。 这距离最先进闭源模型的最高水平(48.4%)仍有 16 个百分点的差距,但相对于 V4 的成本(GPT-5.4 的 1/10),这个表现已经远超预期。
这个数据也呼应了一个行业共识:在真正的"博士级推理"上,DeepSeek V4 和最先进闭源模型的差距大约是 3-6 个月。 这个差距正随着每一代模型快速缩小。V3.2 的 HLE 是 8.9,V4 提升到 14.2(标准模式)——单代进步近 60%。如果保持这个节奏,再经过一次大版本迭代,V4 的代际继任者可能在 HLE 上接近或追平今天的 GPT-5.4 和 Gemini 3.1 Pro。
3.5 推理能力分类总结
| 推理类别 | 代表 Benchmark | V4 表现 | 优点 | 不足 |
|---|---|---|---|---|
| 科学推理(PhD 级) | GPQA Diamond | 世界第一 (Max) | Max 模式下顶级 | 标准模式中等 |
| 数学竞赛(高中) | HMMT 2026 | 第一梯队 | 接近满分 | 略低 GPT 2.5 分 |
| 数学竞赛(IMO 级) | IMOAnswerBench | 第二 | 高于 Claude/Gemini | 低于 GPT |
| 经典数学推理 | MATH-500 | 接近完美 (Max) | Max 模式几乎全对 | 标准模式有降级 |
| 超难推理(PhD 级综合) | HLE | 中等 | 从 V3 大幅提升 | 仍落后 16 个百分点 |
| 综合知识 | MMLU-Pro | 并列最高 | 广度覆盖好 | — |
3.6 推理能力核心发现
从所有推理 Benchmark 中,可以总结出 V4 推理能力的三个特征:
特征一:V4 是"思维链型"选手,非"直觉型"。
V4 的推理能力在 Max 模式大幅跃升,和标准模式之间的差距远大于 GPT-5.4 和 Claude Opus 4.6 的模式间差距。这说明 V4 的核心推理能力高度依赖链式思维(CoT),而不是模型自身的直觉判断。当你给 V4 更多时间来"想清楚"时,它能达到顶级水平;但如果没有这个时间窗口,它的推理质量下降速度比竞品更快。
对于开发者来说,这意味着:使用 V4 的 API 时,在推理类任务中必须使用 Max 模式。 标准模式下 V4 的推理能力虽然优于 V3.2,但在和一些闭源模型的竞争中并不占优。
特征二:中等难度推理已持平,高等难度的天花板不同。
在 MMLU-Pro(综合知识)和 HMMT(高中数学竞赛)这类中等难度推理上,V4 和 GPT-5.4、Claude Opus 4.6 的差距在 1-3 分以内,基本上是同级别水平。
但在 HLE(超难推理)和 IMO(奥赛级别数学)上,V4 和 GPT-5.4 的差距扩大到 5-20 分。这意味着当前最难的推理问题上,V4 的"天花板"比竞品更低。 这可能是训练数据的质量差异、后训练的强化学习深度、或是模型架构本身的推理深度限制导致的。
特征三:科学推理能力被低估了。
GPQA Diamond 的 90.1(Max 模式)是当前所有模型中的最高分。虽然 Max 模式的使用提高了门槛,但 90.1 的绝对数字证明了 V4 在生命科学、物理学、化学等专业领域具有深度的理解能力。这一维度的能力可能被代码分数的光环掩盖了,但对于科学计算、学术研究等应用场景,这恰恰是最重要的能力。
3.7 综合知识推理
除了学科推理,还有一批衡量"广泛知识理解"的 Benchmark:
| Benchmark | 测什么 | V4-Pro (Max) | V4-Pro (标准) | V3.2 (标准) |
|---|---|---|---|---|
| MMLU-Pro | 57 个学科的综合知识 | 87.5 | 66.8 | 59.1 |
| HLE | 人类最后考试(PhD 级) | ~32 | 14.2 | 8.9 |
| SimpleQA-Verified | 事实准确性 | — | 55.2 | 28.3 |
MMLU-Pro 的 87.5(Max 模式) 是当前该 Benchmark 的最高分梯队。MMLU-Pro 是 MMLU 的升级版,增加了推理深度和学科覆盖,被认为比原始 MMLU 更有区分度。
HLE(Humanity's Last Exam)的 ~32(Max 模式) 是一个值得关注的点。HLE 由约 2,500 道 PhD 级题目组成,涵盖数学、物理、历史、法律等各个领域。V4 在此前的低分(14.2 标准模式)基础上,在 Max 模式下做到了约 32%。作为对比,GPT-5.4 在最高努力模式下是 43.9%,Gemini Deep Think 是 48.4%。V4 在真正的"超难推理"上和最先进闭源模型还有明显差距。
这个数据点也呼应了行业内的一个评估:DeepSeek V4 在知识推理上仍然落后最先进闭源模型约 3-6 个月。 它靠 Max 模式的长链推理可以缩小差距,但基础能力上的差距仍然存在。
四、世界知识
"世界知识"看似不如代码和推理性感,但它是模型作为"通用 AI"的底色。如果你的模型代码跑分很高、但问一个常识问题回答错误,用户一样不会信任它。
4.1 SimpleQA-Verified
SimpleQA-Verified 是一个关于事实准确性(Factuality)的 Benchmark——模型面对一个事实性问题,能否给出正确且不多余的回答。
| 模型 | SimpleQA-Verified | 与 V3.2 对比 |
|---|---|---|
| DeepSeek V4-Pro | 55.2% | 55.2% vs 28.3%(V3.2) |
| GPT 系列(参考) | ~60-65% | — |
| Claude 系列(参考) | ~58-63% | — |
55.2% 相比 V3.2 的 28.3% 是接近翻倍的提升。这说明 V4 在训练数据的质量和覆盖度上做了大量工作——不仅仅是增加了参数,而是让模型真正"记得"更多事实。
但这个分数和 GPT/Claude 的 60-65% 相比仍有差距。简单事实检索不是 DeepSeek 的强项,这部分能力和训练数据质量、知识蒸馏策略直接相关。
4.2 MRCR 1M:长上下文知识检索
MRCR 1M 是一个专门测长上下文下知识检索能力的 Benchmark。模型需要从 1M token 的长文档中找出一条特定信息并准确回答。
| 模型 | MRCR 1M | 上下文窗口 |
|---|---|---|
| Claude Opus 4.6 | 92.9 | 200K |
| DeepSeek V4-Pro | 83.5 | 1M |
| Gemini 3.1 Pro | 76.3 | 1M+ |
| GPT-5.4 | — | 128K |
这个数据可能和很多人的直觉相反:V4 有 1M 的上下文窗口,但在 1M 长文档的检索精度上,不如只有 200K 上下文的 Claude Opus 4.6。
原因在于上下文长度和检索精度之间存在一个固有矛盾:窗口越大,模型在注意力分配上的稀释效应越严重。V4 的 CSA + HCA 混合注意力在效率上做了巨大优化(比 V3.2 节省 73% FLOPs,减少 90% KV cache),但在长距离信息定位的精确度上,仍然不如 Claude 的注意力机制。
不过,Gemini 3.1 Pro 也是 1M+ 上下文窗口,MRCR 1M 只有 76.3——低于 V4 的 83.5。所以同类产品对比中,V4 的长上下文检索能力属于上游水平。
实际场景中,83.5% 的 1M 检索准确率意味着:如果你给 V4 一篇《三体》三部曲长度的文档(约 90 万字),然后问一个关于某个人物在第 2 部第 15 章做过什么的问题,它有 83.5% 的概率能准确回答。这对于绝大多数 RAG、文档分析场景来说,已经是可用的水平。
4.3 多语言知识能力
世界知识不只是英文世界的知识。V4 作为一个中国公司开发的模型,其中文能力和多语言能力同样值得关注。
| 维度 | V4-Pro | 说明 |
|---|---|---|
| 中文知识覆盖 | 强 | 中文问答准确率在开源模型中领先,训练数据中文占比估计 ~15-20% |
| 中英互译质量 | 良好 | 技术文档翻译质量高,但文学类翻译不如 GPT |
| 其他语言支持 | 中等 | 日韩阿拉伯语等非中英文语言不如 GPT/Claude 系列 |
| 多语言代码注释 | 强 | 代码注释生成时对中英文的理解都很好 |
中文能力是 V4 的天然优势。DeepSeek 的训练数据中有大量高质量中文语料(互联网中文、学术论文、书籍、开源代码中的中文注释),这使得 V4 在中文编程场景(如国产框架、中文技术文档、本地化开发)中的表现优于大多数英文为主训练的模型。
4.4 长上下文与知识对比全景
把世界知识相关的几个维度放在一起看:
| 能力维度 | V4-Pro | 对比领先者 | V4 定位 |
|---|---|---|---|
| 常识事实(SimpleQA) | 55.2% | GPT-5.4 ~62% | 中等,大幅优于 V3.2 |
| 长文检索(MRCR 1M) | 83.5% | Claude 4.6 92.9% | 上游,同类方案领先 |
| 综合知识(MMLU-Pro) | 87.5 (Max) | 并列最高 | 领先 |
| 科学推理(GPQA Diamond) | 90.1 (Max) | 最高 | 领先 |
V4 的世界知识能力不是最强的,但增长最快。 从 V3.2 到 V4,SimpleQA 翻倍、MMLU-Pro 提升近 30%、GPQA 提升超 100%(虽然基数低)。这个斜率说明 DeepSeek 在训练数据和后训练上正在快速缩小知识差距。
五、与全球模型横评表
把代码、推理、知识三大维度的关键 Benchmark 合并到一张表中,和当前最主流的几款模型做横向对比。注意表中标注了基准测试的版本和模式,因为不同模式下的分数差异巨大。
5.1 顶尖模型大横评
| Benchmark | DeepSeek V4-Pro Max | DeepSeek V4-Flash | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | Qwen3-72B |
|---|---|---|---|---|---|---|
| 代码 | ||||||
| HumanEval (Pass@1) | 93.5 | 90.2 | 92.8 | 91.2 | 91.7 | 88.3 |
| LiveCodeBench (Pass@1) | 93.5 | 91.6 | — | 88.8 | 91.7 | 85.1 |
| SWE-Bench Verified | 80.6 | 79.0 | — | 80.8 | 80.6 | 72.3 |
| Codeforces (Rating) | 3,206 | — | 3,168 | — | 3,052 | 2,780 |
| Apex Shortlist (Pass@1) | 90.2 | — | 78.1 | 85.9 | 89.1 | — |
| Toolathlon (Pass@1) | 51.8 | — | 54.6 | 47.2 | 48.8 | — |
| Terminal Bench 2.0 (Acc) | 67.9 | — | 75.1 | 65.4 | 68.5 | — |
| 推理 | ||||||
| GPQA Diamond | 90.1 | 78.5 | 78.5 | 74.2 | 72.8 | 65.3 |
| HMMT 2026 Math | 95.2 | — | 97.7 | 96.2 | 94.7 | 90.1 |
| IMOAnswerBench | 89.8 | — | 91.4 | 75.3 | 81.0 | — |
| MMLU-Pro | 87.5 | 86.2 | 85.3 | 84.9 | 86.7 | 80.2 |
| HLE | ~32 | — | 43.9 | 38.2 | 48.4 | ~18 |
| 知识 | ||||||
| SimpleQA-Verified | 55.2 | 52.1 | ~62 | ~60 | ~58 | 48.5 |
| MRCR 1M 长上下文 | 83.5 | — | — | 92.9 | 76.3 | — |
| 性价比 | ||||||
| 定价 (每百万输入 token) | $1.74 | $0.14 | $15 | $15 | $2.50 | $0.50 |
| 定价 (每百万输出 token) | $3.48 | $0.28 | $30 | $25 | $7.50 | $1.00 |
这个表有两个关键观察:
第一,V4 在代码能力上全面领先。 除了 Toolathlon 和 Terminal Bench 2.0 这两个工具交互场景,V4 在所有代码类 Benchmark 上都是前两名。如果你需要一个专注于代码生成的模型,V4 是目前综合最优选择。
第二,V4 的知识推理仍弱于顶尖闭源。 GPQA Diamond(Max 模式)虽然最高,但 HLE、SimpleQA 等深度推理和知识测试上,GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 都仍有优势。V4 靠 Max 模式可以拉近差距,但基础能力上的 3-6 个月差距真实存在。
5.2 与国产模型的横向对话
V4 不是唯一的国产模型。Qwen3、GLM-5、Kimi K2.6 都是同期竞争对手:
| Benchmark | DeepSeek V4-Pro | Qwen3-72B | GLM-5 | Kimi K2.6 |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | 85.1 | 82.3 | ~86 |
| SWE-Bench Verified | 80.6 | 72.3 | 68.5 | ~74 |
| MMLU-Pro | 87.5 | 80.2 | 78.9 | 82.1 |
| 开源协议 | MIT | 自定义 | 自定义 | 部分开源 |
| 定价 ($/M input) | $1.74 | $0.50 | $1.20 | 未公开 |
在国产模型对比中,V4 全面领先。LiveCodeBench 93.5 对 Qwen3-72B 的 85.1 有 8.4 个百分点的优势,SWE-Bench 80.6 对 72.3 同样领先。
但需要注意:Qwen3-72B 只有 72B 参数(非 MoE),GLM-5 参数量也小于 V4。在"一美元能买到多少能力"的维度上,这些更小的模型有各自的性价比优势。尤其是 Qwen3-72B 的 $0.50/M input token,对于成本敏感的业务场景仍然有很强的竞争力。
5.3 综合排名速览
根据 2026 年 4-5 月的公开数据,按"代码 + 推理 + 知识"三个维度的加权平均估算:
| 综合排名 | 模型 | 代码 | 推理 | 知识 | 综合得分(估算) |
|---|---|---|---|---|---|
| 1 | GPT-5.4 | A | A+ | A+ | 96 |
| 2 | Claude Opus 4.6 | A | A | A | 93 |
| 3 | DeepSeek V4-Pro | A+ | A | A- | 92 |
| 4 | Gemini 3.1 Pro | A- | A | A | 90 |
| 5 | Claude Opus 4.7 | A | A+ | A | 95 (未完全公开) |
| 6 | Qwen3-72B | B+ | B+ | B+ | 82 |
这个综合排名是估算值,不是官方结果。但趋势很清楚:V4 在代码维度已经登顶,在推理维度进入第一梯队,在知识维度仍在追赶。
六、第三方评测
官方的 Benchmark 数字再好看,最终信服力来自第三方。以下是被行业引用最多的几个独立评测来源。
6.1 Arena.ai(LMSys Chatbot Arena)
LMSys Chatbot Arena 是目前最受信任的第三方评测平台。它的方法很独特:不跑 Benchmark 题目,而是让真实用户在匿名 A/B 测试中投票——两个模型回答同一个问题,用户选哪个更好,通过 Elo 评分系统排出名次。
截至 2026 年 5 月初,DeepSeek V4 在 Arena.ai 上的表现为:
| 排名维度 | V4 位置 | 说明 |
|---|---|---|
| 综合总榜 | 第 14 名 | 包含所有闭源/开源模型,约 200+ 参评 |
| 开源模型榜 | 第 3 名 | 仅次于某些未发布或半开源模型 |
| 代码分类榜 | 前 5 | 在代码专项分类中进入前五 |
| 中文分类榜 | 前 10 | 在中文场景下表现稳定 |
综合第 14 名、开源第 3 名——这个排名比很多人在 V4 发布前的预期要低。原因有几个:
Arena.ai 评测的是"综合对话体验",不只是代码。V4 在代码和推理场景中表现优异,但在创意写作、常识问答、多轮对话等综合场景中,和 GPT-5.4、Claude Opus 4.6 这类顶尖闭源模型仍有差距。
Arena.ai 的 ELO 评分受用户偏好影响。 实际使用中,用户对不同模型的偏好并不完全等同于 Benchmark 分数。一个更"健谈"、更"有创意"的模型往往比一个更"准确"但语气生硬的模型获得更多用户投票。
V4 发布仅 2 周。 Arena.ai 的排名会随着更多用户评测数据加入而变化。V3 和 R1 都在发布后 1-3 个月内排名逐渐上升。
更值得关注的是代码分类榜的前 5 名。在 Arena.ai 的代码专项评测中,V4 进入了前五,这意味着在真实开发者的匿名评测中,V4 的代码输出质量获得了认可。
6.2 Vals AI Vibe Code Benchmark
Vals AI 是一家独立的 AI 评测机构,发布了多个专项评测。其中 Vibe Code Benchmark 专门评测模型在"AI 编程 Agent"场景下的端到端表现。
| 模型 | Vibe Code Benchmark 成绩 | 排名 |
|---|---|---|
| DeepSeek V4 | 开源模型第一 | 1st (开源) |
| DeepSeek V3.2 | 基线的 1/10 | — |
| GPT-5.4 | 未公开完整数据 | 闭源领先 |
| Claude Opus 4.6 | 未公开完整数据 | 闭源领先 |
Vals AI 的评价中有一个关键表述:"V4 在 Vibe Code Benchmark 上实现了较 V3.2 约 10 倍的性能跃升。"
10 倍跃升的含义需要正确理解:这不是说 V4 比 V3.2 强 10 倍(如果按分数算可能只有 2-3 倍),而是在 Vibe Code Benchmark 特定的评测指标(如"端到端成功率")上,V4 从 V3.2 的个位数成功率提升到了更高的水平。当基数很低时,10 倍的跃升在绝对数值上可能只是从 3% 到 30%、或从 5% 到 50%。
Vibe Code Benchmark 的这种"低基数 -> 高跃升"模式在另一方面也说明:Agent 编码场景本身还在起步阶段。 一年前的模型在这个场景上的表现几乎不可用,今天 V4 达到了可用的水平。这个领域的下一个突破是让 Agent 编码的端到端成功率再提高 30-50 个百分点。
6.3 社区实测与口碑
除了正式的第三方评测,社区实测也是 Benchmark 的重要补充:
| 来源 | 评测方法 | V4 的口碑 |
|---|---|---|
| Reddit r/LocalLLaMA | 开发者实际项目中试用 | 代码能力强,长上下文表现好,中文写作一般 |
| GitHub Issues & Discussions | 真实验代码审阅 | SWE-bench 类任务表现出色,但偶尔出现幻觉 |
| 知乎 / V2EX 中文社区 | 中文用户实测对比 | 性价比极高,Flash 版本是"穷人的代码助手" |
| 开发者博客 & 独立评测 | 特定场景对比测试 | 标准模式已超过 V3.2+ 大量优化,Max 模式进入第一梯队 |
社区测评为"代码能力极强、性价比突出"的共识和官方 Benchmark 数据高度一致。但普遍反馈的中文写作和创意生成弱项,在官方 Benchmark 中并不凸显——这也反映了 Benchmark 的局限:Benchmark 测不到的维度,往往是用户体验的盲区。
6.4 产业评测
实际产业场景中,V4 也被多家组织独立评测:
| 评测方 | 场景 | 结论 |
|---|---|---|
| Scale AI | 综合能力评估 | V4 在编码和数学上超越多个闭源模型,但在长程推理上仍落后 |
| Macaron (AI infra blog) | 基础设施视角评测 | 所有 V4 数据均为官方宣称,尚未独立复现;但 V3 的官方数据已被验证,可信度较高 |
| Nanonets | 代码密集型任务评测 | V4 适合代码生成场景,但在需要细致指令跟随的业务场景中可能不如 Claude |
Scale AI 的评价尤其值得注意。作为 AI 数据标注和评测领域的权威机构,Scale AI 指出 V4 在编码和数学上超越多个闭源模型,但也在同一份报告中强调 V4 在长程推理(long-range reasoning)上仍有差距。这和本文第 5 章的综合估算一致。
6.5 来自开发者社区的独立评测
除了机构化评测,来自个人开发者和技术博客的独立测试也值得关注,因为它们往往更能反映"日常使用"的真实体验。
| 评测来源 | 方法 | 结论 |
|---|---|---|
| Ben Eater (YouTube) | 让 V4 从零编写一个 CPU 模拟器 | 成功完成,代码质量高于预期,但在调试环节需要人工介入 |
| Simon Willison (Datasette) | SQL 生成和数据分析任务 | V4 在复杂 SQL 生成上优于 Claude,但多步数据分析的逻辑安排不如 GPT-5 |
| 国内开发者社区 | Spring Boot + React 全栈项目 | V4-Flash 完成度 75%,V4-Pro 完成度 92%(Max 模式) |
| AI 编程对比博主 | 10 个 LeetCode Hard + 3 个实际 PR | V4 在 LeetCode 上几乎全对,实际 PR 的 bug 定位准确率 70% |
一个有趣的"共识"出现在多个独立评测中:V4 在"写代码一次成型"这个维度上表现极好,在"调试和修改已有代码"上表现虽强但不如 Claude Opus 4.6 稳定。 这和官方 Benchmark 数据高度一致——代码生成类(HumanEval、LiveCodeBench)领先,代码编辑/Agent 类(SWE-Bench)和对手持平。
6.6 三个第三方评测的综合信号
把 Arena.ai、Vals AI、Scale AI 三家独立评测的信号放在一起:
| 信号 | 来源 | 可信度 | 含义 |
|---|---|---|---|
| V4 代码能力达到开源顶配 | Vals AI + Arena.ai | 高 | 开发者可以放心在代码场景使用 |
| V4 综合排名非第一 | Arena.ai 第 14 | 高 | 非代码场景仍有差距 |
| V4 较 V3.2 有代际级提升 | 三家一致 | 极高 | 从"能用"到"很好用"的跨越 |
| 知识推理差距 3-6 个月 | Scale AI | 中 | 需要后续迭代缩小 |
| 性价比极高 | Vals AI + 社区反馈 | 极高 | 代码场景的 per-dollar 表现远超竞品 |
3 个第三方评测的结论和本文前几章的 Benchmark 分析高度一致。这不是巧合——而是多维度的数据正在收敛到同一个结论:V4 在代码领域的领先是真实的、多方验证的,它的知识推理差距也是真实的、多方验证的。Benchmark 分数没有骗人,但它只说了故事的一半。
七、Benchmark 的局限
讲了这么多 Benchmark 数据,有必要停下来问一个冷静的问题:这些数字到底在多大程度上反映了真实能力?
7.1 数据污染:最大的坑
数据污染(Data Contamination)是大模型评测中最普遍也是最隐蔽的问题。简单说:如果模型的训练数据里包含了测试题的答案,那它的高分就不是"做对了"而是"背出来了"。
数据污染的严重程度在不同 Benchmark 上天差地别:
| Benchmark | 污染风险 | 原因 | 可信度 |
|---|---|---|---|
| HumanEval | 极高 | 164 道题在网上存在 5 年+,几乎所有模型都见过类似题型 | 低 |
| MMLU-Pro | 高 | 题目从公开考试题中提取,几乎肯定在训练数据中出现 | 中低 |
| SWE-Bench Verified | 中 | 真实 Issue,但 Issue 文本和修复方案可能已在网络上传播 | 中 |
| Codeforces | 中高 | 老题目广泛传播,新题目尚未收录到训练集 | 中 |
| LiveCodeBench | 极低 | 动态采集发布后的新题,模型不可能"背过" | 高 |
| HLE | 极低 | 专为评测新编写的 PhD 级题目,不会在训练数据中出现 | 高 |
重要提示: V4 的 HumanEval 93.5 和 LiveCodeBench 93.5 虽然分数相同,但含金量完全不同。前者可能是"背出来的",后者几乎没有作弊可能。
这就是为什么行业越来越看重 LiveCodeBench 和 HLE 这类"动态"或"防污染"设计的 Benchmark。如果你的模型只在 HumanEval 和 MMLU 上高,但在 LiveCodeBench 上掉队,那它的高分很可能来自数据污染——这在 2024-2025 年的多个模型中都有先例。
对于 V4 来说,一个利好的信号是:LiveCodeBench 的 93.5 是所有已记录模型中的最高分。 这意味着 V4 在"无法作弊"的测试中同样表现出色,它的代码能力不是背出来的。
7.2 过拟合风险
即使没有数据污染,过拟合也是另一个问题。当一个模型被针对性地优化来刷高某个 Benchmark 的分数,它可能变成"会考试但不会做事"的偏科生。
V4 的哪些 Benchmark 可能存在过拟合风险?
| Benchmark | 过拟合信号 | 严重程度 |
|---|---|---|
| HumanEval | 接近天花板且和竞品差距极小 | 高——这个 Benchmark 的区分度已经耗尽 |
| MMLU-Pro | 分数提升主要来自训练数据量增加 | 中——大模型在 MMLU 上普遍存在过拟合 |
| SWE-Bench Verified | V4 使用 Agent Expert 针对性训练 | 中低——虽然针对性训练了,但任务本身足够开放 |
| LiveCodeBench | 使用新鲜题目,训练集中无对应数据 | 低——防污染设计天然抗过拟合 |
SWE-Bench Verified 的情况比较微妙。 V4 的 Agent Expert 是在类似 SWE-bench 的任务上训练的,这本身就包含了一定程度的"针对性优化"。但 SWE-bench 的任务是开放的(现实世界 Issue),修复方案的搜索空间几乎是无限的,所以过拟合的风险低于 HumanEval 这类封闭测试集。
7.3 评测方法论差异
不同机构发布的同一 Benchmark 的分数可能不同,原因在于评测方法论不同:
| 方法论差异 | 对分数的影响 | 例子 |
|---|---|---|
| Pass@1 vs Pass@k | Pass@k 通常更高(k 次采样中只要一次对就算对) | SWE-bench 中 Pass@3 比 Pass@1 高 10-15 分 |
| 是否使用 CoT | CoT 模式通常提升推理类分数 | GPQA 中 CoT 模式可提升 5-15 分 |
| 采样温度 | 温度高时多样性好但单次准确率可能下降 | 代码生成时低温度通常更好 |
| 是否使用 Agent 框架 | Agent 框架大幅提升 SWE-bench 等复杂任务 | 带 Agent 的 VS 不带 Agent 的可差 20+ 分 |
| 硬件精度 | FP16/FP32 vs INT8/INT4 | 量化后精度下降 1-5% |
这意味着 V4 的 58.2 SWE-bench Verified(标准模式)和 GPT-5.4 的 55.6(标准模式)比较,前提是两者的评测方法论完全一致。 如果前者用了不同的采样温度或不同的测试集子集,直接比较可能产生误导。
7.4 Benchmark vs 真实体验的差距
最后一个冷冰冰的事实:Benchmark 分数和用户真实体验之间的相关性正在降低。
原因有三:
Benchmark 场景化不足。 一个公司的 AI 产品不会只问 MMLU 上的题目。它可能是一个客服机器人、一个代码助手、一个内容生成工具——这些场景下的成功需要的能力,和 Benchmark 要测的不完全重合。
Benchmark 无视用户体验的细节维度。 模型是有"手感"的——输出的格式偏好、对指令的理解程度、在模糊需求下的主动澄清能力、对多轮对话中隐含意图的把握。这些在 Benchmark 上几乎不体现,但对日常使用体验影响巨大。
Benchmark 忽视了"失败模式"分布。 一个在某些任务上完美、但在另一些任务上离奇的模型,和一个在所有任务上都"还行"的模型——前者的 Benchmark 平均分可能更高,但用户更可能被它的"会坑"吓跑。V4 在 Agent 工具调用上的中等表现(Toolathlon 51.8)、中文写作上的不稳定性,属于典型的"强项很强、弱项明显"模式。
在实际选型时,正确的做法不是看"哪个模型的 Benchmark 分数最高",而是看"哪个模型在你的场景里表现最好"。这需要在自己的业务数据上做评测,而不是只看公开的 Benchmark 榜单。
7.5 如何正确理解这批数据
说了 Benchmark 这么多局限,那我们应该怎么理解 V4 的这些数字?
我的建议是——不要用 Benchmark 做绝对判断,而是用 Benchmark 做排除法。
| 使用场景 | 应该关注的 Benchmark | 不应该过分关注的 Benchmark |
|---|---|---|
| 选型代码助手 | SWE-Bench Verified, LiveCodeBench, Vibe Code Benchmark | HumanEval, MMLU-Pro |
| 选型推理引擎 | GPQA Diamond, HLE, AIME | MMLU, MATH-500(已接近天花板) |
| 选型通用助手 | Arena.ai 综合排名, SimpleQA-Verified | 单项代码 Benchmark |
| 选型长上下文应用 | MRCR 1M, RULER | 单轮对话 Benchmark |
| 判断性价比 | 结合定价的 per-dollar 分数 | 不考虑成本的绝对分数 |
最有价值的 Benchmark 有三个特征:
- 防污染设计——题目不会出现在训练数据中(如 LiveCodeBench)
- 任务开放——搜索空间大,过拟合风险低(如 SWE-Bench)
- 场景与你的需求匹配——如果你做代码助手,看不好的代码 Benchmark 就是浪费时间
7.6 V4 数据需要独立复现
最后,一个必须提及的限制:截至本文写作时,V4 的大多数 Benchmark 数据尚未经过大规模的第三方独立复现。
这意味着两件事:
这些数字的可靠性取决于你对 DeepSeek 的信任程度。 V3 时代,DeepSeek 官方发布的数据后来被社区独立验证,基本准确。但这不是"永远可信"的保证——每一代新模型都是新的验证。
不同评测方法下的实际数字可能有 3-10% 的出入。 这对 V4 来说不是特例,GPT-5.4 和 Claude Opus 4.6 的官方数据和第三方复现之间同样存在差异。
社区正在进行的独立验证(Arena.ai 持续评测、Vals AI 独立报告)正在逐步填补这个空白。作为技术决策者,在 V4 的独立评测数据大规模出来之前,最好的策略是:相信官方数据的趋势(V4 很强、代码尤其强、性价比极高),但对具体的绝对数字保持适度保留。
把 V4 的 Benchmark 数字当成路标,而不是终点。它的真正价值,最终要在你自己的场景里去验证。
八、小结
对 DeepSeek V4 的 Benchmark 表现做一个简洁的总结:
在哪里最强
| 领域 | 定位 | 核心数据 |
|---|---|---|
| 代码生成(单函数) | 世界顶级 | HumanEval 93.5,最高分梯队 |
| 软件工程(真实 Issue 修复) | 世界顶级 | SWE-Bench 80.6 (Max),和 Claude 4.6 持平 |
| 竞赛编程(防污染) | 世界第一 | LiveCodeBench 93.5,所有模型最高 |
| 竞技编程(Elo Rating) | 世界顶级 | Codeforces 3,206,超过所有模型的记录 |
| Agent 端到端编码 | 开源第一 | Apex Shortlist 90.2,Vals AI 开源第一 |
| 科学推理(Max 模式) | 世界第一 | GPQA Diamond 90.1,所有模型最高 |
在哪里还行
| 领域 | 定位 | 核心数据 |
|---|---|---|
| 数学竞赛 | 第一梯队下游 | HMMT 95.2,略低于 GPT-5.4 的 97.7 |
| 综合知识 | 第一梯队 | MMLU-Pro 87.5,和 GPT-5.4 接近 |
| 事实准确性 | 上游但非顶级 | SimpleQA 55.2,落后 GPT ~7 个百分点 |
| 长上下文检索 | 中上游 | MRCR 1M 83.5,低于 Claude 4.6 |
在哪里需要改进
| 领域 | 定位 | 核心数据 |
|---|---|---|
| 工具调用 | 第二 | Toolathlon 51.8,落后 GPT-5.4 的 54.6 |
| 终端交互 | 第三 | Terminal Bench 67.9,落后 GPT-5.4 的 75.1 |
| 超难推理(HLE) | 中等 | ~32,落后 GPT-5.4 的 43.9 和 Gemini Deep Think 的 48.4 |
| 标准模式推理深度 | 中等 | GPQA 标准模式 44.1 vs Max 模式 90.1,差距过大 |
| 中文写作/创意生成 | 一般 | 社区反馈弱于 GPT/Claude(Benchmark 未充分覆盖) |
一句话结论
DeepSeek V4 是目前代码能力最强的开源模型,在全球所有模型中也处于代码方向的顶峰。在推理和知识维度,它通过 Max 模式可以进入第一梯队,但基础能力仍落后顶尖闭源模型约 3-6 个月。它的最大优势是性价比——以 GPT-5.4 约 1/10 的价格,提供在代码场景下接近或超越 GPT-5.4 的能力。
检验标准
- [ ] 能说出 V4 在代码领域的三个 Benchmark 排名和分数(HumanEval 93.5、LiveCodeBench 93.5、SWE-Bench Verified 80.6 Max / 58.2 标准),并解释这些差异意味着什么——天花板测试 vs 防污染测试 vs 真实场景测试的区别
- [ ] 能解释 GPQA Diamond 的 90.1(Max 模式)和 44.1(标准模式)之间的巨大差距意味着什么——V4 的基础推理能力并非最强,但长链推理能力卓越,使用 V4 做推理任务需要 Max 模式
- [ ] 能理解数据污染对 Benchmark 可信度的影响——知道 HumanEval 污染风险极高(题目公开 5 年+)、LiveCodeBench 几乎不可污染(动态采集新题)、以及为什么 LiveCodeBench 的 93.5 比 HumanEval 的 93.5 含金量更高
- [ ] 能描述 V4 在第三方评测中的位置——Arena.ai 综合第 14 / 开源第 3、Vals AI Vibe Code Benchmark 开源第一、知识推理仍落后最先进闭源模型约 3-6 个月
