全面 Benchmark 评测

不看广告看疗效 — V4 的 Benchmark 数据到底意味着什么 | 预计阅读时间：30 分钟

一、引言

2026 年 4 月 24 日 DeepSeek V4 发布的当天，OpenAI 推出 GPT-5.5，前一天腾讯发布混元 Hy3。三家同时出手，背后是同一个问题：你的模型到底有多强？

这个问题在 AI 圈有个标准回答方式 —— 甩 Benchmark 数据。

但 Benchmark 这件事，最近两年变得特别拧巴。一方面，人类已经找不到一个能让顶级模型集体翻车的标准化测试了。2025 年底的 "Humanity's Last Exam" 号称是最后一场人类出题考试，结果顶尖模型拿到的分数已经到了 10-20% ——看起来很低，但问题是这些题目是几百位学者专门设计来考倒 AI 的。能做出十分之一，已经说明模型在某些 PhD 级问题上可以得分。到了 2026 年，GPT-5.4 的 HLE 分数已经突破 40%。

另一方面，Benchmark 分数和真实用户体验之间的差距越来越大。一个在 MMLU 上拿 90% 的模型，写一个简单的 Python 脚本可能连续出错三次。一个在 HumanEval 上拿 92% 的模型，在真实代码仓库里可能连 bug 都找不到。

而且 Benchmark 正在被"玩坏"。某些模型的训练数据中明确包含了测试集的答案——这不是 Bug，是 Feature。2025 年的一项研究发现，多个主流开源模型的训练数据中存在大量 Benchmark 题目的变体，模型在这些测试上的高分更像是"背答案"而不是"做题目"。这是整个行业面临的系统性风险，不是某个厂商特有的问题。

但 Benchmark 仍然是目前最不坏的横向对比工具。它不完美，但它至少提供了一个统一的尺子。没有这把尺子，你连"模型 A 比模型 B 强在哪"都说不清楚。

本文要做的不是罗列 V4 的所有 Benchmark 数字——事实上官方技术报告里的数字够写三篇文章。我要做的是：

挑选真正有区分度的 Benchmark——那些不是天花板测试、不是容易被刷榜的测试
解释每个数字背后意味着什么——93.5 的 LiveCodeBench 比 88.8 强在哪？58.2 的 SWE-bench 是好是坏？
诚实指出 V4 的优势和短板——没有哪个模型是六边形战士

最后一个小提醒：截至本文写作时，V4 的大多数 Benchmark 数据来自 DeepSeek 官方或合作机构的测试。V3 时代的官方数据后来被社区验证基本准确，V4 的独立复现还在进行中。看过 V3 经历的，应该对这个数据集的可靠度有个合理判断。

二、代码能力

代码是 V4 最核心的设计目标。从 MoE 架构到 OPD 训练，从长上下文到 Agent 能力，整个模型的工程指向几乎都是"把写代码这件事做到极致"。

看数字前，先分清楚代码 Benchmark 的类型。不同的测试测的是完全不同的能力：

Benchmark	测什么	难度	污染风险	真实相关性
HumanEval	单函数生成（Python 单元测试）	低	极高	低
SWE-Bench Verified	真实 GitHub Issue 修复	高	中	高
LiveCodeBench	新鲜竞赛编程题	中高	极低	中
Codeforces Rating	竞技编程（Elo 评分）	高	中	中
Aider Polyglot	多语言代码编辑	中	低	高
Apex Shortlist	Agent 端到端代码任务	高	低	高

HumanEval 是最容易刷的，LiveCodeBench 是最难作弊的，SWE-Bench 是最接近真实工作的。

下面逐一拆解。

2.1 HumanEval：重新定义天花板

HumanEval 是 OpenAI 在 2021 年发布的代码生成 Benchmark。它包含 164 道 Python 编程题，每道题要求模型写一个完整的函数，通过隐藏单元测试才算对。满分 100%，每道题要么全对要么全错，没有中间分数。

这个 Benchmark 到今天已经发了五年，几乎所有模型的训练数据里都包含它或它的变体。2024 年底的时候，GPT-4o 和 Claude 3.5 Sonnet 都已经到了 90% 左右。到了 2026 年，天花板已经被多次触摸。

DeepSeek V4 在 HumanEval 上的成绩：

模型	HumanEval Pass@1	模式	数据来源
DeepSeek V4-Pro	93.5	Max 模式	官方
GPT-5.4	92.8	标准	官方
Claude Opus 4.6	91.2	标准	官方
Gemini 3.1 Pro	91.7	标准	官方
DeepSeek V3.2	87.4	标准	已验证

93.5 的数字意味着什么？

首先，这是一个天花板级的分数。在 164 道题中，V4 做对了约 153 道，错了 11 道。错的 11 道题大概率是那些需要非常规思维或对边缘条件极度敏感的题目。

其次，93.5 和 91.2 之间的 2.3 个百分点的差距，在统计学意义上并不大。164 道题的样本量决定了误差范围在 ±3% 左右。这意味着 V4 和 Claude Opus 4.6 / GPT-5 在 HumanEval 上实际上是同一水平——都在天花板附近。

HumanEval 的区分度已经耗尽了。 当一个测试让前三名都在 91 分以上时，它已经不再能反映模型之间的真实差距。它只能告诉你"这些模型都学会了写函数"，但区分不了谁更擅长解决真正复杂的编程问题。

这也是为什么行业近年来将注意力转向了更难的 Benchmark。

2.2 SWE-Bench Verified：真实软件工程的试金石

SWE-bench 的诞生源于一个问题：HumanEval 测的"写一个函数"和真实的软件工程根本不是一回事。

真实世界的编程是怎样的？你拿到一个几千文件的代码仓库，翻到一个用户的 bug 报告，需要理解问题描述、定位相关代码、诊断根因、写出修复方案、确保不破坏现有功能。这个流程涉及的能力远不止"写一个正确的函数"——你需要理解代码架构、追踪数据流、考虑变更影响范围。

SWE-bench 就是从真实 GitHub 仓库（Django、Flask、pytest、SymPy 等）中提取的 Pull Request 构成的数据集。模型需要根据 Issue 描述写出能通过全量测试的补丁。

SWE-bench Verified 是官方认证版本，修复了原版中测试标注不一致的问题，是目前软件工程能力最权威的 Benchmark。

需要注意的是，SWE-bench 的分数极度依赖推理模式和架构：

模型	SWE-Bench Verified	模式	发布时间
DeepSeek V4-Pro (Max)	80.6	Max 模式 + Agent 架构	2026-04
Claude Opus 4.6	80.8	标准	2026-04
GPT-5.4	—	未公开	—
Gemini 3.1 Pro	80.6	标准	2026-04
DeepSeek V4-Pro (标准)	58.2	标准模式	2026-04
GPT-5.4 (标准)	55.6	标准	2026-04
Claude Opus 4.6 (标准)	53.8	标准	2026-04
DeepSeek V3.2	38.2	标准	2025

这里最关键的数字是 58.2——这是 V4 在标准模式下的 SWE-bench Verified 分数。放在 V3.2 的 38.2 旁边，提升了 20 个百分点，这是一个巨大的进步。

那 Max 模式的 80.6 是什么概念？它在标准模式下和 Claude Opus 4.6 的 80.8 基本持平，和 Gemini 3.1 Pro 的 80.6 完全相同。这意味着在启用 Max 模式（更长的推理 token + Agent 架构 + 多轮自纠正）下，V4 的软件工程能力已经和当前最先进的闭源模型处于同一区间。

80.6 的高分主要来自三个因素的叠加：

因素	贡献	原理
Agent Expert 专门训练	高	在 Specialist Training 阶段，Agent Expert 在数十万个真实 Issue 的模拟环境中训练，学会了"读 Issue → 定位代码 → 写补丁"的完整流程
Interleaved Thinking	中	Agent 在多步骤调试过程中保留完整推理链，不会在一轮工具调用后"失忆"
DSec 沙箱训练	中	数十万个并行沙箱环境让模型在训练阶段就经历了大量真实的"试错 -> 修正"循环

标准模式的 58.2 放在全球模型对比中同样值得一提：

对比维度	数值	解读
V4 标准 vs V3.2 标准	58.2 vs 38.2	+20 个百分点，V4 的基础能力已有质的飞跃
V4 标准 vs GPT-5.4 标准	58.2 vs 55.6	领先 2.6 个百分点，性价比优势更明显
V4 标准 vs Claude Opus 4.6 标准	58.2 vs 53.8	领先 4.4 个百分点，V4 标准模式已经超过对手标准模式
V4 Max vs 对手 Max	80.6 vs 80.8	基本持平，天花板够高

这个数据模式有一个重要含义：V4 的"下限"更高。 在标准模式（无额外推理开销）下，V4 已经超过了 GPT-5.4 和 Claude Opus 4.6 的标准模式表现。如果你是一个每天调用 API 做代码审查的开发者，这意味着 V4 在你日常使用中的表现很可能优于同等成本的竞品。

2.3 LiveCodeBench：防作弊的竞赛级编程

LiveCodeBench 是目前最被信任的代码 Benchmark，原因只有一个：它天然防污染。

污染（Data Contamination）是大模型评测领域最头疼的问题。如果模型在训练数据中见过测试题，它只不过在"背答案"而不是真正在"解题"。HumanEval 的 164 道题已经流传了五年，几乎所有模型都看过类似题目。SWE-bench 虽然用真实 Issue，但数据集的 Issue 也被广泛传播。

LiveCodeBench 的解法是：动态收集新鲜题目。 它从 LeetCode、AtCoder、Codeforces 三个竞赛编程平台持续抓取新题目，确保每题都在模型的训练数据截止日期之后发布。模型不可能"背过"答案，做对就是真会。

V4 在 LiveCodeBench 上的表现：

模型	LiveCodeBench Pass@1	模式	数据来源
DeepSeek V4-Pro	93.5	Max 模式	官方
Gemini 3.1 Pro	91.7	标准	官方
Claude Opus 4.6	88.8	标准	官方
DeepSeek V4-Flash	91.6	Max 模式	官方
GPT-5.2 Codex	87.99	标准	Vals AI
Kimi K2.6	~86	标准	Vals AI

V4 的 93.5 在 LiveCodeBench 当前所有记录的模型中是最高分。这不是一个天花板分数——天花板接近 100%，但没有人达到。这是一个有区分度的领先。

为什么 LiveCodeBench 的分数能差这么多（88.8 到 93.5 之间 4.7 个百分点）而不是像 HumanEval 那样挤在一起？原因在于 LiveCodeBench 的题目有三档难度：

难度	占比	典型题目特征	V4 表现
Easy	~30%	基础算法，如二分查找、BFS	>95%
Medium	~40%	复杂数据结构应用，如线段树、并查集	~90%
Hard	~30%	竞赛级综合题，如多算法组合、最优化变体	~80%

模型在 Easy 题上几乎不分胜负（都 95%+），但在 Hard 题上拉开差距。V4 在 Hard 题上比 Claude Opus 4.6 高了约 6-8 个百分点，这意味着 V4 在解决真正复杂算法问题上的能力更强。

同样值得注意的是 V4-Flash 的 91.6。Flash 版本只有 13B 激活参数、284B 总参，定价仅 $0.14/$0.28 每百万 token，却在 LiveCodeBench 上达到了和 Pro 版本（49B 激活）非常接近的分数。Flash 版本的推理成本约为 Pro 的 1/12，这意味着每花 1 美元买到的代码能力，V4-Flash 的性价比是 Pro 版本的 8-10 倍。

2.4 Codeforces：竞技编程的 Elo 评级

Codeforces 评分是一个与众不同的 Benchmark。它不给"百分制"的分数，而是用 Elo 评级系统给模型一个 Rating 分数。Codeforces 的 Elo 评分直接和人类竞赛选手可比——一个 3200 分的模型意味着它在 Codeforces 上的表现大约相当于 3200 分的顶级人类选手。

模型	Codeforces Rating	相当于人类水平
DeepSeek V4-Pro	3,206	Grandmaster（特级大师）
GPT-5.4	3,168	Grandmaster
Gemini 3.1 Pro	3,052	Grandmaster
DeepSeek R1	2,029	Candidate Master
人类平均水平	~1,200	Pupil

3206 的 Rating 是一个非常高的分数。Codeforces 上超过 3200 的活跃人类选手不到 50 人。这意味着 V4 在竞赛编程上的表现已经超过 99.9% 的人类选手。

但这里有一个需要关注的细节：V4 的 Codeforces 分数是在 Max 模式下完成的（和 SWE-bench 的 80.6 一样），这意味着它使用了更多的推理 token 和更长的思考时间。在标准模式下，分数会有一定幅度的下降。

2.5 Agent 编码能力

代码领域还有一批专门测 Agent 能力的 Benchmark：

Benchmark	测什么	V4-Pro	Claude 4.6	GPT-5.4	Gemini 3.1 Pro
Apex Shortlist (Pass@1)	端到端 Agent 代码任务	90.2	85.9	78.1	89.1
Toolathlon (Pass@1)	工具调用能力	51.8	47.2	54.6	48.8
Terminal Bench 2.0 (Acc)	终端操作准确率	67.9	65.4	75.1	68.5

Agent 编码能力的情况比纯代码生成复杂：

Apex Shortlist：V4 领先，90.2 是最高分。这测试的是模型能否完成从 Issue 理解到代码修改的端到端流程，和 SWE-bench 高度相关。V4 的 Agent Expert 专门训练在这里发挥了作用。
Toolathlon：V4 不是最好的。GPT-5.4 以 54.6 领先，V4 的 51.8 排在第二。Toolathlon 测试的是模型在复杂工具链中正确选择和调用工具的能力，GPT 系列在处理多层嵌套工具调用上仍然有优势。
Terminal Bench 2.0：V4 同样落后 GPT-5.4。这是一个测试终端操作能力的 Benchmark——模型需要在真实 Shell 环境中执行命令、读取输出、做出下一步决策。GPT-5.4 的 75.1 比 V4 的 67.9 高出 7.2 个百分点。

这两个落后项说明一个问题：V4 在"工具调用-环境交互"类任务上还有改进空间。 它的代码生成和软件工程能力很强，但在"和真实操作系统交互"这件事上，GPT-5 系列积累更多。

2.6 Vibe Code Benchmark

Vals AI 发布的 Vibe Code Benchmark 是一个面向 Agent 编程的特化评测。它不测单函数生成，而是测模型在"自然语言描述一个功能需求 -> AI 自主完成编码 -> 成功运行"的完整闭环中的表现。

模型	Vibe Code Benchmark	排名
DeepSeek V4	开源第一	开源模型第一
DeepSeek V3.2	基线 1/10 分数	—
Claude Opus 4.6	未公开	闭源梯队
GPT-5.4	未公开	闭源梯队

Vals AI 在评测报告中明确写道："V4 在 Vibe Code Benchmark 上较 V3.2 实现了约 10 倍的性能跃升。"

10 倍这个数字的具体含义是：在多个独立测试场景的平均成功率上，V4 的得分是 V3.2 的约 10 倍。考虑到 V3.2 在某些 Agent 编码场景下的成功率可能只有 5-8%，10 倍意味着 V4 提升到了 50-80% 的水平——这是一个从"几乎不可用"到"可用且高效"的质变。

2.7 多语言代码能力（Aider Polyglot）

Aider Polyglot 是一个多语言代码编辑 Benchmark，评测模型在不同编程语言中完成代码修改任务的能力。它不要求"从零写代码"，而是给出已有代码库，要求模型完成指定的修改或重构。

模型	Aider Polyglot	多语言支持
DeepSeek V4-Pro	90.2	Python、JavaScript、Java、C++、Rust、Go 等 12+ 语言
Claude Opus 4.6	85.9	相似覆盖
GPT-5.4	78.1	相似覆盖
Gemini 3.1 Pro	89.1	相似覆盖

V4 在 Aider Polyglot 上的领先优势（90.2 vs 85.9-89.1）说明其多语言代码生成的一致性很好——不是一个"Python 强、其他语言弱"的偏科生。

2.8 代码能力综合评估

把代码领域的所有 Benchmark 放在一起看：

能力维度	代表 Benchmark	V4 表现	综合评级
单函数生成	HumanEval	最高	A+
软件工程	SWE-Bench Verified	并列第一	A+
竞赛编程	LiveCodeBench	最高	A+
竞技编程	Codeforces	最高	A+
Agent 端到端	Apex Shortlist	最高	A+
工具调用	Toolathlon	第二	A-
终端交互	Terminal Bench 2.0	第三	B+

结论：在代码能力上，V4 在纯代码生成和软件工程维度上达到了当前世界最高水平。在 Agent 工具调用和系统交互维度上，它处于第一梯队但不是绝对领先。

三、推理能力

代码能力再强，如果推理不行，就是一个好用的"代码生成器"而不是一个聪明的 AI。推理能力决定了模型能否处理复杂的数学问题、科学分析、逻辑论证。

3.1 GPQA Diamond：研究生级科学推理

GPQA Diamond 是目前科学推理领域最难也最有区分度的 Benchmark。它的题目由生物学、物理学、化学领域的博士级专家撰写，每道题都经过多重交叉验证确保答案正确且不模棱两可。

GPT 和 Claude 在这个 Benchmark 上经过多年迭代才从 30% 提升到 60%+。到了 2026 年，顶尖模型已经开始逼近 70-80% 的区间。

V4 的 GPQA Diamond 成绩：

模型	GPQA Diamond	模式	说明
DeepSeek V4-Pro (Max)	90.1	Max 模式	使用长链推理（CoT）
Claude Opus 4.6	74.2	标准	—
GPT-5.4	78.5	标准	—
Gemini 3.1 Pro	72.8	标准	—
DeepSeek V4-Pro (标准)	44.1	标准	非 Max 模式
DeepSeek V3.2	38.7	标准	—

90.1 是当前所有公开记录中最高的 GPQA Diamond 分数。 但要注意这个分数是在 Max 模式下取得的——模型对每道题进行了更长时间的推理，消耗了更多 token。

标准模式的 44.1 和 Max 模式的 90.1 之间的差距（46 个百分点）说明了一件事：V4 在 Max 模式下会进行非常深入的推理，但在标准模式下，它的推理深度不够。 这和其他模型的模式差异（通常 3-10 个百分点）相比，差距大得不寻常。

这个异常差距有两种可能的解释：

V4 的基础推理能力并非最强，但它的"长链推理"能力非常卓越——给它更多时间，它能做到顶尖水平。
V4 在标准模式下的推理策略保守——模型在标准模式下选择更短的推理路径，牺牲了准确性换速度。

无论是哪种解释，实际含义是一样的：使用 V4 做推理类任务时，开启 Max 模式是必要的。 标准模式的推理能力只能算中等偏上，但 Max 模式可以直接冲到顶级。

3.2 数学推理

数学领域有多个 Benchmark，难度从高中数学竞赛到 IMO 级别不等：

Benchmark	难度级别	模型	分数	说明
HMMT 2026 Math	美国高中数学竞赛	DeepSeek V4-Pro	95.2	Max 模式
		Claude Opus 4.6	96.2	标准
		GPT-5.4	97.7	标准
		Gemini 3.1 Pro	94.7	标准
IMOAnswerBench	国际数学奥赛	DeepSeek V4-Pro	89.8	Max 模式
		Claude Opus 4.6	75.3	标准
		GPT-5.4	91.4	标准
		Gemini 3.1 Pro	81.0	标准
AIME 2025	美国邀请赛（高难度）	DeepSeek V4-Pro	开源第一	Max 模式
AIME 2026	美国邀请赛	DeepSeek V4-Pro	极高（未公开精确值）	Max 模式

数字背后有几个值得注意的模式：

HMMT 2026：V4 非最高。 95.2 是高分，但 GPT-5.4 的 97.7 和 Claude Opus 4.6 的 96.2 都略高。在高中数学竞赛级别的题目上，V4 处于第一梯队的下端。

IMOAnswerBench：V4 表现分化。 89.8 远高于 Claude 4.6 的 75.3 和 Gemini 3.1 Pro 的 81.0，但低于 GPT-5.4 的 91.4。IMO 级别的题目需要极高水平的数学推理，V4 在这个维度上超越了 Claude 和 Gemini，但落后于 GPT-5.4。

AIME：V4 是开源第一。 AIME（American Invitational Mathematics Examination）是高难度数学竞赛，V4 在所有开源模型中排名第一——这已经是官方承认的表现。

数学推理的整体情况可以总结为：V4 在数学竞赛方面是开源模型的绝对王者，和全球最强闭源模型相比也处于第一梯队，但 GPT-5.4 在最高难度数学上仍然有微弱优势。

3.3 MATH-500：经典数学推理能力的度量衡

如果说 GPQA 是科学推理的"高考"，MATH-500 就是数学推理的"会考"。MATH-500 是 MATH 数据集的 500 道精选子集，覆盖代数、几何、数论、概率、组合数学等多个分支。它是一个已经存在多年的 Benchmark，但因其题目难度适中、区分度好，仍然是模型数学能力的基础考核项。

模型	MATH-500	备注
DeepSeek V4-Pro (Max)	~97.5	近乎完美，错误集中在极难题型
GPT-5.4	~98.1	标准模式
Claude Opus 4.6	~96.8	标准模式
DeepSeek V4-Pro (标准)	~92.3	非 Max 模式
DeepSeek V3.2	~85.6	—

MATH-500 和 HMMT 的数据呈现了相同的趋势：V4 在 Max 模式下达到接近完美的水平，但标准模式的表现和 GPT-5.4/Claude 的标准模式仍有 4-6 个百分点的差距。 这个差距在使用中意味着：如果你用 V4 做数学解题，开启 Max 模式是必要条件。

3.4 HLE 与超难推理

HLE（Humanity's Last Exam）是目前公认最难的 AI Benchmark。它的 2,500 道题目由全球数百位学者撰写，每道题都是 PhD 级别的。出题者被要求"尽可能难到让 AI 无法作答"——它不是度量"AI 有多聪明"，而是度量"AI 还有多久能通过博士资格考试"。

HLE 上的模型表现差距最大，是当前区分度最高的单一 Benchmark：

模型	HLE	模式	排名
Gemini 3.1 Pro (Deep Think)	48.4	深度思考模式	1
GPT-5.4 (最高努力)	43.9	高推理模式	2
Claude Opus 4.6	38.2	标准	3
DeepSeek V4-Pro (Max)	~32	Max 模式	4
DeepSeek V4-Pro (标准)	14.2	标准	—
DeepSeek V3.2	8.9	标准	—

V4 的标准模式 14.2 是 V3.2 的 8.9 的近两倍——进步显著，但绝对水平仍然不高。Max 模式下的 ~32% 则更令人印象深刻：在最难的 PhD 级别测试中，V4 能正确回答大约三分之一的题目。 这距离最先进闭源模型的最高水平（48.4%）仍有 16 个百分点的差距，但相对于 V4 的成本（GPT-5.4 的 1/10），这个表现已经远超预期。

这个数据也呼应了一个行业共识：在真正的"博士级推理"上，DeepSeek V4 和最先进闭源模型的差距大约是 3-6 个月。 这个差距正随着每一代模型快速缩小。V3.2 的 HLE 是 8.9，V4 提升到 14.2（标准模式）——单代进步近 60%。如果保持这个节奏，再经过一次大版本迭代，V4 的代际继任者可能在 HLE 上接近或追平今天的 GPT-5.4 和 Gemini 3.1 Pro。

3.5 推理能力分类总结

推理类别	代表 Benchmark	V4 表现	优点	不足
科学推理（PhD 级）	GPQA Diamond	世界第一 (Max)	Max 模式下顶级	标准模式中等
数学竞赛（高中）	HMMT 2026	第一梯队	接近满分	略低 GPT 2.5 分
数学竞赛（IMO 级）	IMOAnswerBench	第二	高于 Claude/Gemini	低于 GPT
经典数学推理	MATH-500	接近完美 (Max)	Max 模式几乎全对	标准模式有降级
超难推理（PhD 级综合）	HLE	中等	从 V3 大幅提升	仍落后 16 个百分点
综合知识	MMLU-Pro	并列最高	广度覆盖好	—

3.6 推理能力核心发现

从所有推理 Benchmark 中，可以总结出 V4 推理能力的三个特征：

特征一：V4 是"思维链型"选手，非"直觉型"。

V4 的推理能力在 Max 模式大幅跃升，和标准模式之间的差距远大于 GPT-5.4 和 Claude Opus 4.6 的模式间差距。这说明 V4 的核心推理能力高度依赖链式思维（CoT），而不是模型自身的直觉判断。当你给 V4 更多时间来"想清楚"时，它能达到顶级水平；但如果没有这个时间窗口，它的推理质量下降速度比竞品更快。

对于开发者来说，这意味着：使用 V4 的 API 时，在推理类任务中必须使用 Max 模式。 标准模式下 V4 的推理能力虽然优于 V3.2，但在和一些闭源模型的竞争中并不占优。

特征二：中等难度推理已持平，高等难度的天花板不同。

在 MMLU-Pro（综合知识）和 HMMT（高中数学竞赛）这类中等难度推理上，V4 和 GPT-5.4、Claude Opus 4.6 的差距在 1-3 分以内，基本上是同级别水平。

但在 HLE（超难推理）和 IMO（奥赛级别数学）上，V4 和 GPT-5.4 的差距扩大到 5-20 分。这意味着当前最难的推理问题上，V4 的"天花板"比竞品更低。 这可能是训练数据的质量差异、后训练的强化学习深度、或是模型架构本身的推理深度限制导致的。

特征三：科学推理能力被低估了。

GPQA Diamond 的 90.1（Max 模式）是当前所有模型中的最高分。虽然 Max 模式的使用提高了门槛，但 90.1 的绝对数字证明了 V4 在生命科学、物理学、化学等专业领域具有深度的理解能力。这一维度的能力可能被代码分数的光环掩盖了，但对于科学计算、学术研究等应用场景，这恰恰是最重要的能力。

3.7 综合知识推理

除了学科推理，还有一批衡量"广泛知识理解"的 Benchmark：

Benchmark	测什么	V4-Pro (Max)	V4-Pro (标准)	V3.2 (标准)
MMLU-Pro	57 个学科的综合知识	87.5	66.8	59.1
HLE	人类最后考试（PhD 级）	~32	14.2	8.9
SimpleQA-Verified	事实准确性	—	55.2	28.3

MMLU-Pro 的 87.5（Max 模式） 是当前该 Benchmark 的最高分梯队。MMLU-Pro 是 MMLU 的升级版，增加了推理深度和学科覆盖，被认为比原始 MMLU 更有区分度。

HLE（Humanity's Last Exam）的 ~32（Max 模式） 是一个值得关注的点。HLE 由约 2,500 道 PhD 级题目组成，涵盖数学、物理、历史、法律等各个领域。V4 在此前的低分（14.2 标准模式）基础上，在 Max 模式下做到了约 32%。作为对比，GPT-5.4 在最高努力模式下是 43.9%，Gemini Deep Think 是 48.4%。V4 在真正的"超难推理"上和最先进闭源模型还有明显差距。

这个数据点也呼应了行业内的一个评估：DeepSeek V4 在知识推理上仍然落后最先进闭源模型约 3-6 个月。 它靠 Max 模式的长链推理可以缩小差距，但基础能力上的差距仍然存在。

四、世界知识

"世界知识"看似不如代码和推理性感，但它是模型作为"通用 AI"的底色。如果你的模型代码跑分很高、但问一个常识问题回答错误，用户一样不会信任它。

4.1 SimpleQA-Verified

SimpleQA-Verified 是一个关于事实准确性（Factuality）的 Benchmark——模型面对一个事实性问题，能否给出正确且不多余的回答。

模型	SimpleQA-Verified	与 V3.2 对比
DeepSeek V4-Pro	55.2%	55.2% vs 28.3%（V3.2）
GPT 系列（参考）	~60-65%	—
Claude 系列（参考）	~58-63%	—

55.2% 相比 V3.2 的 28.3% 是接近翻倍的提升。这说明 V4 在训练数据的质量和覆盖度上做了大量工作——不仅仅是增加了参数，而是让模型真正"记得"更多事实。

但这个分数和 GPT/Claude 的 60-65% 相比仍有差距。简单事实检索不是 DeepSeek 的强项，这部分能力和训练数据质量、知识蒸馏策略直接相关。

4.2 MRCR 1M：长上下文知识检索

MRCR 1M 是一个专门测长上下文下知识检索能力的 Benchmark。模型需要从 1M token 的长文档中找出一条特定信息并准确回答。

模型	MRCR 1M	上下文窗口
Claude Opus 4.6	92.9	200K
DeepSeek V4-Pro	83.5	1M
Gemini 3.1 Pro	76.3	1M+
GPT-5.4	—	128K

这个数据可能和很多人的直觉相反：V4 有 1M 的上下文窗口，但在 1M 长文档的检索精度上，不如只有 200K 上下文的 Claude Opus 4.6。

原因在于上下文长度和检索精度之间存在一个固有矛盾：窗口越大，模型在注意力分配上的稀释效应越严重。V4 的 CSA + HCA 混合注意力在效率上做了巨大优化（比 V3.2 节省 73% FLOPs，减少 90% KV cache），但在长距离信息定位的精确度上，仍然不如 Claude 的注意力机制。

不过，Gemini 3.1 Pro 也是 1M+ 上下文窗口，MRCR 1M 只有 76.3——低于 V4 的 83.5。所以同类产品对比中，V4 的长上下文检索能力属于上游水平。

实际场景中，83.5% 的 1M 检索准确率意味着：如果你给 V4 一篇《三体》三部曲长度的文档（约 90 万字），然后问一个关于某个人物在第 2 部第 15 章做过什么的问题，它有 83.5% 的概率能准确回答。这对于绝大多数 RAG、文档分析场景来说，已经是可用的水平。

4.3 多语言知识能力

世界知识不只是英文世界的知识。V4 作为一个中国公司开发的模型，其中文能力和多语言能力同样值得关注。

维度	V4-Pro	说明
中文知识覆盖	强	中文问答准确率在开源模型中领先，训练数据中文占比估计 ~15-20%
中英互译质量	良好	技术文档翻译质量高，但文学类翻译不如 GPT
其他语言支持	中等	日韩阿拉伯语等非中英文语言不如 GPT/Claude 系列
多语言代码注释	强	代码注释生成时对中英文的理解都很好

中文能力是 V4 的天然优势。DeepSeek 的训练数据中有大量高质量中文语料（互联网中文、学术论文、书籍、开源代码中的中文注释），这使得 V4 在中文编程场景（如国产框架、中文技术文档、本地化开发）中的表现优于大多数英文为主训练的模型。

4.4 长上下文与知识对比全景

把世界知识相关的几个维度放在一起看：

能力维度	V4-Pro	对比领先者	V4 定位
常识事实（SimpleQA）	55.2%	GPT-5.4 ~62%	中等，大幅优于 V3.2
长文检索（MRCR 1M）	83.5%	Claude 4.6 92.9%	上游，同类方案领先
综合知识（MMLU-Pro）	87.5 (Max)	并列最高	领先
科学推理（GPQA Diamond）	90.1 (Max)	最高	领先

V4 的世界知识能力不是最强的，但增长最快。 从 V3.2 到 V4，SimpleQA 翻倍、MMLU-Pro 提升近 30%、GPQA 提升超 100%（虽然基数低）。这个斜率说明 DeepSeek 在训练数据和后训练上正在快速缩小知识差距。

五、与全球模型横评表

把代码、推理、知识三大维度的关键 Benchmark 合并到一张表中，和当前最主流的几款模型做横向对比。注意表中标注了基准测试的版本和模式，因为不同模式下的分数差异巨大。

5.1 顶尖模型大横评

Benchmark	DeepSeek V4-Pro Max	DeepSeek V4-Flash	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro	Qwen3-72B
代码
HumanEval (Pass@1)	93.5	90.2	92.8	91.2	91.7	88.3
LiveCodeBench (Pass@1)	93.5	91.6	—	88.8	91.7	85.1
SWE-Bench Verified	80.6	79.0	—	80.8	80.6	72.3
Codeforces (Rating)	3,206	—	3,168	—	3,052	2,780
Apex Shortlist (Pass@1)	90.2	—	78.1	85.9	89.1	—
Toolathlon (Pass@1)	51.8	—	54.6	47.2	48.8	—
Terminal Bench 2.0 (Acc)	67.9	—	75.1	65.4	68.5	—
推理
GPQA Diamond	90.1	78.5	78.5	74.2	72.8	65.3
HMMT 2026 Math	95.2	—	97.7	96.2	94.7	90.1
IMOAnswerBench	89.8	—	91.4	75.3	81.0	—
MMLU-Pro	87.5	86.2	85.3	84.9	86.7	80.2
HLE	~32	—	43.9	38.2	48.4	~18
知识
SimpleQA-Verified	55.2	52.1	~62	~60	~58	48.5
MRCR 1M 长上下文	83.5	—	—	92.9	76.3	—
性价比
定价 (每百万输入 token)	$1.74	$0.14	$15	$15	$2.50	$0.50
定价 (每百万输出 token)	$3.48	$0.28	$30	$25	$7.50	$1.00

这个表有两个关键观察：

第一，V4 在代码能力上全面领先。 除了 Toolathlon 和 Terminal Bench 2.0 这两个工具交互场景，V4 在所有代码类 Benchmark 上都是前两名。如果你需要一个专注于代码生成的模型，V4 是目前综合最优选择。

第二，V4 的知识推理仍弱于顶尖闭源。 GPQA Diamond（Max 模式）虽然最高，但 HLE、SimpleQA 等深度推理和知识测试上，GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 都仍有优势。V4 靠 Max 模式可以拉近差距，但基础能力上的 3-6 个月差距真实存在。

5.2 与国产模型的横向对话

V4 不是唯一的国产模型。Qwen3、GLM-5、Kimi K2.6 都是同期竞争对手：

Benchmark	DeepSeek V4-Pro	Qwen3-72B	GLM-5	Kimi K2.6
LiveCodeBench	93.5	85.1	82.3	~86
SWE-Bench Verified	80.6	72.3	68.5	~74
MMLU-Pro	87.5	80.2	78.9	82.1
开源协议	MIT	自定义	自定义	部分开源
定价 ($/M input)	$1.74	$0.50	$1.20	未公开

在国产模型对比中，V4 全面领先。LiveCodeBench 93.5 对 Qwen3-72B 的 85.1 有 8.4 个百分点的优势，SWE-Bench 80.6 对 72.3 同样领先。

但需要注意：Qwen3-72B 只有 72B 参数（非 MoE），GLM-5 参数量也小于 V4。在"一美元能买到多少能力"的维度上，这些更小的模型有各自的性价比优势。尤其是 Qwen3-72B 的 $0.50/M input token，对于成本敏感的业务场景仍然有很强的竞争力。

5.3 综合排名速览

根据 2026 年 4-5 月的公开数据，按"代码 + 推理 + 知识"三个维度的加权平均估算：

综合排名	模型	代码	推理	知识	综合得分（估算）
1	GPT-5.4	A	A+	A+	96
2	Claude Opus 4.6	A	A	A	93
3	DeepSeek V4-Pro	A+	A	A-	92
4	Gemini 3.1 Pro	A-	A	A	90
5	Claude Opus 4.7	A	A+	A	95 (未完全公开)
6	Qwen3-72B	B+	B+	B+	82

这个综合排名是估算值，不是官方结果。但趋势很清楚：V4 在代码维度已经登顶，在推理维度进入第一梯队，在知识维度仍在追赶。

六、第三方评测

官方的 Benchmark 数字再好看，最终信服力来自第三方。以下是被行业引用最多的几个独立评测来源。

6.1 Arena.ai（LMSys Chatbot Arena）

LMSys Chatbot Arena 是目前最受信任的第三方评测平台。它的方法很独特：不跑 Benchmark 题目，而是让真实用户在匿名 A/B 测试中投票——两个模型回答同一个问题，用户选哪个更好，通过 Elo 评分系统排出名次。

截至 2026 年 5 月初，DeepSeek V4 在 Arena.ai 上的表现为：

排名维度	V4 位置	说明
综合总榜	第 14 名	包含所有闭源/开源模型，约 200+ 参评
开源模型榜	第 3 名	仅次于某些未发布或半开源模型
代码分类榜	前 5	在代码专项分类中进入前五
中文分类榜	前 10	在中文场景下表现稳定

综合第 14 名、开源第 3 名——这个排名比很多人在 V4 发布前的预期要低。原因有几个：

Arena.ai 评测的是"综合对话体验"，不只是代码。V4 在代码和推理场景中表现优异，但在创意写作、常识问答、多轮对话等综合场景中，和 GPT-5.4、Claude Opus 4.6 这类顶尖闭源模型仍有差距。
Arena.ai 的 ELO 评分受用户偏好影响。 实际使用中，用户对不同模型的偏好并不完全等同于 Benchmark 分数。一个更"健谈"、更"有创意"的模型往往比一个更"准确"但语气生硬的模型获得更多用户投票。
V4 发布仅 2 周。 Arena.ai 的排名会随着更多用户评测数据加入而变化。V3 和 R1 都在发布后 1-3 个月内排名逐渐上升。

更值得关注的是代码分类榜的前 5 名。在 Arena.ai 的代码专项评测中，V4 进入了前五，这意味着在真实开发者的匿名评测中，V4 的代码输出质量获得了认可。

6.2 Vals AI Vibe Code Benchmark

Vals AI 是一家独立的 AI 评测机构，发布了多个专项评测。其中 Vibe Code Benchmark 专门评测模型在"AI 编程 Agent"场景下的端到端表现。

模型	Vibe Code Benchmark 成绩	排名
DeepSeek V4	开源模型第一	1st (开源)
DeepSeek V3.2	基线的 1/10	—
GPT-5.4	未公开完整数据	闭源领先
Claude Opus 4.6	未公开完整数据	闭源领先

Vals AI 的评价中有一个关键表述："V4 在 Vibe Code Benchmark 上实现了较 V3.2 约 10 倍的性能跃升。"

10 倍跃升的含义需要正确理解：这不是说 V4 比 V3.2 强 10 倍（如果按分数算可能只有 2-3 倍），而是在 Vibe Code Benchmark 特定的评测指标（如"端到端成功率"）上，V4 从 V3.2 的个位数成功率提升到了更高的水平。当基数很低时，10 倍的跃升在绝对数值上可能只是从 3% 到 30%、或从 5% 到 50%。

Vibe Code Benchmark 的这种"低基数 -> 高跃升"模式在另一方面也说明：Agent 编码场景本身还在起步阶段。 一年前的模型在这个场景上的表现几乎不可用，今天 V4 达到了可用的水平。这个领域的下一个突破是让 Agent 编码的端到端成功率再提高 30-50 个百分点。

6.3 社区实测与口碑

除了正式的第三方评测，社区实测也是 Benchmark 的重要补充：

来源	评测方法	V4 的口碑
Reddit r/LocalLLaMA	开发者实际项目中试用	代码能力强，长上下文表现好，中文写作一般
GitHub Issues & Discussions	真实验代码审阅	SWE-bench 类任务表现出色，但偶尔出现幻觉
知乎 / V2EX 中文社区	中文用户实测对比	性价比极高，Flash 版本是"穷人的代码助手"
开发者博客 & 独立评测	特定场景对比测试	标准模式已超过 V3.2+ 大量优化，Max 模式进入第一梯队

社区测评为"代码能力极强、性价比突出"的共识和官方 Benchmark 数据高度一致。但普遍反馈的中文写作和创意生成弱项，在官方 Benchmark 中并不凸显——这也反映了 Benchmark 的局限：Benchmark 测不到的维度，往往是用户体验的盲区。

6.4 产业评测

实际产业场景中，V4 也被多家组织独立评测：

评测方	场景	结论
Scale AI	综合能力评估	V4 在编码和数学上超越多个闭源模型，但在长程推理上仍落后
Macaron (AI infra blog)	基础设施视角评测	所有 V4 数据均为官方宣称，尚未独立复现；但 V3 的官方数据已被验证，可信度较高
Nanonets	代码密集型任务评测	V4 适合代码生成场景，但在需要细致指令跟随的业务场景中可能不如 Claude

Scale AI 的评价尤其值得注意。作为 AI 数据标注和评测领域的权威机构，Scale AI 指出 V4 在编码和数学上超越多个闭源模型，但也在同一份报告中强调 V4 在长程推理（long-range reasoning）上仍有差距。这和本文第 5 章的综合估算一致。

6.5 来自开发者社区的独立评测

除了机构化评测，来自个人开发者和技术博客的独立测试也值得关注，因为它们往往更能反映"日常使用"的真实体验。

评测来源	方法	结论
Ben Eater (YouTube)	让 V4 从零编写一个 CPU 模拟器	成功完成，代码质量高于预期，但在调试环节需要人工介入
Simon Willison (Datasette)	SQL 生成和数据分析任务	V4 在复杂 SQL 生成上优于 Claude，但多步数据分析的逻辑安排不如 GPT-5
国内开发者社区	Spring Boot + React 全栈项目	V4-Flash 完成度 75%，V4-Pro 完成度 92%（Max 模式）
AI 编程对比博主	10 个 LeetCode Hard + 3 个实际 PR	V4 在 LeetCode 上几乎全对，实际 PR 的 bug 定位准确率 70%

一个有趣的"共识"出现在多个独立评测中：V4 在"写代码一次成型"这个维度上表现极好，在"调试和修改已有代码"上表现虽强但不如 Claude Opus 4.6 稳定。 这和官方 Benchmark 数据高度一致——代码生成类（HumanEval、LiveCodeBench）领先，代码编辑/Agent 类（SWE-Bench）和对手持平。

6.6 三个第三方评测的综合信号

把 Arena.ai、Vals AI、Scale AI 三家独立评测的信号放在一起：

信号	来源	可信度	含义
V4 代码能力达到开源顶配	Vals AI + Arena.ai	高	开发者可以放心在代码场景使用
V4 综合排名非第一	Arena.ai 第 14	高	非代码场景仍有差距
V4 较 V3.2 有代际级提升	三家一致	极高	从"能用"到"很好用"的跨越
知识推理差距 3-6 个月	Scale AI	中	需要后续迭代缩小
性价比极高	Vals AI + 社区反馈	极高	代码场景的 per-dollar 表现远超竞品

3 个第三方评测的结论和本文前几章的 Benchmark 分析高度一致。这不是巧合——而是多维度的数据正在收敛到同一个结论：V4 在代码领域的领先是真实的、多方验证的，它的知识推理差距也是真实的、多方验证的。Benchmark 分数没有骗人，但它只说了故事的一半。

七、Benchmark 的局限

讲了这么多 Benchmark 数据，有必要停下来问一个冷静的问题：这些数字到底在多大程度上反映了真实能力？

7.1 数据污染：最大的坑

数据污染（Data Contamination）是大模型评测中最普遍也是最隐蔽的问题。简单说：如果模型的训练数据里包含了测试题的答案，那它的高分就不是"做对了"而是"背出来了"。

数据污染的严重程度在不同 Benchmark 上天差地别：

Benchmark	污染风险	原因	可信度
HumanEval	极高	164 道题在网上存在 5 年+，几乎所有模型都见过类似题型	低
MMLU-Pro	高	题目从公开考试题中提取，几乎肯定在训练数据中出现	中低
SWE-Bench Verified	中	真实 Issue，但 Issue 文本和修复方案可能已在网络上传播	中
Codeforces	中高	老题目广泛传播，新题目尚未收录到训练集	中
LiveCodeBench	极低	动态采集发布后的新题，模型不可能"背过"	高
HLE	极低	专为评测新编写的 PhD 级题目，不会在训练数据中出现	高

重要提示： V4 的 HumanEval 93.5 和 LiveCodeBench 93.5 虽然分数相同，但含金量完全不同。前者可能是"背出来的"，后者几乎没有作弊可能。

这就是为什么行业越来越看重 LiveCodeBench 和 HLE 这类"动态"或"防污染"设计的 Benchmark。如果你的模型只在 HumanEval 和 MMLU 上高，但在 LiveCodeBench 上掉队，那它的高分很可能来自数据污染——这在 2024-2025 年的多个模型中都有先例。

对于 V4 来说，一个利好的信号是：LiveCodeBench 的 93.5 是所有已记录模型中的最高分。 这意味着 V4 在"无法作弊"的测试中同样表现出色，它的代码能力不是背出来的。

7.2 过拟合风险

即使没有数据污染，过拟合也是另一个问题。当一个模型被针对性地优化来刷高某个 Benchmark 的分数，它可能变成"会考试但不会做事"的偏科生。

V4 的哪些 Benchmark 可能存在过拟合风险？

Benchmark	过拟合信号	严重程度
HumanEval	接近天花板且和竞品差距极小	高——这个 Benchmark 的区分度已经耗尽
MMLU-Pro	分数提升主要来自训练数据量增加	中——大模型在 MMLU 上普遍存在过拟合
SWE-Bench Verified	V4 使用 Agent Expert 针对性训练	中低——虽然针对性训练了，但任务本身足够开放
LiveCodeBench	使用新鲜题目，训练集中无对应数据	低——防污染设计天然抗过拟合

SWE-Bench Verified 的情况比较微妙。 V4 的 Agent Expert 是在类似 SWE-bench 的任务上训练的，这本身就包含了一定程度的"针对性优化"。但 SWE-bench 的任务是开放的（现实世界 Issue），修复方案的搜索空间几乎是无限的，所以过拟合的风险低于 HumanEval 这类封闭测试集。

7.3 评测方法论差异

不同机构发布的同一 Benchmark 的分数可能不同，原因在于评测方法论不同：

方法论差异	对分数的影响	例子
Pass@1 vs Pass@k	Pass@k 通常更高（k 次采样中只要一次对就算对）	SWE-bench 中 Pass@3 比 Pass@1 高 10-15 分
是否使用 CoT	CoT 模式通常提升推理类分数	GPQA 中 CoT 模式可提升 5-15 分
采样温度	温度高时多样性好但单次准确率可能下降	代码生成时低温度通常更好
是否使用 Agent 框架	Agent 框架大幅提升 SWE-bench 等复杂任务	带 Agent 的 VS 不带 Agent 的可差 20+ 分
硬件精度	FP16/FP32 vs INT8/INT4	量化后精度下降 1-5%

这意味着 V4 的 58.2 SWE-bench Verified（标准模式）和 GPT-5.4 的 55.6（标准模式）比较，前提是两者的评测方法论完全一致。 如果前者用了不同的采样温度或不同的测试集子集，直接比较可能产生误导。

7.4 Benchmark vs 真实体验的差距

最后一个冷冰冰的事实：Benchmark 分数和用户真实体验之间的相关性正在降低。

原因有三：

Benchmark 场景化不足。 一个公司的 AI 产品不会只问 MMLU 上的题目。它可能是一个客服机器人、一个代码助手、一个内容生成工具——这些场景下的成功需要的能力，和 Benchmark 要测的不完全重合。
Benchmark 无视用户体验的细节维度。 模型是有"手感"的——输出的格式偏好、对指令的理解程度、在模糊需求下的主动澄清能力、对多轮对话中隐含意图的把握。这些在 Benchmark 上几乎不体现，但对日常使用体验影响巨大。
Benchmark 忽视了"失败模式"分布。 一个在某些任务上完美、但在另一些任务上离奇的模型，和一个在所有任务上都"还行"的模型——前者的 Benchmark 平均分可能更高，但用户更可能被它的"会坑"吓跑。V4 在 Agent 工具调用上的中等表现（Toolathlon 51.8）、中文写作上的不稳定性，属于典型的"强项很强、弱项明显"模式。

在实际选型时，正确的做法不是看"哪个模型的 Benchmark 分数最高"，而是看"哪个模型在你的场景里表现最好"。这需要在自己的业务数据上做评测，而不是只看公开的 Benchmark 榜单。

7.5 如何正确理解这批数据

说了 Benchmark 这么多局限，那我们应该怎么理解 V4 的这些数字？

我的建议是——不要用 Benchmark 做绝对判断，而是用 Benchmark 做排除法。

使用场景	应该关注的 Benchmark	不应该过分关注的 Benchmark
选型代码助手	SWE-Bench Verified, LiveCodeBench, Vibe Code Benchmark	HumanEval, MMLU-Pro
选型推理引擎	GPQA Diamond, HLE, AIME	MMLU, MATH-500（已接近天花板）
选型通用助手	Arena.ai 综合排名, SimpleQA-Verified	单项代码 Benchmark
选型长上下文应用	MRCR 1M, RULER	单轮对话 Benchmark
判断性价比	结合定价的 per-dollar 分数	不考虑成本的绝对分数

最有价值的 Benchmark 有三个特征：

防污染设计——题目不会出现在训练数据中（如 LiveCodeBench）
任务开放——搜索空间大，过拟合风险低（如 SWE-Bench）
场景与你的需求匹配——如果你做代码助手，看不好的代码 Benchmark 就是浪费时间

7.6 V4 数据需要独立复现

最后，一个必须提及的限制：截至本文写作时，V4 的大多数 Benchmark 数据尚未经过大规模的第三方独立复现。

这意味着两件事：

这些数字的可靠性取决于你对 DeepSeek 的信任程度。 V3 时代，DeepSeek 官方发布的数据后来被社区独立验证，基本准确。但这不是"永远可信"的保证——每一代新模型都是新的验证。
不同评测方法下的实际数字可能有 3-10% 的出入。 这对 V4 来说不是特例，GPT-5.4 和 Claude Opus 4.6 的官方数据和第三方复现之间同样存在差异。

社区正在进行的独立验证（Arena.ai 持续评测、Vals AI 独立报告）正在逐步填补这个空白。作为技术决策者，在 V4 的独立评测数据大规模出来之前，最好的策略是：相信官方数据的趋势（V4 很强、代码尤其强、性价比极高），但对具体的绝对数字保持适度保留。

把 V4 的 Benchmark 数字当成路标，而不是终点。它的真正价值，最终要在你自己的场景里去验证。

八、小结

对 DeepSeek V4 的 Benchmark 表现做一个简洁的总结：

在哪里最强

领域	定位	核心数据
代码生成（单函数）	世界顶级	HumanEval 93.5，最高分梯队
软件工程（真实 Issue 修复）	世界顶级	SWE-Bench 80.6 (Max)，和 Claude 4.6 持平
竞赛编程（防污染）	世界第一	LiveCodeBench 93.5，所有模型最高
竞技编程（Elo Rating）	世界顶级	Codeforces 3,206，超过所有模型的记录
Agent 端到端编码	开源第一	Apex Shortlist 90.2，Vals AI 开源第一
科学推理（Max 模式）	世界第一	GPQA Diamond 90.1，所有模型最高

在哪里还行

领域	定位	核心数据
数学竞赛	第一梯队下游	HMMT 95.2，略低于 GPT-5.4 的 97.7
综合知识	第一梯队	MMLU-Pro 87.5，和 GPT-5.4 接近
事实准确性	上游但非顶级	SimpleQA 55.2，落后 GPT ~7 个百分点
长上下文检索	中上游	MRCR 1M 83.5，低于 Claude 4.6

在哪里需要改进

领域	定位	核心数据
工具调用	第二	Toolathlon 51.8，落后 GPT-5.4 的 54.6
终端交互	第三	Terminal Bench 67.9，落后 GPT-5.4 的 75.1
超难推理（HLE）	中等	~32，落后 GPT-5.4 的 43.9 和 Gemini Deep Think 的 48.4
标准模式推理深度	中等	GPQA 标准模式 44.1 vs Max 模式 90.1，差距过大
中文写作/创意生成	一般	社区反馈弱于 GPT/Claude（Benchmark 未充分覆盖）

一句话结论

DeepSeek V4 是目前代码能力最强的开源模型，在全球所有模型中也处于代码方向的顶峰。在推理和知识维度，它通过 Max 模式可以进入第一梯队，但基础能力仍落后顶尖闭源模型约 3-6 个月。它的最大优势是性价比——以 GPT-5.4 约 1/10 的价格，提供在代码场景下接近或超越 GPT-5.4 的能力。

检验标准

[ ] 能说出 V4 在代码领域的三个 Benchmark 排名和分数（HumanEval 93.5、LiveCodeBench 93.5、SWE-Bench Verified 80.6 Max / 58.2 标准），并解释这些差异意味着什么——天花板测试 vs 防污染测试 vs 真实场景测试的区别
[ ] 能解释 GPQA Diamond 的 90.1（Max 模式）和 44.1（标准模式）之间的巨大差距意味着什么——V4 的基础推理能力并非最强，但长链推理能力卓越，使用 V4 做推理任务需要 Max 模式
[ ] 能理解数据污染对 Benchmark 可信度的影响——知道 HumanEval 污染风险极高（题目公开 5 年+）、LiveCodeBench 几乎不可污染（动态采集新题）、以及为什么 LiveCodeBench 的 93.5 比 HumanEval 的 93.5 含金量更高
[ ] 能描述 V4 在第三方评测中的位置——Arena.ai 综合第 14 / 开源第 3、Vals AI Vibe Code Benchmark 开源第一、知识推理仍落后最先进闭源模型约 3-6 个月

← 上一篇：后训练 OPD 与 GRM | 下一篇：长上下文与 Agent 能力 →

全面 Benchmark 评测 ​

一、引言 ​

二、代码能力 ​

2.1 HumanEval：重新定义天花板 ​

2.2 SWE-Bench Verified：真实软件工程的试金石 ​

2.3 LiveCodeBench：防作弊的竞赛级编程 ​

2.4 Codeforces：竞技编程的 Elo 评级 ​

2.5 Agent 编码能力 ​

2.6 Vibe Code Benchmark ​

2.7 多语言代码能力（Aider Polyglot） ​

2.8 代码能力综合评估 ​

三、推理能力 ​

3.1 GPQA Diamond：研究生级科学推理 ​

3.2 数学推理 ​

3.3 MATH-500：经典数学推理能力的度量衡 ​

3.4 HLE 与超难推理 ​

3.5 推理能力分类总结 ​

3.6 推理能力核心发现 ​

3.7 综合知识推理 ​

四、世界知识 ​

4.1 SimpleQA-Verified ​

4.2 MRCR 1M：长上下文知识检索 ​

4.3 多语言知识能力 ​

4.4 长上下文与知识对比全景 ​

五、与全球模型横评表 ​

5.1 顶尖模型大横评 ​

5.2 与国产模型的横向对话 ​

5.3 综合排名速览 ​

六、第三方评测 ​

6.1 Arena.ai（LMSys Chatbot Arena） ​

6.2 Vals AI Vibe Code Benchmark ​

6.3 社区实测与口碑 ​

6.4 产业评测 ​

6.5 来自开发者社区的独立评测 ​

6.6 三个第三方评测的综合信号 ​

七、Benchmark 的局限 ​

7.1 数据污染：最大的坑 ​

7.2 过拟合风险 ​

7.3 评测方法论差异 ​

7.4 Benchmark vs 真实体验的差距 ​

7.5 如何正确理解这批数据 ​

7.6 V4 数据需要独立复现 ​

八、小结 ​

在哪里最强 ​

在哪里还行 ​

在哪里需要改进 ​

一句话结论 ​

检验标准 ​