DeepSeek V4 概览与战略定位
从 V1 到 V4,DeepSeek 如何在万亿参数时代重新定义"性价比" | 预计阅读时间:25 分钟
一、引言
2026 年 4 月 24 日,DeepSeek 发布 V4 预览版。同一天,OpenAI 推出 GPT-5.5;前一天,腾讯发布混元 Hy3。三款重量级模型扎堆亮相,将 2026 年春天的 AI 竞赛推向白热化。
时间线放大来看更惊人:4 月 16 日 Anthropic 刚发布 Claude Opus 4.7,一周之内四家全球顶级 AI 公司接连出手。这不再是"谁先发布谁占便宜"的节奏,而是"谁不发布谁掉队"的生存压力。
但 DeepSeek V4 的发布姿态和一年前的 R1 截然不同。R1 发布时,DeepSeek 还是"那个让英伟达股价暴跌的中国创业公司"——一个搅局者、黑马、行业震撼弹。R1 让英伟达单日市值蒸发超过 5000 亿美元,整个 AI 产业被重新定价。而 V4 发布时,DeepSeek 已是国家级的 AI 代表,和中美科技竞赛深度绑定的关键玩家。
身份变了。
这家来自杭州、母公司为幻方量化的公司,过去 15 个月经历了太多:被鼓励采用华为昇腾而非英伟达芯片、第一代大模型核心作者王炳宣和 R1 核心作者郭达雅相继离职、新版本多次延期。36氪的一篇报道甚至用了"你等的 DeepSeek,早已变了"这样的标题。V4 本身,就是这些张力的产物。
但当你翻开 V4 的技术规格时,看到的不是妥协,而是几个实打实的硬指标:
- V4-Pro:1.6T 总参 / 49B 激活 / 61 层
- V4-Flash:284B 总参 / 13B 激活 / 43 层
- 上下文:1M token
- 词表:128K
- 训练数据:32T tokens
- 协议:MIT 开源
- 定价:Pro $1.74/$3.48、Flash $0.14/$0.28 每百万 token
这些数字放在 2026 年 5 月的市场上,是什么水平?Flash 版本每百万 token 仅 0.14 美元,比很多同类模型便宜一个数量级。Pro 版本在 Agent 编码测试(Vals AI Vibe Code Benchmark)中排名开源模型第一,且领先幅度不小。知识能力仅次于闭源巨头 Gemini 3.1 Pro。在数学、STEM 和竞赛级编程评测中,V4-Pro 超越了所有已记录的开源模型。
本文作为 V4 深度指南的开篇,帮你理清三个问题:
- DeepSeek 从 V1 到 V4 是怎么走到今天的?
- 2026 年的大模型市场是什么样的?
- V4 的双版本策略到底在打什么算盘?
知道了这些,后续的架构分析、训练方法和实战部署才有坐标系。
二、DeepSeek 发展历程
2.1 时间线总览
DeepSeek 的产品迭代速度在大模型创业公司中不算最快的——尤其在 R1 爆火之后,更新节奏反而放缓。但每一代都踩中了关键的技术拐点。
| 版本 | 发布时间 | 核心参数 | 关键创新 | 市场意义 |
|---|---|---|---|---|
| V1 | 2024.01 | 67B 总参 / 2T tokens | 首个通用大模型,追赶 GPT-3.5 水平 | "练手之作",验证团队能力 |
| V2 | 2024.05 | MoE + MLA | MoE 稀疏激活 + 多头潜在注意力 (MLA) | 架构觉醒,找到"效率路线" |
| V2.5 | 2024.09 | — | 代码能力专项优化,增强 Agent 能力 | 从"能写代码"到"懂程序员" |
| V3 | 2024.12 | 671B 总参 / 37B 激活 | $5.57M 训练成本逼近 GPT-4o | "AI 界拼多多"标签诞生 |
| R1 | 2025.01 | 推理专用模型 | 纯强化学习 (GRPO),比肩 o1 | 全球震撼,引发美股波动 |
| V3.2 | 2025.09 | — | Agent、推理、代码继续优化 | "中间版本",稳住基本盘 |
| V4 | 2026.04 | 1.6T 总参 / 49B 激活 | CSA+HCA 混合注意力 / mHC / Muon | 双版本策略,定义"性能-成本"新平衡 |
2.2 V1 (2024.01):练手之物
DeepSeek V1 发布于 2024 年 1 月,67B 参数,2 万亿 token 训练数据。当时国内市场已有百川、智谱、MiniMax 等多家公司在跑,V1 的目标很简单——证明团队能做出一款大模型。
性能在 GPT-3.5 级别,谈不上领先。但这个"练手"阶段的价值不在产品,而在人:团队通过 V1 走通了从数据清洗到分布式训练再到推理部署的完整 pipeline,为后续的快速迭代打下了工程基础。
V1 的意义不在于它有多强,而在于 DeepSeek 选择了"先做出来"这条路线。如果等到架构完美再发布,可能就没有后来的 V2、V3 了。这是典型的"先做出来,发布出来"的产品思维——在快速迭代中找到方向,而不是在纸面上追求完美。
2.3 V2 (2024.05):架构觉醒
2024 年 5 月,DeepSeek V2 发布。这次他们做了一个大胆的架构选择——MoE(混合专家)+ MLA(多头潜在注意力)。
MoE 不是新鲜技术,Google 在 2017 年的《Outrageously Large Neural Networks》中就提出了。但 MoE 有两个老问题:一是路由不稳定(模型不知道怎么选专家),二是推理时的 KV Cache 太大(因为专家多,每层都要缓存)。DeepSeek 在这个节点上做对了两件事:
第一,用 MoE 把模型拆成多个"专家"子网络,每次推理只激活其中一部分。这解决了"参数大了跑不起"的矛盾——模型可以继续做大,但推理成本只跟激活参数相关。
第二,提出 MLA(Multi-head Latent Attention),在 latent 空间压缩 KV Cache。传统多头注意力中,KV Cache 的大小跟序列长度和头数成正比,序列长了显存就爆。MLA 通过低秩压缩,把 KV Cache 的占用降到原来的十分之一级别。这不仅让推理更便宜,还让长上下文成为可能。
V2 的参数量级和 V1 一样是百亿级,但激活参数大幅下降。这意味着同样的硬件成本下,V2 可以支持更大的并发量。DeepSeek"高性能+低成本"的路线从 V2 开始确立。
如果你去看 V4 的技术报告,会发现一个有意思的事情:V4 放弃了 MLA。原因我们会在后续的注意力机制章节详细分析,简单说,V4 的 CSA+HCA 混合架构在 token 维度做压缩,而 MLA 是在 latent 维度做压缩,两者不想容。V4 的 CSA 实现了 4:1 甚至 128:1 的大尺度压缩,如果继续保留 MLA,叠加实现复杂度过高。放弃 MLA 不是退步,而是架构迭代中"舍"的智慧——每代架构选择最优组合,而不是固守过去的成功。
2.4 V2.5 (2024.09):从代码到 Agent
在 V2 和 V3 之间的几个月,DeepSeek 发布了 V2.5。这个版本的定位很务实——在 V2 的 MoE+MLA 架构基础上,重点优化代码和 Agent 能力。
V2.5 引入了一个关键能力:让模型在代码场景中更具"程序员思维"。以前的大模型处理代码任务时,往往把代码当成普通文本处理,不理解代码的结构化特征。V2.5 通过代码数据的专项训练和上下文窗口优化,让模型能更好地理解代码模块之间的调用关系。
这个优化为接下来的 V3 打下了基础——V3 之所以在代码和推理上表现突出,部分原因就是在 V2.5 阶段积累的经验。
从产品演进的角度看,V2.5 是 DeepSeek 从"做通用模型"到"在关键场景做深"的第一次尝试。之后的 R1(推理场景)、V4-Agent(Agent 场景)都延续了这个思路。
2.5 V3 (2024.12):成本屠夫
V3 是 DeepSeek 真正引起行业关注的产品。671B 总参数、37B 激活、多项基准测试逼近 GPT-4o——训练成本仅约 557.6 万美元。
这个数字在当时引发了巨大的讨论。国内主流大厂的训练成本普遍在数千万到数亿美元级别:百度文心超过 2 亿美元,阿里通义也在同量级,腾讯混元投入同样巨大。创业公司的成本相对较低,但也在 3000-6000 万美元区间。DeepSeek 的成本不到它们的十分之一。
这不是魔术,而是架构选择 + 工程优化 + 训练策略三者协同的结果:
- MoE 架构使每次训练只需激活 5.5% 的参数
- MLA 大幅压缩 KV Cache,降低显存消耗
- 并行训练策略(包括 FP8 混合精度)最大化硬件利用率
- 数据管线优化,减少无效训练轮次
具体来说,V3 在训练中使用了流水线并行(Pipeline Parallelism)和专家并行(Expert Parallelism)的组合策略。流水线并行把网络层切分到不同 GPU 上,专家并行把不同专家放到不同 GPU 上,两者叠加使 2048 块 H800 GPU 的训练利用率达到了 50% 以上。这个数字在 2024 年底的行业标准中属于顶级水平。
V3 的发布让 DeepSeek 获得了"AI 界拼多多"的称号。这个标签准确,但也有些误导——DeepSeek 的"便宜"不是靠偷工减料,而是靠架构创新换来的。V3 的 557.6 万美元训练成本包含了完整的数据处理、模型训练和 Alignment 流程,不是"缩水版本"。
2.6 R1 (2025.01):引爆全球
如果说 V3 是在行业层面引发了讨论,R1 就是在公众层面制造了海啸。
2025 年 1 月,DeepSeek 发布 R1 推理模型。R1 的核心创新是纯强化学习训练路线(GRPO,Group Relative Policy Optimization)——不依赖 SFT(监督微调)冷启动,让模型通过自主探索和学习,涌现出 o1 级别的推理能力。
具体来说,R1 的训练分成三个阶段:先用少量"冷启动数据"(几百到几千条)做一个初始的 SFT,让模型学会推理的基本格式;然后进入大规模 GRPO 训练,让模型在数学和编程任务上自主探索——做对了奖励,做错了惩罚,没有人类标注的"标准答案";最后再做一轮 SFT 提升输出质量。
结果是 R1 在 AIME 2024(美国数学邀请赛)上达到了 79.8% 的准确率,接近 OpenAI o1 的 80% 水平。而它的 API 定价仅为 OpenAI o1 的 1/50——o1 每百万 token 输出收费 60 美元,R1 只要 1.2 美元。
2025 年 1 月 27 日,DeepSeek App 同时登顶中美 App Store 免费榜,力压 ChatGPT。这是中国 AI 产品首次在美国市场登顶。
更大的冲击在资本市场。R1 发布后的一周内,英伟达股价单日暴跌约 17%,市值蒸发超过 5000 亿美元。整个 AI 产业叙事被重塑——从"军备竞赛"转向"效率竞赛"。市场突然意识到,AI 的竞争可能不是"谁砸的钱多谁赢",而是"谁花的钱少效果还好"。
CNN 在报道 R1 时说:"DeepSeek 用更少的钱做出了接近顶级的模型,这让华尔街重新思考几千亿美元的 AI 投资是否合理。"
R1 也让 DeepSeek 的处境发生了根本性转变:它不再只是一家创业公司,而是被推到了中美科技竞赛的前台。路透社在 2025 年初透露了一个细节:有关部门鼓励 DeepSeek 采用华为昇腾处理器,而非继续使用英伟达。梁文锋和任正非、马化腾、雷军等科技大佬一起坐在前排——DeepSeek 正式成为"国家队"成员。
这个身份转变带来了资源,也带来了约束。之后的故事——核心成员因薪酬无法匹配大厂股权激励而相继离职、V4 多次延期、需要同时适配国产芯片和英伟达 GPU——都和这个身份转变有关。
2.7 V3.2 (2025.09):过渡版本
R1 之后到 V4 之间,DeepSeek 持续迭代了 V3 系列。2025 年 8 月发布 V3.1,将 R1 的推理能力整合进通用模型,支持"思考模式"切换。同年 12 月发布 V3.2,推理成本再降 3 倍,Agent 能力和工具调用融合度更高。
但从社区反馈来看,这段时间 DeepSeek 已经被 Claude 4 系列(Opus 4.6 / Sonnet 4.6)在代码能力上显著超越。2026 年初的多家独立评测数据显示,DeepSeek 在第三方基准测试中的代码生成能力已落后于 Claude 4 系列。
V3.2 可以看作一个"稳住局面"的版本。它让 DeepSeek 在 V4 到来之前还能保持竞争力,但社区对"V4 什么时候来"的期待越来越高。原本有消息称 V4 会在 2026 年初的春节前后发布,但一直延期到 4 月。
这种节奏变化背后是多方面原因:国产芯片适配需要时间、团队人员变动、技术架构的大幅重构(放弃 MLA 转向 CSA+HCA),以及模型在 1M 上下文下的稳定性验证。
值得一提的是,V4 的技术报告提到了一个内部评测机制:让公司工程师在真实工作任务中选择模型进行评估。工程师可以自由选择 Claude Opus 4.5、4.6、GPT-5.5、V4-Pro 等模型来完成自己的任务,然后给出反馈。V4 的分数大约在 Opus 4.5 水平,和 Opus 4.6、GPT-5.5 还有差距。约 9% 的 DeepSeek 工程师表示不会将 V4-Pro 作为首选模型。这种内在评测结果的公开,在行业中相当罕见——多数公司只公布对自己有利的 Benchmark 数据。
2.8 V4 (2026.04):重量回归
等了 15 个月后的 V4,是一次从架构到工程再到战略的全面升级。具体参数规格我们会在第五节展开,这里先定性地说几个关键变化:
架构上,V4 放弃了沿用两代的 MLA,转向 CSA+HCA 混合注意力机制。CSA(Compression Shared Attention)在 token 维度做压缩,将输入的 token 序列压缩到原始长度的 1/4 甚至 1/128,大幅降低注意力计算的复杂度。HCA(Hardware-aware Chunk Attention)则针对 GPU/NPU 的硬件特性,将长序列切分为固定大小的块并行计算,提升硬件利用率。
同时,V4 引入了 mHC(manifold-constrained HyperConnection,流形约束超连接)来稳定 61 层深层网络的训练。传统的残差连接(ResNet 风格的 skip connection)在深层网络中容易导致梯度消失或爆炸,mHC 通过在残差路径上施加流形约束,让每一层的输入输出保持在可控范围内。
路由策略也发生了变化:从依赖模型计算亲和度的门控网络(Gating Network)改为 HashTop-K。HashTop-K 直接通过输入 Token ID 的哈希值来分配专家,不需要额外的路由网络。这简化了训练过程——路由网络本身也要训练、也会梯度更新,HashTop-K 去掉了这个复杂度。代价是路由的"智能性"略低于门控网络,但 V4 的实践证明,对于大规模 MoE,简单粗暴的哈希路由效果够用。
训练上,V4 采用了改进的 Muon 优化器(而非传统的 AdamW)。Muon 由北大团队开源,与 AdamW 的核心区别在于:AdamW 对每个参数独立调整学习率,而 Muon 在矩阵层面做正交化约束。对于 MoE 这种参数结构规整的模型,Muon 表现出更好的收敛速度和稳定性。V4 还对 Muon 的超参数做了创新调整(不同于原始论文的默认值),这些调整经验是 DeepSeek 训练工程的沉淀。
训练数据量从 14.8T 提升到 32T tokens。数据来源从以英文为主扩展到更加多元化,清洗策略也有升级。值得注意的是,激活参数占比从 V3 的 5.5% 降到了 V4-Pro 的 3% 出头——更极致的稀疏化。这意味着同样的硬件容量下,V4 可以支撑更大的模型规模。
策略上,V4 首次采用双版本策略(Pro + Flash),直接对标 GPT-5.5 和 Gemini 3.1 Pro。Pro 版本 1.6T 参数面向复杂任务,Flash 版本 284B 参数面向高频低成本场景。两个版本共享同一套 1M 上下文窗口、同一套注意力架构和同一套 API 接口。代码和 Agent 能力是本次升级的重点,V4-Pro 在 Agent 编码评测中达到开源模型最佳水平,世界知识仅次于闭源的 Gemini 3.1 Pro。
国产化策略上,V4 的技术报告明确提到模型在 Nvidia GPU 和华为昇腾 NPU 上都有部署方案。华为在 V4 发布当天宣布其超节点产品支持 DeepSeek V4。这意味着 V4 是第一个"生来就适配国产芯片"的 DeepSeek 旗舰模型。
但 V4 也有它的"坦诚":据技术报告披露的内部评测,约 9% 的 DeepSeek 工程师表示不会将 V4-Pro 作为首选模型。和 Claude Opus 4.5 相当、和 Opus 4.6 及 GPT-5.5 仍存在差距,这是他们自己说的。
说一个有意思的细节。晚点 LatePost 的专访中提到,V4 放弃了从 V2 到 V3 使用的 MLA,而同时期其他开源模型(Kimi K2.6、GLM-5.1)依然采用 MLA。DeepSeek 在这个节点上选择"换道",说明他们对 CSA+HCA 路线的信心足够强。一位被访的算法研究人员评价说:"DeepSeek 艺高人胆大。不仅引进了 mHC、HashTop-K,还大胆使用了 CSA 和 HCA 等 token-wise 压缩技术,甚至放弃了原有的 MLA 架构。"
2.9 身份转变的代价
V4 的发布时间线无法绕过 DeepSeek 的身份蜕变。R1 之后,这家公司不再只是一家创业公司。
2025 年初路透社报道:有关部门鼓励 DeepSeek 采用华为昇腾处理器,而非继续使用英伟达。梁文锋被安排坐在前排,和马化腾、任正非、雷军等科技大佬并肩——"国家队"的标签就这样贴上了。
身份转变带来了几个具体的代价:
技术路线的调整:从 Nvidia 到华为昇腾,不是简单的"换一个 GPU 品牌"。训练框架、算子库、通信库、精度适配——整整一层工具链都需要重新验证。这对 V4 的研发节奏产生了直接影响。
人才的流失:据晚点 LatePost 确认,第一代大模型核心作者王炳宣、R1 核心作者郭达雅、OCR 负责人魏浩然、多模态负责人阮翀相继离职。DeepSeek 作为未外部融资的初创公司(母公司幻方量化),薪酬虽然不算低,但无法匹配字节跳动、阿里、腾讯等市场化巨头的股权激励和估值溢价。在 R1 爆火之后,核心团队成为了猎头的重点目标。
节奏的放缓:从 V3(2024.12)到 V3.2(2025.09)到 V4(2026.04),DeepSeek 的更新节奏明显慢于 Claude(2-3 个月一次大版本)和 GPT(1-2 个月一次更新)。2026 年初,有媒体放出风声说"不要对 V4 有太高期待"。不过从最终发布的产品看,V4 的质量没有让人失望——'慢'的背后是架构重构的深度,不是团队懈怠。
外部的指控:Anthropic 和 OpenAI 公开指责 DeepSeek 不公平地基于他们的技术构建自己的模型。这类指控在 AI 行业不算新鲜(OpenAI 自己也被指责过),但作为中国 AI 公司的代表,DeepSeek 面对的审查和压力比其他创业公司更大。
如果说 R1 之前 DeepSeek 是一个"纯技术驱动"的公司,那 V4 的诞生环境已经变成了"技术 + 政策 + 竞争"三重驱动的模式。V4 的技术报告也反映了这一点:它既要证明在 Nvidia GPU 上的性能,也要验证在华为昇腾 NPU 上的部署;既要和 GPT-5.5 比分数,也要和国产模型比生态适配。
三、2026 年大模型竞争格局
3.1 一个拥挤的舞台
2026 年 4 月的最后一周,大模型行业前所未有地拥挤。如果把时间拉长到整个 4 月:
| 日期 | 发布方 | 模型/产品 | 意义 |
|---|---|---|---|
| 4 月 16 日 | Anthropic | Claude Opus 4.7 | 高端闭源旗舰补强 |
| 4 月 23 日 | 腾讯 | 混元 Hy3 preview | 国产多模态 Dense 路线代表 |
| 4 月 24 日 | OpenAI | GPT-5.5 | 闭源最强迭代 |
| 4 月 24 日 | DeepSeek | V4 Preview | 开源性价比旗舰 |
| 同期 | 阿里 | Qwen 3.6 | 轻量开源 MoE |
| 同期 | 月之暗面 | Kimi K2.6 | 长上下文路线延续 |
一周之内,Anthropic、OpenAI、腾讯、DeepSeek 四家公司接连出手。这不仅是巧合,更反映了行业节奏的加速——国际巨头基本保持 2-3 个月甚至 1 个月一次大迭代,而国产模型厂商也在以同样频率更新。
头部选手的竞争格局大致可以分为三层:
第一梯队(闭源旗舰):OpenAI GPT-5.x 系列、Google Gemini 3.x 系列、Anthropic Claude 4.x 系列。这三家在全球 AI 基础能力上仍保持领先。GPT-5.5 输入 $5/输出 $30、Claude Opus 4.7 输入 $5/输出 $25 的定价,说明它们的高端定位没有改变。Gemini 3.1 Pro 在世界知识测试中领先 V4-Pro,是目前公开评测中知识能力最强的模型。
第二梯队(开源头部 + 国产闭源):DeepSeek V4、阿里 Qwen 3.6、智谱 GLM-5、月之暗面 Kimi K2.6、腾讯混元 Hy3。这层的特点是互相追赶、差距极小。斯坦福大学 2026 年 AI 指数报告明确指出,中美顶级大模型差距已"实质性消除"。报告中的另一个数据更令人关注:在全球 Top-20 AI 研究机构中,中国有 11 家,超过美国的数量。阿里巴巴位列 2025 年全球顶级模型贡献榜第三名。
第三梯队(特定领域/区域玩家):MiniMax、零一万物、百川等。各有特色但整体能力与第二梯队有差距。这个梯队的存在也在收窄——AI 行业正在经历典型的"马太效应",头部玩家越来越强,中间层的生存空间被压缩。
竞争格局还有一个重要的宏观背景:进入 2026 年,全球 AI 大模型数量已超过 3700 个,其中中国贡献了 1500 个以上。但真正有市场竞争力的不超过 20 个。模型数量的暴增和有效竞争的缩小,意味着"模型同质化"正在取代"模型稀缺"成为行业的新问题。
3.2 GPT-5.5 同日发布
OpenAI 选择在 4 月 24 日发布 GPT-5.5,和 DeepSeek V4 撞在同一天。这不是巧合,是一次有意识的"对冲"——不想让 V4 独享当天的媒体关注度。
GPT-5.5 的主要升级在推理深度和工具调用稳定性。据 OpenAI 官方公布的基准测试,GPT-5.5 在多项指标上领先 V4-Pro,但差距已经缩小到 5% 以内。对于行业观察者来说,更重要的是另一个信号:OpenAI 的领先优势正在被蚕食。
一个具体的佐证:V4 在 Agent 编码测试(Vals AI Vibe Code Benchmark)中成为排名第一的开源权重模型,且领先幅度不小。Vals AI 在 X 上评论说:"DeepSeek V4 现在是我们 Vibe Code Benchmark 上排名第一的开源权重模型,而且领先幅度不小。"
代码能力曾经是 GPT 系列最核心的护城河,也是开发者愿意为 ChatGPT Plus 付费的主要原因。现在,一个完全开源、MIT 协议、API 价格仅为 GPT-5.5 五分之一的模型,在代码能力上追到了这个位置。这对 OpenAI 的商业模式意味着什么,是一个值得持续观察的问题。
但也要客观地说,GPT-5.5 在以下几个维度上仍然领先 V4-Pro:多模态理解(图片和视频分析)、工具调用稳定性(尤其是多工具协同的长链路任务)、以及真实环境下的鲁棒性。OpenAI 在这些"系统工程"层面的积累,不是架构创新能一夜追上的。
3.3 腾讯混元 Hy3 前一天发布
腾讯的混元 Hy3 在 4 月 23 日发布,比 V4 早一天。选择的策略和 DeepSeek V4 恰好相反——Hy3 走的是"超大密模型"(Dense)路线,而非 MoE 稀疏路线。
Hy3 的参数规模没有完全公开,但据腾讯官方博客,它在中文理解和多模态融合方面有独特优势。Hy3 原生支持图片、视频和文本生成的融合,这是 DeepSeek V4 目前还没有做到的。V4 目前主要是文本模型,多模态能力需要通过外部系统集成。
不过和 V4 相比,Hy3 在开源策略上不够激进——没有完全开源,API 定价也更高。腾讯的策略更像是"用 Dense 架构守住多模态优势",而不是在通用语言模型上和 DeepSeek 打价格战。
腾讯混元的选择其实反映了 2026 年大模型行业的一个核心分歧:MoE 稀疏路线还是 Dense 致密路线?
MoE 路线的拥护者认为:稀疏激活是唯一能在合理成本下支撑万亿参数模型的方案。Dense 路线的坚持者认为:MoE 的路由不稳定、专家坍缩(某些专家从不被激活)等问题还没有完美解决,Dense 模型在训练和部署上更稳定。
DeepSeek 是 MoE 最坚定的信徒,从 V2 到 V4 坚持了三年。Google 的 Gemini 也走 MoE 路线。而 OpenAI 的 GPT 系列、腾讯 Hy3、以及早期的 Claude 系列走的是 Dense 路线(虽然 Anthropic 后来在 Claude 4 中也融入了类似 MoE 的设计)。这个分歧不会在短期内消除,而是会演化为两种技术路线的长期并存和互相借鉴。
3.4 中国 AI 的集体出击
DeepSeek V4 发布的同一周,中国 AI 行业不是只有 DeepSeek 在行动。整个生态系统都在同步推进:
- 阿里 Qwen 3.6:35B 总参 / 3B 激活的小型 MoE,主打本地和端侧部署。Qwen 的策略和 DeepSeek 不同——他们不去抢旗舰性能,而是深耕"模型在设备上运行"的场景。Qwen 的技术路线更强调部署友好性,量化后可以在手机、笔记本电脑等设备上运行,适合离线场景。
- 智谱 GLM-5.1:和 DeepSeek 长期在开源 MoE 路线上竞争。GLM-5.1 激活比例为约 5.3%(高于 V4 的 3%),延续了 MLA 架构。GLM 在中文理解和多任务泛化上有独特优势,其 Agent 开源框架 AutoGLM 是国内 Agent 生态的重要组成部分。
- 月之暗面 Kimi K2.6:长上下文路线上的重要玩家。K2.6 的激活比例约 3.2%,和 V4-Pro 的 3% 接近。Kimi 在长文档理解和多轮对话方面积累了大量用户数据。值得注意的是,Kimi 也沿用了 MLA 架构——V4 放弃的路线在 Kimi 这里还在持续演进。
- 字节跳动豆包:依托抖音的流量优势做 C 端渗透。豆包的底层模型也在同步更新,但字节的 AI 策略更偏向产品端——模型能力服务于应用场景,而不是追求 Benchmark 排名。
- MiniMax M2.7:激活比例约 4.35%,介于 V4-Pro(3%)和 V3(5.5%)之间。MiniMax 在语音和实时交互方面有独特的积累。
这些模型的差异化策略反映了 2026 年中国大模型市场的成熟:不再是所有人都在做"通用大模型",而是各自选择了不同的竞争方向——DeepSeek 打性价比旗舰,Qwen 推端侧部署,Kimi 拼长上下文,智谱强 Agent 框架。产品策略的差异化程度提高了,这对开发者来说是好事——可以根据场景需求选择最合适的模型。
新华社报道提到一个细节:华为昇腾超节点产品在 V4 发布当天宣布支持 DeepSeek V4——这不是巧合,是国产算力生态在集体推进。国产"模型-芯片-云"的闭环正在加速跑通:
- 模型层:DeepSeek V4、Qwen 3.6、GLM-5 等多个国产开源模型在开源社区有活跃生态
- 芯片层:华为昇腾 910B/950 是主力,寒武纪 MLU370/590、海光 DCU 也在跟进适配
- 云服务层:华为云、阿里云、腾讯云都在推出国产模型推理服务,支持一键部署
对中国市场的用户来说,这意味着一个完整的国产 AI 替代方案正在成型。V4 是这个链条上的关键一环——它证明国产模型在架构创新上可以和全球最强竞争,同时也为国产芯片验证了上层应用的可行性。
3.5 格局特征
2026 年的大模型竞争有几个显著特征:
一是"军备竞赛"没有停。 尽管 R1 曾引发"AI 投入是否过度"的质疑,但到 2026 年,美国科技巨头的 AI 基础设施投资预计达到 6500 亿美元。市场叙事从"花太多"又回到了"不花不行"。这笔钱主要流向三个方向:GPU 采购和集群建设(约占 60%)、数据中心租赁和运营(约占 25%)、电力和冷却系统(约占 15%)。
一个对比:2025 年初 R1 刚发布时,市场曾短暂质疑"不需要那么多算力"。一年后,所有质疑都消失了。因为"算力需求"和"模型效率"不是零和博弈——模型效率提升了,对算力的总需求反而会更大,因为更多人用得起、更多场景被打开。这就是杰文斯悖论(Jevons Paradox)在 AI 行业的重演。
二是开源和闭源的差距持续缩小。 在多项基准测试中,Top-5 开源模型的表现已经接近甚至在某些维度上超越了闭源模型。V4 是这个趋势的最新例证。DeepSeek 在技术报告中明确写道:"V4-Pro 在 Agent 编码评测中达到开源模型最佳水平,在知识能力上仅次于闭源的 Gemini 3.1 Pro。"
这种差距的缩小不是偶然的。开源社区可以复现和改进顶会论文的方法,训练框架和工具链也在快速成熟。更重要的是,像 DeepSeek 这样的开源发布者,把完整的训练经验(技术报告)和模型权重(MIT 协议)都开放出来,降低了整个行业的技术门槛。
三是竞争从"参数竞赛"转向"场景渗透"。 模型能力虽然还在提升,但边际收益在递减。GPT-4 到 GPT-4o 的提升幅度大于 GPT-4o 到 GPT-5 的提升幅度,而 GPT-5 到 GPT-5.5 的提升幅度更小。同样的趋势在 Gemini、Claude 和 DeepSeek 各版本中都能观察到。
真正的战场已经转移到了:谁能把模型用到真实场景中、谁会更快地推出差异化的产品功能、谁的开发者生态更活跃。这也是为什么 V4 选择在 Agent 和编码能力上重点突破——这些场景能直接转化为开发者的实际生产力,而不是停留在 Benchmark 排行榜上。
这一点在 DeepSeek 自身也能看到。V4 的 Agent 能力和代码能力的提升幅度远大于世界知识和推理的提升幅度——这是对"什么能力最值钱"的判断决定的。世界知识可以通过联网搜索或 RAG 来补充,但可靠的工具调用和编码能力,是 Agent 产品能否真正落地的基础。
四、双版本定位
4.1 Pro vs Flash
V4 第一次为 DeepSeek 引入了双版本策略——Pro 和 Flash。这不是简单的"大模型和小模型"的区别,而是两种不同的设计哲学。
| 维度 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数量 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 层数 | 61 | 43 |
| 上下文 | 1M | 1M |
| 词表 | 128K | 128K |
| 定价(输入/输出/百万 token) | $1.74 / $3.48 | $0.14 / $0.28 |
| 目标场景 | 复杂推理、Agent 编码、高阶知识任务 | 常规问答、内容生成、批量处理 |
| 对标对象 | GPT-5.5、Claude Opus 4.6、Gemini 3.1 Pro | GPT-5-mini、Claude Haiku、Gemini Flash |
| 当前瓶颈 | 吞吐量受限(算力不足) | 复杂任务能力略逊 |
4.2 Pro:旗舰,但限流
V4-Pro 是面子里子都在的旗舰产品。从参数规模看,1.6T 总参数使它成为开源世界中最大的模型之一;从性能看,世界知识只落后于 Gemini 3.1 Pro,Agent 编码在开源模型中排名第一,数学、STEM 和竞赛级编程评测中超越了所有已记录的开源模型。
但 DeepSeek 自己也承认:受限于高端算力,Pro 版本的服务吞吐十分有限。这既是产能问题,也是战略问题——在被鼓励使用国产芯片后,高端英伟达 GPU 的获取受到限制。V4 的技术报告明确提到,模型在 Nvidia GPU 和华为昇腾 NPU 上都有部署方案。
目前 Pro 版本的实际使用体验是:复杂推理任务响应质量高,但并发容量有限,高峰时段可能出现排队。对于需要低延迟和高并发的生产环境,Pro 版本目前还不是理想的方案。
不过这个情况预计会在 2026 年下半年改善。届时昇腾 950 超节点批量上市,国产算力的规模和成熟度都将大幅提升。DeepSeek 自己也说,大规模部署后 Pro 的价格会下调。Pro 目前的瓶颈不是模型本身,而是基础设施。
从产品定价策略来看,Pro 的有效价格还有一个重要的隐藏变量:缓存命中。当系统提示在多轮对话中重复使用时(比如 Agent 场景的系统提示),缓存命中价只有未命中价的约 1/120($0.0145 vs $1.74)。这意味着如果应用设计得当,Pro 的实际使用成本可能远低于标称价格。
4.3 Flash:走量主力
Flash 版本的目标很明确:走量。284B 总参 / 13B 激活,定价仅为 Pro 的 8%($0.14 vs $1.74),性能在简单任务上接近 Pro,在复杂推理上确实有差距。
从模型架构角度看,Flash 不是 Pro 的简单"减配版"。它有自己的网络结构(43 层 vs 61 层),共享相同的注意力架构(CSA+HCA)和训练数据(32T tokens),只是在规模和深度上做了适配。这意味着 Pro 在架构验证上的经验和优化可以直接迁移到 Flash 上。
这个价格是什么概念?对比一下 2026 年的市场均价:
- 主流闭源模型:$2-$15 每百万 token
- 中型开源模型:$0.3-$1 每百万 token
- V4-Flash:$0.14 每百万 token
换算成人民币更直观:V4-Flash 处理 100 万 token 的文本(约 75 万字),输入费用只要约 1 元人民币。这意味着一篇 5000 字的文章,处理成本不到 1 分钱。
Flash 的定价几乎扫清了"尝试门槛"。对于中小开发者和创业团队,Flash 意味着可以在极低的预算下搭载大模型能力。按典型 3:1 的输入输出比计算,Flash 的混合成本约 $0.17/M token。即使一个应用每天处理 1000 万 token(约 750 万字),月费也只有约 510 美元——对于 SaaS 产品来说完全可以接受。
这正是 DeepSeek 一直以来的路线——用技术换成本,用成本换规模。Flash 版本让 DeepSeek 从"开发者愿意试一下"变成了"开发者无脑就能用"。
4.4 选型指南:Pro 还是 Flash?
Pro 和 Flash 的适用场景有清晰的边界:
无脑选 Flash 的场景:
- 日常对话、文本摘要、翻译、分类抽取
- 内容生成(文案、邮件、报告初稿)
- 批量数据处理(对成本敏感,对延迟要求不高)
- 原型开发和快速验证
- 教育、辅助写作等轻度 AI 应用
必须上 Pro 的场景:
- 复杂数学推理、逻辑证明、竞赛级编程
- Agent 多步工作流(需要稳定地执行 5 步以上的工具调用链)
- 大规模代码重构、跨文件分析
- 需要深度推理的专业场景(法律分析、金融建模)
- 长文档的深度理解与问答
混合策略:对于大多数产品,最佳方案是 Pro + Flash 混用:
- 简单对话 / 检索 → Flash
- 复杂推理 / Agent 决策 → Pro
这种"任务路由"模式可以让综合成本降低 60-70%,同时不牺牲复杂任务的处理质量。DeepSeek 的统一 API 接口让这种切換非常简单——改一下 model 参数就行。
4.5 双版本策略的商业逻辑
从产品思维看,双版本策略解决了一个核心矛盾:"最强"和"最便宜"不能在同一个人身上实现,但可以在同一个品牌下共存。
Pro 负责建立"DeepSeek 能打"的心智定位——在 Benchmark 和行业讨论中露脸,逼对手跟进。Flash 负责吃下真实的市场份额——让最多的人用起来,在 To B 场景中建立黏性。
这和 OpenAI 的 GPT-4o / GPT-4o-mini 策略、Anthropic 的 Sonnet / Haiku 策略、Google 的 Gemini Pro / Flash 策略本质上是一样的。区别在于 DeepSeek 把两个版本的价差拉得更开——Pro 是 Flash 的 12 倍价格,给用户更大的选择弹性。
还有一个值得注意的设计:缓存命中机制。在 Agent 场景中,系统提示、工具描述和上下文信息会在多轮对话中重复发送。DeepSeek 的缓存命中折扣(未命中价的 1/60 到 1/120)让这类高频重复调用的场景成本大幅下降。这本质上是"用工程手段把 Flash 的价格又降了一档"。
这个策略还有一个隐性收益:数据飞轮。Flash 的便宜价格会吸引大量用户,这些用户的使用数据(在用户许可的范围内)可以帮助 DeepSeek 理解模型在实际场景中的表现、识别需要改进的方向。这些数据再反馈到下一轮模型训练中。Pro 的高性能定位则可以吸引付费意愿强的重度用户,为 DeepSeek 贡献直接的商业收入。
五、核心规格总览
5.1 关键参数一览
| 规格项 | V4-Pro | V4-Flash | V3(对比) |
|---|---|---|---|
| 总参数量 | 1.6T | 284B | 671B |
| 激活参数 | 49B | 13B | 37B |
| 激活比例 | ~3% | ~4.6% | ~5.5% |
| 注意力 | CSA + HCA | CSA + HCA | MLA |
| 上下文 | 1M tokens | 1M tokens | 128K tokens |
| 词表 | 128K | 128K | 128K |
| 训练数据 | 32T tokens | 32T tokens | 14.8T tokens |
| 层数 | 61 层 | 43 层 | 67(DeepSeek V3 总层数) |
| MoE 路由 | HashTop-K | HashTop-K | Top-K(门控网络) |
| 优化器 | Muon | Muon | AdamW |
| 超连接 | mHC | mHC | 标准残差连接 |
| 开源协议 | MIT | MIT | MIT |
| 训练硬件 | NVIDIA + 昇腾 | NVIDIA + 昇腾 | NVIDIA H800 |
5.2 几个值得注意的趋势
激活比例持续走低。 V3 的激活比例为 5.5%,V4-Pro 降到了 3%,V4-Flash 约 4.6%。同期其他 MoE 模型的激活比例:Kimi K2.6 约 3.2%、MiniMax M2.7 约 4.35%、GLM 5.1 约 5.3%。DeepSeek 在这条路上走得最极致。更低的激活比例意味着更高的"参数利用率"——用更少的活跃参数实现更强的能力。
上下文从 128K 到 1M。 V3 的 128K 上下文在 2024 年底是标准配置,V4 一口气提升到 1M,跟上了 Google Gemini 和 Anthropic Claude 的节奏。1M token 约等于一部完整长篇小说的文本量,或一个中型项目的完整代码库。
这次提升不是简单的"加长",而是通过 CSA+HCA 新架构在控制计算成本的前提下做到的。传统注意力机制的计算量随序列长度平方增长(O(n^2)),1M token 的朴素注意力计算在现有硬件上几乎不可行。CSA 通过 token 压缩把有效序列长度降到 1/4 甚至 1/128,HCA 通过分块并行把计算分散到多个计算单元上——两者配合,把 1M 上下文的推理控制在了可接受的成本和延迟范围内。
1M 上下文的实用价值在于:Agent 可以一次性读取完整的项目文档和代码库,然后执行复杂的跨文件任务;RAG 应用可以不做分块,直接塞入整篇文档进行问答;长文档分析不再需要滑动窗口式的分片处理。这些场景在 128K 时代需要复杂的工程技巧,在 1M 时代变成了原生能力。
词表维持 128K。 这个数字从 V2 开始就没变过。128K 的词表对中文和多语言的支持已经足够,DeepSeek 没有选择像某些对手那样大幅扩张词表去追求边际上的翻译质量提升。这个决策本身也是一种效率思维——词表越大,嵌入层参数越多,但收益递减。扩大词表到 256K 或 512K 带来的 translate 能力提升有限,但会让模型体积膨胀 10% 以上。DeepSeek 选择把算力花在其他地方。
训练数据翻倍不止。 V3 用了 14.8T tokens,V4 达到 32T tokens。数据量翻倍的同时,模型能力的提升幅度是否同步?从 V4 公布的 Benchmark 来看,在知识类测试上的提升更明显(数据多了自然知道得更多),但在推理类测试上的提升更多来自架构改进而非数据量增加。这也印证了一个行业共识:当数据量超过某个阈值后,数据质量和清洗策略的重要性已经超过数量。
双硬件适配。 V4 是 DeepSeek 第一个明确标注"NVIDIA + 昇腾"双硬件支持的版本。这不仅是因为政策要求,也是技术上的必要选择——在昇腾芯片上做训练需要重新适配通信库和算子库,这是一项不小的工程投入。V4 做到了在两种硬件平台上都能运行,但性能表现可能还有差异。随着昇腾生态的成熟,这种差异会逐步缩小。
FP4 量化训练。 从 V3 的 FP8 进一步降到 V4 的 FP4。更低精度的训练意味着更低的显存消耗和更快的计算速度,但也意味着更高的训练不稳定风险。V4 通过 mHC 超连接和优化后的 Muon 优化器来补偿精度损失带来的训练稳定性问题。如果 FP4 训练能在实际中得到充分验证,它将是大规模模型训练工程的一个重要里程碑。
5.3 API 兼容与定价体系
V4 同时支持 OpenAI 和 Anthropic 两种 API 格式,这意味着现有的 GPT 或 Claude 用户可以几乎零成本地切换到 DeepSeek V4。支持的能力包括:
- 思考模式 / 非思考模式切换:Pro 和 Flash 都默认开启思考模式,支持深度推理链。非思考模式提供更快响应。
- Function Calling(工具调用):Agent 场景的核心能力。
- JSON 结构化输出:适合程序化调用,保证输出格式可控。
- FIM 补全:代码补全场景(仅非思考模式)。
V4 的定价分三个层级,理解这个结构对实际使用成本影响很大:
| 计费项 | V4-Flash | V4-Pro | 说明 |
|---|---|---|---|
| 输入(缓存未命中) | $0.14 / M token | $1.74 / M token | 首次处理的 token |
| 输入(缓存命中) | $0.0028 / M token | $0.0145 / M token | 重复使用的 token |
| 输出 | $0.28 / M token | $3.48 / M token | 模型生成的 token |
缓存命中价是理解实际成本的关键。在 Agent 场景中,系统提示、工具描述和上下文信息会在多轮对话中重复发送。缓存命中价只有未命中价的约 1/60(Flash)或 1/120(Pro),这意味着设计良好的应用实际成本可以远低于标称价格。
5.4 与竞品的成本对比
把价格放到竞品中看更直观(混合估算按 3:1 输入输出比,未考虑缓存命中折扣):
| 模型 | 输入 ($/M) | 输出 ($/M) | 混合成本 ($/M) | 是否开源 |
|---|---|---|---|---|
| V4-Flash | $0.14 | $0.28 | ~$0.17 | MIT |
| V4-Pro | $1.74 | $3.48 | ~$2.17 | MIT |
| GPT-5.5 | $5.00 | $30.00 | ~$11.25 | 否 |
| Claude Opus 4.7 | $5.00 | $25.00 | ~$10.00 | 否 |
| Gemini 3.1 Pro | $2.50 | $10.00 | ~$4.38 | 否 |
V4-Flash 的成本不到 GPT-5.5 的 2%,V4-Pro 不到 GPT-5.5 的 20%。这个价差意味着,在成本敏感的业务场景中,DeepSeek 几乎是没有竞品的选择。
六、从参数竞赛到价值竞赛
6.1 IDC 的三个时代
IDC 在 2026 年初的一份报告中,将大模型的发展划分为三个时代:
参数竞赛时代(2022-2024):模型迭代的核心指标是参数规模和 Benchmark 分数。谁的参数大、谁的分数高,谁就赢。这个阶段的代表是 GPT-4 的 1.8T 参数(估计)、PaLM 的 540B、以及各种"千亿参数俱乐部"的称号。企业采购模型时,第一句话问的是"你参数多大"。
应用渗透时代(2025-2026):模型能力趋同后,竞争转向"谁能更快更好地落地"。参数不再是最重要的卖点,而是模型能不能稳定运行、API 好不好用、能不能私有化部署、价格够不够便宜。这个阶段的代表是 R1 的"性价比震撼"、Claude 在代码场景的深耕、以及 GPT 在 Agent 产品上的布局。
价值竞赛时代(2027+):最终比拼的是模型在真实业务场景中创造的价值——成本和收益的净差值。"最强"但价格昂贵的模型,可能输给"够用"但便宜十倍的模型。企业的选型逻辑从"选最强的"变成"选 ROI 最高的"。
这个划分虽然简化,但抓住了主线。2026 年正是"应用渗透"阶段的中期。模型的 SOTA 之争还在继续(GPT-5.5 vs Gemini 3.1 Pro vs Claude Opus 4.7),但每次 SOTA 更新的边际关注度在下降。行业的话题已经从"谁的分数最高"变成了"谁被用得多"。
V4 的发布恰好站在两个时代的交汇点:它仍然在参数维度上做了大幅扩展(1.6T),但同时把更多的优化投入放在了 Agent 能力和代码能力——"应用渗透"期最需要的能力。从架构设计看,它为"价值竞赛"时代做好了准备(双版本定价、MIT 开源、国产芯片适配)。
6.2 参数竞赛的尽头
对比一下主要模型在参数规模上的演进:
| 时间 | 模型 | 总参数 | 备注 |
|---|---|---|---|
| 2023 | GPT-4 | ~1.8T(估计) | 闭源,商业机密 |
| 2024.12 | DeepSeek V3 | 671B | 当时最大开源 |
| 2025 初 | Gemini 2.0 | — | 谷歌未披露参数 |
| 2025 中 | 多个国产模型 | ~1T | 接近 GPT-4 级别 |
| 2026.04 | DeepSeek V4 | 1.6T | 国产开源首次超万亿 |
万亿参数不是终点,但参数增长的边际收益确实在下降。一个 1.6T 的模型在多项基准测试上逼近 1.8T 的 GPT-4(估计值),这说明架构效率比参数规模更重要——而这正是 DeepSeek 用 MoE 路线一直在验证的事情。
从另一个角度看,激活参数的比例变化也说明了问题。V3 的激活比例是 5.5%(37B / 671B),V4-Pro 进一步降到 3%(49B / 1.6T)。这意味着 DeepSeek 的策略不是"增加绝对激活参数",而是"在总参数暴涨的同时控制激活参数的增长幅度"。激活参数从 37B 增加到 49B(增长了 32%),但总参数从 671B 涨到 1.6T(增长了 138%)。差距是用更极致的稀疏化填补的。
但从行业横向对比来看,V4-Pro 的激活参数 49B 并不是最大的。Claude Opus 4.6 和 GPT-5.5 的激活参数(估计)可能在 100B 量级。从这个角度看,V4-Pro"用更少的激活参数做到接近的分数",恰恰是它效率路线的体现。
6.3 V4 vs V3:关键改进总结
为了更直观地理解 V4 的"升级幅度",这里把 V4-Pro 和 V3 在几个关键维度上做个直接对比:
| 维度 | V3 | V4-Pro | 改进幅度 |
|---|---|---|---|
| 总参数 | 671B | 1.6T | +138% |
| 激活参数 | 37B | 49B | +32% |
| 上下文 | 128K | 1M | +700% |
| 训练数据 | 14.8T | 32T | +116% |
| 注意力架构 | MLA | CSA+HCA | 全新设计 |
| 优化器 | AdamW | Muon | 替换 |
| 路由策略 | Top-K 门控 | HashTop-K | 替换 |
| 超连接 | 标准残差 | mHC | 增强 |
| Agent 能力 | 基础 | 旗舰级 | 大幅增强 |
| 版本策略 | 单版本 | Pro + Flash | 新增 |
| 国产算力适配 | 无 | 华为昇腾 | 新增 |
从这张表的对比可以看清 V4 的升级主线:不是在 V3 的基础上修补,而是从架构到训练到部署的全面重构。注意力机制、优化器、路由策略、超连接——四个核心组件全部换新。这和"V3 加长上下文、加更多数据"的增量迭代有本质区别。
6.4 效率才是 DeepSeek 的核心竞争力
回头看 DeepSeek 的整个技术路线,有一条清晰的底层逻辑:不是追求能力最强,而是在同等能力下追求成本最低。
这个选择是产品思维的结果——大部分人需要的不是"最强",而是"够用且便宜"。V3 证明了可以花不到 600 万美元训练出接近 GPT-4o 的模型。V4 进一步推进这个叙事:Pro 版本能力逼近闭源旗舰,但 Flash 版本的价格让所有人都用得起。
如果借用花叔的一句话来说:DeepSeek 做的事不是"造最快的车",而是"让每个人都开得上性能不错的车"。V4-Flash 的 $0.14/M token 定价,把这个"开得上"的门槛降到了几乎可以忽略的程度。
具体到架构决策上,DeepSeek 的效率路线体现在三个层次:
架构层:MoE 稀疏激活 + CSA/HCA 混合注意力,追求"每单位算力的能力产出"最大化。MoE 保证总参数大但激活参数小——1.6T 的模型只激活 49B,意味着 GPU 显存只需要同时加载 49B 参数的计算图。CSA/HCA 保证 1M 上下文的计算复杂度从 O(n^2) 降低到近似线性。
训练层:Muon 优化器 + FP4 量化训练 + 高效的并行策略,追求"每单位 GPU 小时的训练收益"最大化。V4 在更低精度(FP4)下训练(V3 是 FP8),同样算力下可以训练更大的模型。同时优化了超大规模分布式训练的通信开销——跨 2048+ GPU 的 All-to-All 通信在 MoE 架构下是个巨大的工程挑战,V4 在这一块做了专项优化。
推理层:双版本定价 + 缓存命中折扣 + 内存优化,追求"每单位推理成本的服务能力"最大化。1M 上下文的推理意味着每次前向传播都要处理百万级 token 的注意力矩阵——如果不做优化,这份计算量和显存占用是天文数字。V4 通过 CSA 的 token 压缩(4:1 甚至 128:1)和 HCA 的分块缓存策略,把推理成本控制在了可接受范围内。
这层效率驱动的逻辑,可以借用花叔的"简洁即力量"框架来理解:不跟风做最复杂的架构,而是用简单的组件组合出高效的方案。V4 放弃了 MLA 不是因为 MLA 不好,而是在新的混合注意力架构下不需要它了——这是架构迭代中"舍"的智慧。大多数公司倾向于在已有架构上叠加新组件("多一层总是好的"),而 DeepSeek 愿意放弃过去成功的东西、换一条路重来,这需要相当的技术自信。
6.5 V4 的定位与局限
综合以上分析,V4 的市场定位可以总结为三句话:
- 对开发者:Flash 版本可以低成本入手的性价比选择,Pro 版本是性能上限测试的前沿阵地。建议采用"混合策略"——80% 的简单任务用 Flash,20% 的复杂任务用 Pro。
- 对企业:国产芯片适配和开源 MIT 协议降低了私有化部署的门槛,合规成本更低。尤其适合有数据合规需求、需要模型私有化部署的企业。
- 对整个行业:V4 验证了 MoE 稀疏架构的持续扩展潜力,为万亿级开源模型的工程实践提供了参考。同时也验证了"放弃 MLA 转向 CSA+HCA"这条新路线的可行性。
V4 不完美,有几个明确的局限需要说清楚:
- 和顶配闭源模型仍有差距:主要体现在多模态能力、复杂工具协同、真实环境鲁棒性上。DeepSeek 自己都承认这个差距。
- 算力受限导致服务容量有限:Pro 版本目前吞吐有限,不适合高并发的生产环境。这个问题要等到昇腾 950 超节点规模部署后才能缓解。
- 内部员工接受率并非 100%:约 9% 的 DeepSeek 工程师在内部评测中不选 V4-Pro 作为首选模型。虽然这个数字在任何团队中都算正常,但说明 V4 还没有达到"全团队信服"的程度。
- 开源生态尚在建设中:和 GPT/Claude 相比,围绕 DeepSeek 的第三方工具、SDK 和集成方案还少得多。开发者可能需要更多自己造轮子。
- 团队稳定性面临挑战:核心成员的离职对长期迭代节奏的影响,还需要时间观察。
但在"性价比"这个维度上,V4 再次拉高了行业的参考线。对于大部分实际应用场景,V4-Flash 的 0.14 美元 / M token 定价和 V4-Pro 的 MIT 开源,提供了当前市场上最具竞争力的选项之一。
附录:DeepSeek 关键信息速查
| 项目 | 数据 |
|---|---|
| 公司全称 | 深度求索(DeepSeek) |
| 母公司 | 幻方量化(High-Flyer) |
| 创始人 | 梁文锋 |
| 最新模型 | DeepSeek V4 Preview |
| 发布日期 | 2026 年 4 月 24 日 |
| 主要版本 | V4-Pro (1.6T/49B) + V4-Flash (284B/13B) |
| 开源协议 | MIT |
| 上下文窗口 | 1M token |
| 词表大小 | 128K |
| 训练数据 | 32T tokens |
| API 格式 | OpenAI 兼容 + Anthropic 兼容 |
| Pro 价格 | $1.74/$3.48 每 M token(输入/输出) |
| Flash 价格 | $0.14/$0.28 每 M token |
| 训练硬件 | NVIDIA GPU + 华为昇腾 NPU |
| V4 前序版本 | V1(2024.01) → V2(2024.05) → V3(2024.12) → R1(2025.01) → V3.2(2025.09) |
| 主要竞品 | GPT-5.5 / Claude Opus 4.7 / Gemini 3.1 Pro / 混元 Hy3 / Qwen 3.6 |
小结
DeepSeek V4 是在一个复杂的背景下诞生的。技术上看,它是 MoE 路线进入万亿参数时代的里程碑;战略上看,它是 DeepSeek 从一家创业公司到国家 AI 代表的身份转型后的首款旗舰产品;市场来看,它在 2026 年这个"应用渗透"阶段,用双版本策略同时覆盖了高价值和高频低价的场景。
在 V4 的技术报告末尾,DeepSeek 写道:"V4-Pro 在 Agent 编码评测中达到了开源模型最佳水平,世界知识仅次于闭源的 Gemini 3.1 Pro,在数学、STEM 和竞赛级编程评测中超越了所有已记录的开源模型。"这段描述本身已经划定了 V4 的位置——开源最强,和闭源最顶尖还差半步,但性价比的差距不是半步,而是好几倍。
如果要用一句话概括 V4 的定位,就是:在同等性能水平下做到最低成本,在同等成本水平下做到最强性能。这个"双重最优"定位在 2026 年的市场中几乎没有竞品——闭源模型性能更强但价格贵 5-10 倍,其他开源模型价格接近但性能有差距。
15 个月的时间,从 V3 到 V4,DeepSeek 的变化不止是参数规模。架构上的取舍(放弃 MLA)、训练策略的创新(Muon + mHC)、产品策略的成熟(Pro / Flash 双版本),以及身份转型中的调试(国产芯片适配、团队变动后的组织适应),每一层都在影响最终交付的产品形态。
V4 发布后,MorningStar 分析师 Ivan Su 说:"R1 震惊市场,是因为没人预料到一家中国创业公司能竞争到这个水平。V4 只是同一趋势的延续,趋势不会像冲击波那样制造头条。"
这个判断大体准确,但也低估了一点:延续一个趋势需要投入的资源和心力,往往不亚于开创一个趋势。R1 是"花小钱办大事"的意外惊喜,V4 是"在高期待和高压下交出答卷"的有意为之。前者的成功靠的是技术和运气,后者的成功靠的是技术和韧性——而韧性比运气更难维持。
从更宏观的视角看,DeepSeek 的故事是中国 AI 行业的一个缩影。从 V1 的"能做出来"到 V4 的"做到开源最强",只用了两年零三个月。这中间经历了架构路线的选择、训练工程的突破、全球影响力的爆发、身份转型的阵痛——每个环节都在 DeepSeek 的技术路线和产品策略上留下了痕迹。R1 的成功让 DeepSeek 一夜成名,但也让它失去了"隐身创业"的自由。V4 要同时面对更高的各方期望、更复杂的政策环境、团队变动的内部压力——在所有这些张力中,它还是把产品做出来了,而且做得不差。
接下来的文章,我们会从 V4 的 MoE 架构细节开始,逐层拆解它的设计逻辑和工程实现。下一篇文章的重点是:V4 的路由机制和 V3 有什么不同?HashTop-K 是如何工作的?以及 MoE 架构在万亿参数规模下会遇到哪些新问题。
展望:V4 之后的 DeepSeek
V4 的发布只是预览版,不是最终版。接下来的看点有几个:
V4 正式版什么时候来? 预览版之后,DeepSeek 会收集社区反馈,修复问题,优化性能,然后发布正式版。从行业惯例看,这个周期通常在 1-3 个月。正式版可能在 Agent 能力和多模态方面有进一步的提升。
多模态能力何时整合? V4 目前主要是文本模型。DeepSeek 已经在 Janus 系列中布局了多模态——Janus 是 DeepSeek 的多模态理解和生成模型,但尚未与 V4 的主架构整合在一起。如果 DeepSeek 能像 GPT-5.5 和 Gemini 3.1 Pro 那样,在 V4 正式版中深度整合图片、视频的理解和生成能力,其竞争力会再上一个台阶。这可能是 V4 下一阶段最大的加分项。
国产芯片的规模化部署进展? 昇腾 950 超节点的量产进度直接决定了 V4-Pro 的服务容量和价格。如果下半年国产算力如期放量,V4-Pro 的使用体验会明显改善,吞吐量限制也会得到缓解。从另一个角度看,国产算力的成熟也会让 DeepSeek 在算力采购上有更多选择,不再受限于英伟达的供货周期。
核心团队的稳定性和迭代节奏? 人才流失对 DeepSeek 的影响可能在更长的周期中显现。V4 证明了团队在核心架构创新上的能力,但 V4 之后 6-12 个月的下一个版本,才是检验组织韧性的真正考题。DeepSeek 需要在新人培养、激励体系和技术传承上做出调整,以应对从"十几人的明星团队"到"上百人的正规军"的转型阵痛。
开源社区能长起来吗? MIT 协议为生态发展提供了基础,但一个模型的开源生态不是靠协议就能建起来的。需要工具链、教程、第三方集成、社区贡献者的共同推动。参考 Llama 的开源生态发展路径——Meta 提供了模型权重和技术报告,社区的 Adapters、LoRA、量化工具、推理框架迅速跟上了。V4 现在处于同一起跑线,但能不能跑出同样的生态规模,取决于 DeepSeek 对社区运营的投入程度,以及开发者的自发参与意愿。
竞争格局会如何演变? GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7、Hy3、Qwen 3.6——每个对手都在持续迭代。DeepSeek V4 的"性价比领先"能持续多久,取决于两个变量:一是竞争对手能否在同等成本水平上做到更强,二是国产芯片能否持续降低推理成本。如果这两个变量都朝有利方向变化,DeepSeek 需要思考 V4 之后的下一跳在哪里。
检验标准
- [ ] 能说出 DeepSeek V1 到 V4 各版本的核心创新(至少每个版本一个要点)
- [ ] 能解释 V4-Pro 和 V4-Flash 在参数规模、定价、目标场景上的关键差异
- [ ] 能理解 DeepSeek"效率优先"路线的两个支撑点(MoE 稀疏激活 + 架构创新降成本)
- [ ] 能描述 2026 年大模型竞争格局的三个梯队划分,以及 DeepSeek V4 所处的市场位置
- [ ] 能说出 V4 在架构上与 V3 的至少三个核心变化(注意力、优化器、路由策略、超连接等)
