选型指南

学习目标: 掌握国产大模型的选型方法——从能力、成本、场景三个维度做决策
预计时间: 30 分钟
难度: ⭐⭐⭐☆☆

先给结论：没有最好的模型，只有最适合你的模型。

选模型不是选最贵或最强的，是选在你的场景下、你的预算内、你最用得顺手的。

这篇文章给你三张表：能力对比表、成本分析表、场景推荐表。直接抄作业。

能力对比矩阵

先把 8 个主流国产模型放在一起比一遍:

通用能力

模型	推理	代码	中文	多模态	长上下文	综合
DeepSeek V4	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	100万	⭐⭐⭐⭐
Qwen3-Plus	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	256K	⭐⭐⭐⭐
豆包 Pro	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	256K	⭐⭐⭐⭐
Kimi K2.5	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	128K/200万字	⭐⭐⭐⭐
GLM-5	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	200K	⭐⭐⭐⭐
文心 4.5	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	128K	⭐⭐⭐
讯飞星火 4.0	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	128K	⭐⭐⭐
MiniMax	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	32K	⭐⭐⭐

基准测试数据（公开数据，2026）

编程（HumanEval）:

GLM-5: 96.2%
DeepSeek V4: ~85%
Qwen3-Coder: 76.5%
GPT-5.4 (参考): ~90%

数学推理（AIME）:

GLM-5: 92.7%
DeepSeek R1: 48%
Qwen3: ~40%
GPT-o3 (参考): 94.6%

中文理解（C-Eval）:

Qwen3: 92.3%
DeepSeek V4: 91.5%
GLM-5: 90.8%
豆包 Pro: 89.2%
GPT-5.4 (参考): 85.1%

看数据的时候记住一点：基准测试 ≠ 实际体验。一个在 HumanEval 上 96% 的模型，写你项目的代码可能不如 80% 的模型顺手。测试集是标准题，你的代码是真需求。

核心优势一句话

DeepSeek V4  → 性价比之王 + 开源
Qwen3        → 最全尺寸家族 + 企业生态
豆包 Pro     → 多模态最强 + 字节系集成
Kimi K2.5    → 长上下文王者 + 文档分析
GLM-5        → 编程 SOTA + 国产芯片适配
文心 4.5     → 搜索集成 + 百度生态
讯飞星火 4.0 → 语音标杆 + 教育场景
MiniMax      → 语音合成 + 音乐生成

成本分析

API 定价详细对比

模型	输入（¥/M tokens）	输出	缓存命中	相当海外模型价格
DeepSeek V4	¥1	¥2	¥0.2	GPT-5.4 ≈ ¥25-50
Qwen3-Turbo	¥0.3	¥1	¥0.1	—
Qwen3-Plus	¥2	¥8	¥0.5	—
豆包 Lite 32K	¥0.2	¥0.4	¥0.08	GPT-4o mini ≈ ¥5
豆包 Pro 256K	¥3	¥12	¥0.5	—
Kimi 8K	¥1	¥4	自动缓存	—
Kimi 128K	¥4	¥12	自动缓存	—
GLM-5	¥2	¥6	¥0.5	—
文心 4.5	¥2	¥6	¥0.3	—
讯飞星火 4.0	¥1	¥5	¥0.2	—

TIP

简单公式：高频调用选 Lite/Turbo 版，复杂任务选 Pro/Plus 版。 经常有人花 Pro 的钱做 Lite 的活——如果你只是做简单的分类或摘要，看看 Lite 够不够。

成本计算示例

场景 1: 智能客服，日均 10 万次对话

每次对话: 输入 200 tokens + 输出 100 tokens

选 DeepSeek V4: 
  日成本 = (200×10万 × ¥1 + 100×10万 × ¥2) / 100万 = ¥2 + ¥2 = ¥4/天

选 GPT-5.4（参考）:
  日成本 ≈ ¥100/天

差距: 25 倍

场景 2: 长文档分析，每周 1000 份

每份文档: 输入 50K tokens + 输出 2K tokens

选 Kimi 128K（有自动缓存）:
  周成本 ≈ (50K×1000 × ¥4 + 2K×1000 × ¥12) / 100万 
         ≈ ¥200 + ¥24 = ¥224/周

选 Claude Opus 4.6（参考）:
  周成本 ≈ ¥2,000/周

差距: 约 9 倍

开源部署成本

如果你自己部署开源模型：

模型	建议硬件	预估成本
Qwen3-7B	MacBook M2+ / RTX 4090	0（已有硬件）
Qwen3-14B	RTX 4090 24GB	¥2万（显卡）
Qwen3-72B	4× A100 / 2× H100	¥50-100万
DeepSeek V4	8× H100	¥200万+
GLM-5	8× H800	¥300万+

事实：90% 的团队不需要自建大模型。API 调用简单、便宜、稳定。只有当你的数据不能出域（金融、医疗、政务），或者调用量大到每月 ¥10 万+ API 费用，才考虑自己部署。

场景推荐

创意写作

推荐: DeepSeek V4 > Kimi K2.5 > 豆包 Pro

DeepSeek V4 中文创作质量好，适合长文章、营销文案
Kimi 适合长文写作，200 万字上下文写小说也不怕
豆包 Pro 创意强，尤其是短视频脚本

编程开发

推荐: DeepSeek V4 >= GLM-5 > Qwen-Coder

DeepSeek V4 编程能力强，API 便宜，适合日常编码
GLM-5 代码生成准确率最高（HumanEval 96.2%），适合复杂算法和代码审查
Qwen-Coder 编程专用，Coder 33B 版本好用

翻译（中英双向）

推荐: DeepSeek V4 >= Qwen3 > 豆包 Pro

中英翻译这几个模型水平相近
Qwen3 支持 119 种语言，如果你需要非英语的翻译，它是唯一的选择

长文档分析

多模态任务

推荐: 豆包 Pro > Qwen-VL > DeepSeek V4

豆包 Pro 多模态理解能力最强
Qwen-VL OCR 和文档识别好
DeepSeek V4 原生多模态，代码截图理解不错

企业级部署

推荐: Qwen3 > DeepSeek V4 > GLM-5（取决于场景）

关注点	推荐模型
数据安全 → 私有化部署	Qwen3-72B（开源）
国产芯片 → 信创适配	GLM-5（7大芯片）
阿里云用户	Qwen3
极致的性价比	DeepSeek V4

语音相关

推荐: 讯飞星火（识别）> MiniMax（合成）

语音识别: 讯飞，没有悬念
语音合成/音乐: MiniMax，没有悬念

搜索集成

个人开发 / 学习

选型决策树

你需要的模型是什么？
│
├─ 个人项目 / 学习 AI
│   → DeepSeek V4（最便宜，最快上手）
│
├─ 企业级应用
│   ├─ 阿里云用户 → Qwen3（生态集成）
│   ├─ 数据敏感 → Qwen3 或 DeepSeek（开源部署）
│   ├─ 信创适配 → GLM-5（国产芯片适配最多）
│   └─ 字节系集成 → 豆包 Pro（飞书/抖音/火山引擎）
│
├─ 文档分析（法律、学术）
│   → Kimi K2.5（长上下文王者）
│
├─ 语音 / 教育
│   → 讯飞星火（识别）/ MiniMax（合成）
│
└─ 编程辅助
    → DeepSeek V4（日常） / GLM-5（复杂算法）

学习检验

完成本模块所有文章学习后，你应该能够:

[ ] 说出国产大模型 2023-2026 年的三个关键发展节点
[ ] 对比 DeepSeek V4 和 GPT-5.4 在编程、推理、中文上的能力差异
[ ] 在 DeepSeek 官网注册并调用一次 API，完成一次文本生成任务
[ ] 说出 Qwen3 模型家族的产品线（至少 3 个不同尺寸）
[ ] 解释豆包、火山引擎、扣子(Coze)三者的关系
[ ] 说明 Kimi 的核心差异化优势（长上下文）及其适合的场景
[ ] 对比至少 4 个国产模型的 API 定价并估算一次典型任务成本
[ ] 根据「创意写作、编程、翻译、长文档分析」四个场景各推荐一个模型并说明理由
[ ] 判断当前项目是否适合使用开源模型自行部署

本节小结

✅ 国产模型在推理、编程、中文、多模态上已接近或追平 GPT 等海外模型 ✅ API 价格是海外的 1/5 到 1/10，个人开发者的首选 ✅ 不同场景有不同的最佳选择：个人用 DeepSeek，企业用 Qwen，长文档用 Kimi ✅ 不是模型越强越好，是越适合你的场景越好

← 返回章节目录 | 继续学习:AI 音频与音乐生成 →

选型指南 ​

能力对比矩阵 ​

通用能力 ​

基准测试数据（公开数据，2026） ​

核心优势一句话 ​

成本分析 ​

API 定价详细对比 ​

成本计算示例 ​

开源部署成本 ​

场景推荐 ​

创意写作 ​

编程开发 ​

翻译（中英双向） ​

长文档分析 ​

多模态任务 ​

企业级部署 ​

语音相关 ​

搜索集成 ​

个人开发 / 学习 ​

选型决策树 ​

学习检验 ​

本节小结 ​