选型指南
学习目标: 掌握国产大模型的选型方法——从能力、成本、场景三个维度做决策
预计时间: 30 分钟
难度: ⭐⭐⭐☆☆
先给结论:没有最好的模型,只有最适合你的模型。
选模型不是选最贵或最强的,是选在你的场景下、你的预算内、你最用得顺手的。
这篇文章给你三张表:能力对比表、成本分析表、场景推荐表。直接抄作业。
能力对比矩阵
先把 8 个主流国产模型放在一起比一遍:
通用能力
| 模型 | 推理 | 代码 | 中文 | 多模态 | 长上下文 | 综合 |
|---|---|---|---|---|---|---|
| DeepSeek V4 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 100万 | ⭐⭐⭐⭐ |
| Qwen3-Plus | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 256K | ⭐⭐⭐⭐ |
| 豆包 Pro | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 256K | ⭐⭐⭐⭐ |
| Kimi K2.5 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 128K/200万字 | ⭐⭐⭐⭐ |
| GLM-5 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 200K | ⭐⭐⭐⭐ |
| 文心 4.5 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 128K | ⭐⭐⭐ |
| 讯飞星火 4.0 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 128K | ⭐⭐⭐ |
| MiniMax | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | 32K | ⭐⭐⭐ |
基准测试数据(公开数据,2026)
编程(HumanEval):
- GLM-5: 96.2%
- DeepSeek V4: ~85%
- Qwen3-Coder: 76.5%
- GPT-5.4 (参考): ~90%
数学推理(AIME):
- GLM-5: 92.7%
- DeepSeek R1: 48%
- Qwen3: ~40%
- GPT-o3 (参考): 94.6%
中文理解(C-Eval):
- Qwen3: 92.3%
- DeepSeek V4: 91.5%
- GLM-5: 90.8%
- 豆包 Pro: 89.2%
- GPT-5.4 (参考): 85.1%
看数据的时候记住一点:基准测试 ≠ 实际体验。一个在 HumanEval 上 96% 的模型,写你项目的代码可能不如 80% 的模型顺手。测试集是标准题,你的代码是真需求。
核心优势一句话
DeepSeek V4 → 性价比之王 + 开源
Qwen3 → 最全尺寸家族 + 企业生态
豆包 Pro → 多模态最强 + 字节系集成
Kimi K2.5 → 长上下文王者 + 文档分析
GLM-5 → 编程 SOTA + 国产芯片适配
文心 4.5 → 搜索集成 + 百度生态
讯飞星火 4.0 → 语音标杆 + 教育场景
MiniMax → 语音合成 + 音乐生成成本分析
API 定价详细对比
| 模型 | 输入(¥/M tokens) | 输出 | 缓存命中 | 相当海外模型价格 |
|---|---|---|---|---|
| DeepSeek V4 | ¥1 | ¥2 | ¥0.2 | GPT-5.4 ≈ ¥25-50 |
| Qwen3-Turbo | ¥0.3 | ¥1 | ¥0.1 | — |
| Qwen3-Plus | ¥2 | ¥8 | ¥0.5 | — |
| 豆包 Lite 32K | ¥0.2 | ¥0.4 | ¥0.08 | GPT-4o mini ≈ ¥5 |
| 豆包 Pro 256K | ¥3 | ¥12 | ¥0.5 | — |
| Kimi 8K | ¥1 | ¥4 | 自动缓存 | — |
| Kimi 128K | ¥4 | ¥12 | 自动缓存 | — |
| GLM-5 | ¥2 | ¥6 | ¥0.5 | — |
| 文心 4.5 | ¥2 | ¥6 | ¥0.3 | — |
| 讯飞星火 4.0 | ¥1 | ¥5 | ¥0.2 | — |
TIP
简单公式:高频调用选 Lite/Turbo 版,复杂任务选 Pro/Plus 版。 经常有人花 Pro 的钱做 Lite 的活——如果你只是做简单的分类或摘要,看看 Lite 够不够。
成本计算示例
场景 1: 智能客服,日均 10 万次对话
每次对话: 输入 200 tokens + 输出 100 tokens
选 DeepSeek V4:
日成本 = (200×10万 × ¥1 + 100×10万 × ¥2) / 100万 = ¥2 + ¥2 = ¥4/天
选 GPT-5.4(参考):
日成本 ≈ ¥100/天
差距: 25 倍场景 2: 长文档分析,每周 1000 份
每份文档: 输入 50K tokens + 输出 2K tokens
选 Kimi 128K(有自动缓存):
周成本 ≈ (50K×1000 × ¥4 + 2K×1000 × ¥12) / 100万
≈ ¥200 + ¥24 = ¥224/周
选 Claude Opus 4.6(参考):
周成本 ≈ ¥2,000/周
差距: 约 9 倍开源部署成本
如果你自己部署开源模型:
| 模型 | 建议硬件 | 预估成本 |
|---|---|---|
| Qwen3-7B | MacBook M2+ / RTX 4090 | 0(已有硬件) |
| Qwen3-14B | RTX 4090 24GB | ¥2万(显卡) |
| Qwen3-72B | 4× A100 / 2× H100 | ¥50-100万 |
| DeepSeek V4 | 8× H100 | ¥200万+ |
| GLM-5 | 8× H800 | ¥300万+ |
事实:90% 的团队不需要自建大模型。API 调用简单、便宜、稳定。只有当你的数据不能出域(金融、医疗、政务),或者调用量大到每月 ¥10 万+ API 费用,才考虑自己部署。
场景推荐
创意写作
推荐: DeepSeek V4 > Kimi K2.5 > 豆包 Pro
- DeepSeek V4 中文创作质量好,适合长文章、营销文案
- Kimi 适合长文写作,200 万字上下文写小说也不怕
- 豆包 Pro 创意强,尤其是短视频脚本
编程开发
推荐: DeepSeek V4 >= GLM-5 > Qwen-Coder
- DeepSeek V4 编程能力强,API 便宜,适合日常编码
- GLM-5 代码生成准确率最高(HumanEval 96.2%),适合复杂算法和代码审查
- Qwen-Coder 编程专用,Coder 33B 版本好用
翻译(中英双向)
推荐: DeepSeek V4 >= Qwen3 > 豆包 Pro
- 中英翻译这几个模型水平相近
- Qwen3 支持 119 种语言,如果你需要非英语的翻译,它是唯一的选择
长文档分析
推荐: Kimi K2.5 > DeepSeek V4 > Qwen3
- Kimi 的长上下文和自动缓存机制是最大优势
- 传 PDF、论文、合同 — Kimi 最顺手
多模态任务
推荐: 豆包 Pro > Qwen-VL > DeepSeek V4
- 豆包 Pro 多模态理解能力最强
- Qwen-VL OCR 和文档识别好
- DeepSeek V4 原生多模态,代码截图理解不错
企业级部署
推荐: Qwen3 > DeepSeek V4 > GLM-5(取决于场景)
| 关注点 | 推荐模型 |
|---|---|
| 数据安全 → 私有化部署 | Qwen3-72B(开源) |
| 国产芯片 → 信创适配 | GLM-5(7大芯片) |
| 阿里云用户 | Qwen3 |
| 极致的性价比 | DeepSeek V4 |
语音相关
推荐: 讯飞星火(识别)> MiniMax(合成)
- 语音识别: 讯飞,没有悬念
- 语音合成/音乐: MiniMax,没有悬念
搜索集成
推荐: 文心 4.5
如果用户需求是"在搜索场景中嵌入 AI",文心的搜索集成最成熟。
个人开发 / 学习
推荐: DeepSeek V4
- 最便宜(¥1-2/M tokens)
- OpenAPI 兼容,上手最快
- 注册送 ¥10 体验金
如果你只能记住一件事: 个人用 DeepSeek,企业用 Qwen,长文档用 Kimi,语音用讯飞/MiniMax。编程重度用户加个 GLM-5。
选型决策树
你需要的模型是什么?
│
├─ 个人项目 / 学习 AI
│ → DeepSeek V4(最便宜,最快上手)
│
├─ 企业级应用
│ ├─ 阿里云用户 → Qwen3(生态集成)
│ ├─ 数据敏感 → Qwen3 或 DeepSeek(开源部署)
│ ├─ 信创适配 → GLM-5(国产芯片适配最多)
│ └─ 字节系集成 → 豆包 Pro(飞书/抖音/火山引擎)
│
├─ 文档分析(法律、学术)
│ → Kimi K2.5(长上下文王者)
│
├─ 语音 / 教育
│ → 讯飞星火(识别)/ MiniMax(合成)
│
└─ 编程辅助
→ DeepSeek V4(日常) / GLM-5(复杂算法)学习检验
完成本模块所有文章学习后,你应该能够:
- [ ] 说出国产大模型 2023-2026 年的三个关键发展节点
- [ ] 对比 DeepSeek V4 和 GPT-5.4 在编程、推理、中文上的能力差异
- [ ] 在 DeepSeek 官网注册并调用一次 API,完成一次文本生成任务
- [ ] 说出 Qwen3 模型家族的产品线(至少 3 个不同尺寸)
- [ ] 解释豆包、火山引擎、扣子(Coze)三者的关系
- [ ] 说明 Kimi 的核心差异化优势(长上下文)及其适合的场景
- [ ] 对比至少 4 个国产模型的 API 定价并估算一次典型任务成本
- [ ] 根据「创意写作、编程、翻译、长文档分析」四个场景各推荐一个模型并说明理由
- [ ] 判断当前项目是否适合使用开源模型自行部署
本节小结
✅ 国产模型在推理、编程、中文、多模态上已接近或追平 GPT 等海外模型 ✅ API 价格是海外的 1/5 到 1/10,个人开发者的首选 ✅ 不同场景有不同的最佳选择:个人用 DeepSeek,企业用 Qwen,长文档用 Kimi ✅ 不是模型越强越好,是越适合你的场景越好
