SANA-WM：NVIDIA 用 26 亿参数造了一分钟的世界，然后开源了

2026 年 5 月，NVIDIA 研究团队开源了一个 26 亿参数的世界模型 SANA-WM。一张图片、一条相机轨迹，出 720p、一分钟长的视频。不是 demo 级别的"能看"，是工业基线级别的"能用"。训练只用 213K 公开视频、64 张 H100 跑 15 天。推理？一张 GPU 搞定。
在所有人盯着 Sora 和 Kling 卷"视频好不好看"的时候，NVIDIA 在回答一个更底层的问题：一个能被控制的世界模型，需要多少资源？答案比你想的少得多。

先说结论：效率才是世界模型的真正战场

AI 视频生成走到 2026 年，"能出视频"已经不是新闻了。Sora、Seedance、Veo、Kling——每家都在拼画质、拼时长、拼"看不出来是 AI 生成的"。

但有个问题没人解决：你没法控制它。

你让 Sora 生成一段视频，只能说"镜头从左往右摇"。至于摇多快、摇到哪个角度、精确的相机路径——对不起，它不听你的。对于想用 AI 做游戏场景、做虚拟拍摄、做具身智能训练的人来说，这就不是"能不能看"的问题，是"能不能用"的问题。

SANA-WM 解决的就是这个问题。它是一个可控的世界模型——你给它一张起始图片和一条 6 自由度（6-DoF）的相机轨迹，它沿着这条轨迹生成一分钟的视频。相机路径精确到亚像素级别。

然后它开源了。

关键数据

维度	SANA-WM
参数量	2.6B（主模型），17B（第二阶段精炼器）
输出	720p，60 秒视频
输入	1 张图片 + 6-DoF 相机轨迹
训练数据	~213K 公开视频片段
训练成本	64 张 H100，15 天
推理硬件	1 张 H100（标准版），1 张 RTX 5090（蒸馏版）
蒸馏推理速度	60 秒 720p 视频，34 秒出片
吞吐量	比开源基线高 36 倍
开源状态	代码 + 论文已公开，模型权重即将发布
团队	NVIDIA（Haoyi Zhu, Haozhe Liu, Song Han 等）

四个设计选择，每个都在回答"为什么这么省"

SANA-WM 的论文标题里有三个字：Efficient。这不是凑字数的。整个模型架构的每一步设计，都在对抗同一个敌人——长视频生成的显存爆炸。

1. Hybrid Linear Attention：用线性注意力打长上下文

标准 Transformer 的 softmax attention 计算复杂度是 O(n²)。60 秒 720p 视频，序列长度直接把显存打爆。SANA-WM 的解法是 Hybrid Linear Attention——帧内用 Gated DeltaNet（线性复杂度），周期性地插几层 softmax 保持全局一致性。

说白了就是：大多数时候用便宜的线性注意力，偶尔用贵的 softmax 做一次全局校准。 不是不用 softmax，是不用那么多次。

2. Dual-Branch Camera Control：两条路走同一条轨迹

相机控制是这个世界模型的核心卖点。SANA-WM 用了双分支设计：一个粗粒度的全局位姿分支做整体路径规划，一个细粒度的像素对齐几何分支做精确跟随。

两条分支的信息融合后，模型能精准到什么程度？论文里给了一个直接的指标：在自建的一分钟世界模型 benchmark 上，SANA-WM 的相机跟随精度超过所有开源基线。

3. Two-Stage Pipeline：先出长视频，再打磨质量

不是一步到位的。第一阶段用主模型（2.6B）生成完整的一分钟长视频，第二阶段用一个 17B 的精炼器提升纹理清晰度、运动流畅度和后半段质量。

两阶段的设计有个好处：你可以只用第一阶段做快速预览，满意了再跑第二阶段。 这在实际使用中省了大量时间。

4. Robust Annotation Pipeline：从公开视频里"抠"出训练标签

训练世界模型需要精确的相机位姿标注。这些标注要么用合成数据（不真实），要么人工标注（太贵）。SANA-WM 用了一个自动化流程——从公开视频里提取公制尺度的 6-DoF 相机位姿，直接当训练标签。

结果是：只用 ~213K 段公开视频，训练出了可比肩工业级基线的模型。 数据效率高到什么程度？作为对比，Sora 的训练数据估计在数百万到数千万视频的量级。

跟工业级基线比，它真的能打吗？

论文里列了三个对手：LingBot-World、HY-WorldPlay，以及若干开源基线。

视觉质量方面，SANA-WM 达到了工业级基线的可比水平（comparable）。不是碾压，是同一档。

但效率方面，它是碾压的：36 倍吞吐量优势。

这就是开源项目的价值所在——不一定要做到绝对第一，但要做到"人人能用"。LingBot-World 背后是多少资源？HY-WorldPlay 用了多少卡？SANA-WM 用 64 张 H100 训练 15 天，推理跑在单张 GPU 上。把门槛从"大厂专属"拉到了"实验室可用"。

对独立开发者意味着什么

说到这，你可能觉得这玩意儿跟独立开发没什么关系——一个 26 亿参数的视频世界模型，我又不是 NVIDIA。

但你换个角度想：

1. 游戏和虚拟场景的门槛在塌。 以前做一款 3D 游戏场景，你得会建模、会材质、会灯光。现在呢？一张概念图 + 相机路径 = 一分钟的 3D 世界漫游视频。虽然现在还是"视频"而不是"可交互的 3D 场景"，但这条路的终点很明确。

2. 具身智能的训练数据有了一个新的生成方式。 机器人需要海量的"在真实世界里走动"的视频来训练。以前靠采集，成本极高。SANA-WM 能用一张照片生成任意相机路径的漫游视频，这意味着训练数据可以大量合成。

3. 开源的意义不只是"免费用"。 SANA-WM 的代码、论文、训练流程全部公开。这意味着你可以学到 NVIDIA 团队是怎么做 Hybrid Linear Attention 的、怎么设计双分支相机控制的、怎么从公开视频提取位姿标注的。这些技术方案才是真正的宝藏——模型会过时，方法论不会。

诚实边界：它现在还不能做什么

说几个它做不到的事，免得你期望太高：

不能生成人物运动。 它生成的是"世界在动"——风吹、水流、光线变化——但不会有人物走动、奔跑这类复杂动作。它是一个环境世界模型，不是角色动画引擎。
模型权重还没完全放出。 论文和代码已经公开，但模型权重标注的是 "Models (soon)"。可能要等几周。
720p 不是 4K。 画质跟工业级可比，但分辨率天花板在那。不过对于一个 2.6B 的模型来说，720p 已经相当不错了。
相机控制 ≠ 语义控制。 你能控制镜头往哪走，但不能说"让那扇门打开"或"让天气变成雨天"。语义级控制是下一代世界模型要解决的问题。

效率数字背后的哲学

最后说一个我觉得特别有意思的点。

SANA-WM 的蒸馏版能在一张 RTX 5090 上用 34 秒生成一分钟 720p 视频。RTX 5090 是消费级显卡，不是什么数据中心专属的怪兽。

这意味着什么？NVIDIA 在把世界模型从云端往本地推。 不是因为它做不出更大的模型，而是因为它看到了一个更大的市场——游戏、AR/VR、机器人训练、实时渲染——这些场景都需要本地部署。

把一件事做小、做快、做得人人能用，往往比做得最大最强更有战略意义。SANA-WM 的 2.6B 不是因为做不到 26B，是因为 2.6B 足以在一张消费级显卡上跑起来。

这跟做产品的道理是一样的——不是参数越多越好，是能跑在用户的设备上才算数。

链接

项目主页：nvlabs.github.io/Sana/WM
论文：arxiv.org/abs/2605.15178
GitHub：github.com/NVlabs/Sana
Hacker News 讨论：news.ycombinator.com

SANA-WM：NVIDIA 用 26 亿参数造了一分钟的世界，然后开源了 ​

先说结论：效率才是世界模型的真正战场 ​

关键数据 ​

四个设计选择，每个都在回答"为什么这么省" ​

1. Hybrid Linear Attention：用线性注意力打长上下文 ​

2. Dual-Branch Camera Control：两条路走同一条轨迹 ​

3. Two-Stage Pipeline：先出长视频，再打磨质量 ​

4. Robust Annotation Pipeline：从公开视频里"抠"出训练标签 ​

跟工业级基线比，它真的能打吗？ ​

对独立开发者意味着什么 ​

诚实边界：它现在还不能做什么 ​

效率数字背后的哲学 ​

链接 ​