Gemini Omni：谷歌用「世界模型」填了 Sora 的坑，顺手把视频生成的天花板掀了

谷歌在 I/O 2026 上发布 Gemini Omni，一个不只是「生成视频」的模型——它推理物理规律、理解文化语境、让教授在黑板上推导正确的数学证明。当 OpenAI 的 Sora 已成历史，Omni 用「任意输入→任意输出」的架构宣告：视频生成的竞争进入了「世界模型」阶段。

Gemini Omni 封面

Gemini Omni 摘要

发生了什么

2026 年 5 月 19 日，Google I/O 2026 开幕日，Sundar Pichai 在 X 上发了一条推文：

Gemini Omni doesn't just build scenes that look real, it reasons about what should happen next.

这句话精准概括了 Omni 的本质——不是让画面「看起来对」，而是让画面「逻辑上对」。

发布会前一天，两条 Omni 生成的演示视频已经在 Reddit 和 X 上炸开了锅。一条是教授站在黑板前推导三角恒等式——数学推导过程完全正确，不是视觉上的公式拼贴，是符号层面真实成立的数学证明。另一条是两名男士在海边餐厅安静地吃意大利面。

看起来平平无奇的日常场景，为什么让技术圈集体破防？

因为这两条视频同时做到了三件事，而这三件事在之前的视频生成模型里从来没有同时成立过：推理对了、空间关系对了、时序对了。教授写板书的同时，口头讲解的正是他正在推导的步骤，语音和画面帧级同步。

Google DeepMind CTO Koray Kavukcuoglu 在官方博客中说得很直接：「Omni combines Gemini's intelligence with our generative media models.」这不是一个 Veo 的升级版，是把 Gemini 的推理能力和渲染能力熔到了一个模型里。

关键数据

维度	Gemini Omni Flash	对比参照
输入模态	文本 + 图像 + 音频 + 视频	Sora（已关停）、Veo 3.1（文本+图像）
输出模态	视频（首批），后续开放图像+文本	主流竞品仅支持视频输出
视频时长	10 秒（首批）	Veo 3.1 原生 8 秒，延长后 16 秒
部署渠道	Gemini App + Google Flow + YouTube Shorts	Sora 仅独立 App
订阅门槛	AI Plus / Pro / Ultra 用户 + YouTube Shorts 免费	Sora 需 ChatGPT Pro
水印	SynthID 不可见水印	Sora 无水印方案
API	未来数周内开放	—
Pro 版本	Omni Pro 计划中（性能跃升版）	—
内部模型 ID	`bard_eac_video_generation_omni`	确认为独立模型，非 Veo 变体

深度分析

1. 不只是视频生成，是「世界模型」

Omni 的核心卖点不是「视频更清晰」或「时长更长」——这些是 Veo 3.1 的升级路线。Omni 卖的是「理解」。

DeepMind 产品总监 Nicole Brichtova 说的那句很关键：「It's the next step towards the progression of combining the intelligence of Gemini with the rendering capabilities of our media models.」翻译过来：Omni 把两个系统合成一个了。Gemini 负责理解世界（物理规律、文化背景、历史知识），媒体模型负责渲染画面。

效果体现在哪儿？给 Omni 一句「claymation explainer of protein folding」，它生成一段定格动画风格的视频，配旁白解释蛋白质如何从氨基酸链折叠成三维结构——生物学知识是准确的，不是视觉上「看起来像科普」的胡说八道。

再比如那个经典的弹珠滚轨道视频：弹珠的加速度、碰撞反弹、动能转换——物理过程全部合理。这不是靠训练数据里碰巧有类似的视频，是模型内部建立了一个关于「物体如何运动」的内部表征。

Pichai 在 keynote 里的原话点明了方向：「With world models, AI is moving from predicting text to simulating reality.」从预测文本到模拟现实——这是 AI 叙事的一次级别跃迁。

2. 对话式编辑才是杀手锏

Omni 的第二个核心能力是多轮对话式编辑。你不需要时间线、不需要关键帧、不需要 After Effects。直接说「把雕塑变成气泡」或者「调暗灯光，在手上方放一个玻璃球」，Omni 就改了。

更关键的是：改了之后，上下文不丢。角色的外观保持一致，物理规则继续生效，场景记住之前发生了什么。你可以连续多轮指令：先让小提琴手换个场景，再让小提琴变透明，再换个机位到肩膀上方——每次编辑都在上一次的基础上迭代，不会从零开始。

这个能力直接解决了当前 AI 视频生成最大的痛点：一次性生成可以靠运气，但精确编辑只能靠模型真的理解场景。Omni 的多轮编辑说明它的内部表征不是帧级别的像素映射，而是场景级别的语义理解。

Google 自己定位很明确——面向消费者。Brichtova 说：「Not many video models have breached that chasm with consumers, so this is our play to do that.」研究工程师 Gabe Barth-Maron 更直白：「They're like personalized memes.」

3. 「任意输入→任意输出」的架构野心

Omni 这个名字（拉丁语「全部」）暴露了谷歌的野心。Pichai 说「create anything from any input」不是营销话术，是产品路线图。

第一批只开放了视频输出。但官方已经明确说了，后续会开放图像和文本输出。长远来看，Omni 的目标是一个模型搞定所有模态——从音频生成图像、从视频生成音频、从草图生成完整视频。

这意味着谷歌正在终结当前碎片化的模型布局：Veo 负责视频、Nano Banana 负责图像、Gemini 负责文本——这种架构在工程上本来就不合理。Omni 可能是把这些管线统一的产物。

对竞品来说，这才是真正的降维打击。目前所有顶级视频模型——Veo 3.1、Seedance 2.0、Kling 3.0——都是专门的视频生成器，不具备图像生成或文本推理能力。Omni 是第一个把「全能」写进架构设计的。

但眼下有一个务实的前提条件：Omni Flash 定位偏消费端。真正面向专业用户的 Omni Pro 还没有时间表，Brichtova 只说会在「我们觉得有一个明确的性能跃升时」发布。

4. 填了 Sora 的坑，开了安全的水印先例

OpenAI 的 Sora 在 2025 年关停后，AI 视频生成领域留下了一个明显的真空。主流玩家要么是纯工具（Runway、Pika），要么是实验室项目。没有哪家把视频生成做成了面向数亿用户的消费产品。

Omni 的分发策略值得注意：Gemini App 里直接用、Google Flow 面向创意工作者、YouTube Shorts 免费开放。这不是一个给技术极客玩的项目，是一个要装进所有人手机里的功能。

安全方面，所有 Omni 生成的视频都带 SynthID 不可见水印。用户可以通过 Gemini App、Chrome 中的 Gemini、Google Search 验证视频是否由 AI 生成。Avatar 功能需要专门的身份验证流程——录一段自己念数字的视频，才能创建数字分身。这套机制虽然不能杜绝 deepfake，但至少在产品层面建立了一套可追溯的标记体系。

5. 竞争格局：视频生成从「谁的更好看」变成「谁的更聪明」

Omni 的出现把 AI 视频赛道的竞争维度从「视觉质量」拉到了「世界理解」。

竞争者	定位	优势	短板
Gemini Omni	全能世界模型	推理+渲染统一、对话编辑、多模态输入	Flash 版时长仅 10 秒，Pro 未定
Veo 3.1	专用视频生成	成熟稳定，时长可达 16 秒	不具备推理能力
Seedance 2.0	专用视频生成	人物性格鲜明，动作流畅	中国市场竞争为主
Kling 3.0	专用视频生成	视频和音频紧密集成、社交分发	扩展能力有限
Luma AI	广告自动化	从简短 brief 生成完整广告	垂直场景

Omni 和所有竞品的根本区别在那个「Omni」二字。上面列出的每一个都是专用视频生成器，没有任何一个同时具备图像创建或文本推理功能。如果 Gemini Omni 真能把多模态生成统一到一个系统里，它就是独一档的存在。

不过，现实也不全是利好。Omni Flash 的 10 秒时长限制在消费端可以接受，但离专业制作还很远。文本渲染能力虽然 Brichtova 说「pretty proud of」，但编辑 prompt 需要高度具体，否则容易过度编辑或意外改变你想保留的元素——这是 Nano Banana 用户已经踩过的坑。

结尾

Gemini Omni 最大的意义不是「视频生成更好了」，是 AI 第一次在视觉输出中展现出了真正的推理能力。教授在黑板上写对数学证明、弹珠的物理轨迹合理、旁白和画面帧级同步——这些不是「运气好」，是模型内部建起了关于世界如何运作的表征。

Sundar Pichai 说 AI 正在「从预测文本走向模拟现实」。这句话听起来像 keynote 的修辞，但 Omni 证明了他不只是说说而已。

Gemini Omni：谷歌用「世界模型」填了 Sora 的坑，顺手把视频生成的天花板掀了 ​

发生了什么 ​

关键数据 ​

深度分析 ​

1. 不只是视频生成，是「世界模型」 ​

2. 对话式编辑才是杀手锏 ​

3. 「任意输入→任意输出」的架构野心 ​

4. 填了 Sora 的坑，开了安全的水印先例 ​

5. 竞争格局：视频生成从「谁的更好看」变成「谁的更聪明」 ​

结尾 ​