全网实测Gemini Omni！一句话改视频，草图变大片_资讯

全网实测Gemini Omni！一句话改视频，草图变大片

创始人

2026-05-21 03:11:25

新智元报道

【新智元导读】过去AI视频是「生成内容」，Omni直接升级成「生成世界」。它懂动能、重力、因果，还能把复杂概念瞬间可视化。人类距离「言出法随」的梦想，还剩几个Gemini Omni的距离？

酝酿许久的Gemini Omni来了，堪称视频界的Banana时刻！

今日深夜Google I/O大会中，最大的主角Gemini Omni正式亮相！

谷歌DeepMind豪言，Gemini Omni结合了Gemini推理能力与生成能力，在世界理解、多模态和视频编辑上的重大飞跃。

据悉，这是谷歌迈向万能生成模型的第一步：

• Gemini Omni是Google的全新世界模型

• Google表示，AI正从预测文本转向模拟现实

• 它能生成逼真的视频、图像和交互式模拟

• 它展现出更强的直观物理理解能力，包括动能和重力

• 它能将复杂概念转化为可视化讲解

• 它支持对话式视频编辑

这次，导演的饭碗，恐怕也要丢了。

所有人的共识就是：Gemini Omni就是视频版的「Nano Banana」。

从此，人类进入「动动嘴就能剪视频」的时代，彻底告别「眼见为实」时代！

AI改变世界，动动嘴剪视频

谷歌这次引领AI视频，人类距离「言出法随」的梦想又近一步！

除了整体能力的提升，硅谷风投巨头a16z的合伙人Justine Moore透露，有两个具体特点让Gemini Omni脱颖而出：

第一，Omni将大语言模型级别的对话式编辑能力引入了视频模型，迭代修改生成结果以及在多个场景中延展角色变得更加容易。

第二，数字分身功能，你可以创建自己的形象和声音的克隆，并将其植入到生成的场景中。

Gemini Omni这次真实现了动动嘴编辑视频：

Gemini Omni Flash甚至能一边编辑一边保留原有的动作，即便是场景切换也不在话下，非常擅长理解输入的视频：

更厉害的是，Omni结合了更强的物理理解和Gemini丰富的历史、生物、文化知识，实现了从「画得真」到「讲好故事」的跨越。

Gemini Omni在处理人体特写镜头和解释生物学方面表现出色：

Gemini Omni Flash能展示蒙娜丽莎从颜料到分子、原子的缩放过程，文字渲染也非常到位。

这远远不止「AI生成内容」，简直是「AI生成世界」！

为什么是Omni，而非Veo 4？

过去三年，谷歌给AI模型起名是有规律的。

Gemini 1.5、2.0、2.5。Veo 1、2、3。Nano Banana → Nano Banana 2。

数字+小数点，工整、保守，典型的工程师文化命名学。

版本号是连续的，因为路径是连续的。

但Gemini Omni打破了这套体系。

一个全新的词，一个不属于任何现有产品线的名字。

在随后的发布访谈里，Google DeepMind的Nicole Brichtova、Dumitru Erhan、Gabe Barth-Maron和Shlomi Fruchter与主持人 Logan Kilpatrick一起，介绍了Gemini Omni。

在对话中，他们探讨了:

是什么让Omni相比Veo实现了跨越式升级，

图像、音频和视频参考如何结合以实现通过简单提示进行无缝编辑，

以及Google在生成视频方面如何践行安全与透明。

产品负责人Nicole Brichtova，被问到「这跟Veo有什么区别」时，回答几乎不像产品经理——

这不是Veo的升级。

我们必须从地基重新思考怎么造这个模型。

她用了一个词：step change(阶跃变化)。在访谈45分钟里，这个词出现了5次。

听明白了吗？这不是新版本。这是新物种。

而当一家工程师文化主导的公司，愿意打破自己用了三年的命名体系，只为了一个产品，这是一份公开张贴的战略备忘录。

Veo的训练目标是经典的text-to-video——给一段文本，生成一段视频。

后来产品团队希望它能接受图像参考(给一张你的脸，生成你在视频里)，团队的做法是：在已经训练好的模型上，加一层条件输入。

这就是Nicole在访谈里反复强调的那个词——「layered into」(叠加进去)。

Veo的能力是补丁，不是骨架。

Omni的训练目标，从第一天起就完全不同——「multimodal in， multimodal out」(多模态进、多模态出)。

图像、音频、视频、文本，这些不是Omni训练时的「额外条件」，它们是Omni学会「什么是世界」的原始数据。

现场，Hassabis坦言「我们必须重新思考训练目标」。

这就是的含义——他们改的不是模型，是训练目标本身。

基础模型重做的代价是什么？

Gemini Omni联合负责人Dumitru Erhan给了一组数字：评估阶段，他们需要同时跑视频生成、视频编辑、图像生成、文本对齐、音频同步五条评估管线。

而每一条管线之间存在权衡：

优化一条，另一条可能退步。

「判断在哪里取舍，需要极深的直觉。」

但回报是什么？回报是「涌现」。

Google DeepMind研究总监Shlomi Fruchter讲了两个故事，团队自己都没准备好。

第一个，风格迁移。

Omni的训练数据里根本没有「同一段视频、不同风格」的成对样本——这种数据本来就极难获得。

但当用户输入「把这段视频换成蜡笔画风格」的时候，模型自己学会了。

第二个，续写场景。

某个prompt写的是：「视频里一个女人走在走廊上，让一个怪物从门里出来，镜头转过拐角继续。」

这个任务他们从来没显式训练过。Omni续上了故事，保留了走廊的几何、女人的样子、光照的方向，然后让怪物出现，镜头自然转过去。

「这不是我们设计的功能，」Dumitru在访谈里说，「这是模型自己长出来的。」

涌现(emergence)——AI 研究里最反直觉、也最让人后背发凉的概念。它的意思是：模型能做的事，超出了训练数据里出现过的事。

而Omni 展示的涌现，不止两个。

最后，Shlomi忍不住说：「我自己最期待的事，是看用户会发现这个模型还能做什么——因为我们自己肯定还没发现完。」

当你换掉地基，会长出你没盖过的房间。

视频的Nano Banan时刻

Omni真正惊人的能力，不是从零生成，是编辑。

这里有一个反直觉的发现，可能是整场访谈最有信息量的一句话。Shlomi说：

我们发现，把不同模态放在一起训练，反而让每个模态都变得更好。

如果你让模型学会「在视频里生成音乐」，它必须先学会「生成音乐」本身——而这个能力，反过来让它生成的视频更连贯了。

请把这句话读三遍。

它的意思是——模态之间不是叠加关系，是互相喂养关系。

学会画画的过程，会让模型更懂物理，因为画画必须懂光影和透视。

学会生成音乐的过程，会让模型更懂时间结构，因为音乐是结构化的时间序列。

学会编辑视频的过程，会让模型更懂因果关系，因为编辑必须知道「动这里会影响哪里」。

这是过去十年AI行业默认路径选择的对立面。

而要做成这件事，Google 必须解决一个之前所有视频模型都没解决好的问题——

怎么让模型同时听懂图像、音频、视频、文本这四种参考，并且在编辑时不「把孩子和洗澡水一起倒掉」。

答案是：让它们从一开始就一起学。

这就是为什么Demis Hassabis说 Omni是「走向 AGI 的一步」。

不是因为它能拍电影，是因为只有真正理解世界的模型，才能编辑这个世界。

他们「要把猛虎关进笼子」

真正让Omni变得耐人寻味的，是谷歌同时发布的另一件事——他们主动给这个模型套上了一些笼子。

第一道笼子：Avatar Flow。

你想让「你自己」出现在Omni生成的视频里，不能直接上传一张自拍就开始。

你必须一次性注册：多角度面孔采集 + 朗读一串数字录音。

这套数据存成一个「Avatar」，以后所有用你脸的生成，必须调用这个 Avatar，你不能任意上传图像。

Nicole说得很直白：「你可能会觉得我们封锁了很多东西。」

这是一种明知会让用户嫌麻烦、但还是要做的语气。

第二道笼子：强制水印。

所有Omni生成的视频，都嵌入两层标记：Google自家的SynthID不可见水印 + C2PA 跨平台元数据。

哪怕视频被剪辑、被搬运、被压缩，水印依然能追踪。

你上传任何一段视频到Gemini App，问一句「这是AI生成的吗？」，它会查给你看。

谷歌不仅是发布了产品，更是在告诉市场：下一轮AI战争，不只拼聊天，不只拼搜索，而是拼谁能生成、编辑、模拟整个世界。

AI行业的旧秩序，已经开始松动。

参考资料：

https://x.com/MTSlive/status/2056895733207597244

https://x.com/joshwoodward/status/2056827449556845051

https://x.com/jerrod_lew/status/2056865054130319828

https://www.youtube.com/watch?v=5T0yRNmNRi4

编辑：KingHZ David

秒追ASI

上一篇：西安光机所宇航级耐辐照掺铒光纤完成星载激光通信在轨稳定验证

下一篇：场景驱动下的高校全光网络演进：以太彩光技术路线的适配性解析

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

全网实测Gemini Omni！一句话改视频，草图变大片

相关内容

热门资讯