全网实测Gemini Omni!一句话改视频,草图变大片
创始人
2026-05-21 03:11:25

新智元报道

【新智元导读】过去AI视频是「生成内容」,Omni直接升级成「生成世界」。它懂动能、重力、因果,还能把复杂概念瞬间可视化。人类距离「言出法随」的梦想,还剩几个Gemini Omni的距离?

酝酿许久的Gemini Omni来了,堪称视频界的Banana时刻!

今日深夜Google I/O大会中,最大的主角Gemini Omni正式亮相!

谷歌DeepMind豪言,Gemini Omni结合了Gemini推理能力与生成能力,在世界理解、多模态和视频编辑上的重大飞跃。

据悉,这是谷歌迈向万能生成模型的第一步:

• Gemini Omni是Google的全新世界模型

• Google表示,AI正从预测文本转向模拟现实

• 它能生成逼真的视频、图像和交互式模拟

• 它展现出更强的直观物理理解能力,包括动能和重力

• 它能将复杂概念转化为可视化讲解

• 它支持对话式视频编辑

这次,导演的饭碗,恐怕也要丢了。

所有人的共识就是:Gemini Omni就是视频版的「Nano Banana」。

从此,人类进入「动动嘴就能剪视频」的时代,彻底告别「眼见为实」时代!

AI改变世界,动动嘴剪视频

谷歌这次引领AI视频,人类距离「言出法随」的梦想又近一步!

除了整体能力的提升,硅谷风投巨头a16z的合伙人Justine Moore透露,有两个具体特点让Gemini Omni脱颖而出:

第一,Omni将大语言模型级别的对话式编辑能力引入了视频模型,迭代修改生成结果以及在多个场景中延展角色变得更加容易。

第二,数字分身功能,你可以创建自己的形象和声音的克隆,并将其植入到生成的场景中。

Gemini Omni这次真实现了动动嘴编辑视频:

Gemini Omni Flash甚至能一边编辑一边保留原有的动作,即便是场景切换也不在话下,非常擅长理解输入的视频:

更厉害的是,Omni结合了更强的物理理解和Gemini丰富的历史、生物、文化知识,实现了从「画得真」到「讲好故事」的跨越。

Gemini Omni在处理人体特写镜头和解释生物学方面表现出色:

Gemini Omni Flash能展示蒙娜丽莎从颜料到分子、原子的缩放过程,文字渲染也非常到位。

这远远不止「AI生成内容」,简直是「AI生成世界」!

为什么是Omni,而非Veo 4?

过去三年,谷歌给AI模型起名是有规律的。

Gemini 1.5、2.0、2.5。Veo 1、2、3。Nano Banana → Nano Banana 2。

数字+小数点,工整、保守,典型的工程师文化命名学。

版本号是连续的,因为路径是连续的。

但Gemini Omni打破了这套体系。

一个全新的词,一个不属于任何现有产品线的名字。

在随后的发布访谈里,Google DeepMind的Nicole Brichtova、Dumitru Erhan、Gabe Barth-Maron和Shlomi Fruchter与主持人 Logan Kilpatrick一起,介绍了Gemini Omni。

在对话中,他们探讨了:

是什么让Omni相比Veo实现了跨越式升级,

图像、音频和视频参考如何结合以实现通过简单提示进行无缝编辑,

以及Google在生成视频方面如何践行安全与透明。

产品负责人Nicole Brichtova,被问到「这跟Veo有什么区别」时,回答几乎不像产品经理——

这不是Veo的升级。

我们必须从地基重新思考怎么造这个模型。

她用了一个词:step change(阶跃变化)。在访谈45分钟里,这个词出现了5次。

听明白了吗?这不是新版本。这是新物种。

而当一家工程师文化主导的公司,愿意打破自己用了三年的命名体系,只为了一个产品,这是一份公开张贴的战略备忘录

Veo的训练目标是经典的text-to-video——给一段文本,生成一段视频。

后来产品团队希望它能接受图像参考(给一张你的脸,生成你在视频里),团队的做法是:在已经训练好的模型上,加一层条件输入

这就是Nicole在访谈里反复强调的那个词——「layered into」(叠加进去)

Veo的能力是补丁,不是骨架。

Omni的训练目标,从第一天起就完全不同——「multimodal in, multimodal out」(多模态进、多模态出)。

图像、音频、视频、文本,这些不是Omni训练时的「额外条件」,它们是Omni学会「什么是世界」的原始数据

现场,Hassabis坦言「我们必须重新思考训练目标」。

这就是的含义——他们改的不是模型,是训练目标本身

基础模型重做的代价是什么?

Gemini Omni联合负责人Dumitru Erhan给了一组数字:评估阶段,他们需要同时跑视频生成、视频编辑、图像生成、文本对齐、音频同步五条评估管线。

而每一条管线之间存在权衡:

优化一条,另一条可能退步。

「判断在哪里取舍,需要极深的直觉。」

但回报是什么?回报是「涌现」

Google DeepMind研究总监Shlomi Fruchter讲了两个故事,团队自己都没准备好。

第一个,风格迁移

Omni的训练数据里根本没有「同一段视频、不同风格」的成对样本——这种数据本来就极难获得。

但当用户输入「把这段视频换成蜡笔画风格」的时候,模型自己学会了。

第二个,续写场景

某个prompt写的是:「视频里一个女人走在走廊上,让一个怪物从门里出来,镜头转过拐角继续。」

这个任务他们从来没显式训练过。Omni续上了故事,保留了走廊的几何、女人的样子、光照的方向,然后让怪物出现,镜头自然转过去。

「这不是我们设计的功能,」Dumitru在访谈里说,「这是模型自己长出来的。」

涌现(emergence)——AI 研究里最反直觉、也最让人后背发凉的概念。它的意思是:模型能做的事,超出了训练数据里出现过的事

而Omni 展示的涌现,不止两个

最后,Shlomi忍不住说:「我自己最期待的事,是看用户会发现这个模型还能做什么——因为我们自己肯定还没发现完。」

当你换掉地基,会长出你没盖过的房间

视频的Nano Banan时刻

Omni真正惊人的能力,不是从零生成,是编辑

这里有一个反直觉的发现,可能是整场访谈最有信息量的一句话。Shlomi说:

我们发现,把不同模态放在一起训练,反而让每个模态都变得更好

如果你让模型学会「在视频里生成音乐」,它必须先学会「生成音乐」本身——而这个能力,反过来让它生成的视频更连贯了。

请把这句话读三遍。

它的意思是——模态之间不是叠加关系,是互相喂养关系

学会画画的过程,会让模型更懂物理,因为画画必须懂光影和透视。

学会生成音乐的过程,会让模型更懂时间结构,因为音乐是结构化的时间序列。

学会编辑视频的过程,会让模型更懂因果关系,因为编辑必须知道「动这里会影响哪里」。

这是过去十年AI行业默认路径选择的对立面

而要做成这件事,Google 必须解决一个之前所有视频模型都没解决好的问题——

怎么让模型同时听懂图像、音频、视频、文本这四种参考,并且在编辑时不「把孩子和洗澡水一起倒掉」。

答案是:让它们从一开始就一起学

这就是为什么Demis Hassabis说 Omni是「走向 AGI 的一步」。

不是因为它能拍电影,是因为只有真正理解世界的模型,才能编辑这个世界

他们「要把猛虎关进笼子」

真正让Omni变得耐人寻味的,是谷歌同时发布的另一件事——他们主动给这个模型套上了一些笼子

第一道笼子:Avatar Flow。

你想让「你自己」出现在Omni生成的视频里,不能直接上传一张自拍就开始。

你必须一次性注册:多角度面孔采集 + 朗读一串数字录音

这套数据存成一个「Avatar」,以后所有用你脸的生成,必须调用这个 Avatar,你不能任意上传图像

Nicole说得很直白:「你可能会觉得我们封锁了很多东西。」

这是一种明知会让用户嫌麻烦、但还是要做的语气。

第二道笼子:强制水印。

所有Omni生成的视频,都嵌入两层标记:Google自家的SynthID不可见水印 + C2PA 跨平台元数据。

哪怕视频被剪辑、被搬运、被压缩,水印依然能追踪。

你上传任何一段视频到Gemini App,问一句「这是AI生成的吗?」,它会查给你看。

谷歌不仅是发布了产品,更是在告诉市场:下一轮AI战争,不只拼聊天,不只拼搜索,而是拼谁能生成、编辑、模拟整个世界。

AI行业的旧秩序,已经开始松动。

参考资料:

https://x.com/MTSlive/status/2056895733207597244

https://x.com/joshwoodward/status/2056827449556845051

https://x.com/jerrod_lew/status/2056865054130319828

https://www.youtube.com/watch?v=5T0yRNmNRi4

编辑:KingHZ David

秒追ASI

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

百度集团:中国AI与搜索引擎巨... 一、公司概况百度集团(Baidu, Inc.)成立于2000年1月,由李彦宏和徐勇在北京中关村创立。...
“金砖聚能·AI无界”:上海徐... 当地时间5月19日,“金砖聚能・ai无界”上海徐汇人工智能企业海外推介会暨“投资上海·共享未来”海外...
阿里平头哥公布AI芯片规划,真... 5月20日,在2026阿里云峰会上,阿里发布基于平头哥新一代AI(人工智能)芯片真武M890的128...
Token日均收入5个月猛涨1... 步入Agentic AI(智能体)时代,阿里云正在重构其全栈技术体系。 5月20日,在2026阿里云...
看似遥远的“黑科技”已成山西交... 当机械臂在钢材加工基地里精准舞动,当隧道量测机器人穿行于全省高速,当工业固废变成低碳建材……这些看似...
场景驱动下的高校全光网络演进:... 高等教育的数字化转型目前已步入深水区。随着智慧教室、虚拟仿真(VR/AR)实训、科研算力集群以及海量...
美国银行(Bank of Am... 一、公司概况美国银行(Bank of America Corporation,简称BofA)成立于1...
全网实测Gemini Omni... 新智元报道 【新智元导读】过去AI视频是「生成内容」,Omni直接升级成「生成世界」。它懂动能、重...
洛克希德·马丁(Lockhee... 一、公司概况洛克希德·马丁公司(Lockheed Martin Corporation,股票代码:L...
麦当劳:全球快餐行业霸主,品牌... 一、公司概况麦当劳公司(McDonald's Corporation)是全球最大的快餐连锁企业,由雷...