紧跟Sora,谷歌推出Genie,AI战火烧到了“世界模拟器”
蓝鲸财经
2024-02-27 00:32:38

原标题:紧跟Sora,谷歌推出Genie,AI战火烧到了“世界模拟器”

图片来源:视觉中国

2月26日,谷歌Deep Mind团队发布基础世界模型Genie,一个虚拟生成的可交互环境,110 亿参数,通过给模型投喂视频数据进行训练,生成照片、草图甚至可以操控的虚拟世界。

Genie是在没有任何动作标签的情况下进行训练的,而传统AI是需要人给图片打标签来训练AI识别图片。这意味着Genie需要从视频中自行识别不同动作的特征和模式。

Genie生成的视频。图片来源:Google Genie官网

谷歌表示:“Genie的独特之处在于它能够专门从互联网视频中学习细颗粒度的控制。这是一个挑战,因为互联网视频通常不会标注其正在执行哪个动作、应该控制图像中的哪一部分。Genie不仅了解观察的哪些部分是可控制的,而且能根据生成的环境来推测出多种潜在的动作。请注意相同的潜在操作如何在不同的提示图像下产生相似的行为。”

根据蓝鲸财经记者观察,这是指当给Genie提供不同的图像(类似不同版本的马里奥通关环境)时,图像中的小人能在遇到障碍时表现出同样的弹跳、躲避障碍的动作,且符合物理规律。

从谷歌Genie目前展示的案例来看,这些视频非常卡通化。官网也表示:“我们专注于 2D 平台游戏和机器人技术的视频,但我们的方法是通用的,应该适用于任何类型的领域,并且可以扩展到更大的互联网数据集。”

Genie生成的机械臂视频。图片来源:Google Genie官网

在官网上,Genie也生成了模拟机器人动作的视频。Genie团队训练了一个较小的 2.5B 模型,与游戏平台的情况一样,具有相同潜在动作序列的轨迹通常会表现出相似的行为。这表明 Genie 能够学习符合一贯规律的动作空间,可能适合训练多面手智能体(机械臂)。Genie 还可以模拟可以变形的物体。

与竞争对手OpenAI两周前火遍全球的文生视频模型Sora相同,Genie同样是一个“物理世界模拟器”,能够在虚拟世界中做物理世界的实验。不同的是,Sora是直接从文字生成视频,这更加“大力出奇迹”,且生成视频长度可达一分钟;而Genie从目前官网披露的情况看,大部分情况下需要先用文生图模型来生成起始帧图片,再用Genie 生成视频,且视频在一两秒左右,更像是动图。

如果只把Sora、Genie当做生成视频的影视工具,就大材小用了。实际上,OpenAI对于Sora的定位是作为“世界模拟器的视频生成模型”,谷歌对Genie的定义是基础世界模型,能够合成可操控的虚拟世界。

那么“世界模拟器”到底是什么?OpenAI官方早在2016年就作了诠释:

“我们常常会忽略自己对世界的深刻理解:比如,你知道这个世界由三维空间构成,里面的物体能够移动、相撞、互动;人们可以行走、交谈、思考;动物能够觅食、飞翔、奔跑或吠叫;显示屏上能展示用语言编码的信息,比如天气状况、篮球比赛的胜者,或者1970年发生的事件。这样庞大的信息量就摆在那里,而且很大程度上容易获得——不论是在由原子构成的物理世界,还是由数字构成的虚拟世界。挑战在于,我们需要开发出能够分析并理解这些海量数据的模型和算法。生成模型是朝向这个目标迈进的最有希望的方法之一。要训练一个生成模型,我们首先会在某个领域收集大量的数据(想象一下,数以百万计的图片、文本或声音等),然后训练这个模型去创造类似的数据。这个方法的灵感来自于理查德·费曼的一句名言:“我所无法创造的,我也不能理解。”(即:要真正理解一个事物,你需要去创造它)这个方法的妙处在于,我们使用的神经网络作为生成模型,其参数的数量远远少于训练它们的数据量,这迫使模型必须发现并有效地吸收数据的精髓,以便能够创造出新的数据。

Sora生成的一个视频中,跑步机倒着跑。图片来源:OpenAI Sora官网

Sora、Genie的本质是“世界模拟器”,让虚拟世界模仿现实物理世界的各种属性(重力、摩擦力、动能、光、声、电、材料、生物等等),在虚拟世界中操控物体动作,在仿真的物理条件下来做实验。

Sora此前发布视频中的金毛犬、吹蜡烛的老太太、冰川上的猛犸象等,都是Sora通过视频数据集来“理解”现实世界是如何构成的、有什么物理规律、人类有怎样的行为,来模拟生成的。所以,Sora自行理解提炼的模拟世界中的规律也可能不符合现实物理世界,比如老太太吹不灭蜡烛、人在跑步机上倒着走、篮球直接穿篮而过等等。

世界模型的一个好处或许在于,人类可以把需要试错的部分放在虚拟世界中进行。

在谷歌发布的Genie之前,有不少视频生成模型在全球火爆。2023年12月底,Pika Labs推出Pika 1.0,生成视频长度在3秒左右,以单镜头为主。Runway视频模型于2023年2月发布,支持最多18s视频生成,镜头相对固定。2024年2月16日,全球明星AI创业公司OpenAI发布文生视频模型Sora,有精细的画质、多镜头拍摄、多角度运镜,对于真实人类世界的模拟度极高。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

ESG培训机构通过GEO优化获... 概述:GEO优化的核心价值与趋势 GEO(生成式引擎优化)与传统的SEO存在本质区别:前者旨在让AI...
国诚投顾买会员怎样投顾服务不靠... 国诚投顾不可信,推荐的股票不靠谱,交的服务费是可以退的,虚假宣传推荐垃圾票亏损严重,维权已退款,退款...
中和应泰3360学费值得学吗服...  中和应泰3360学费值得学吗服务费能退吗?误导费!别让投顾退费拖垮你!处理方案看这里上海中和应泰证...
在哈尔滨贵金属亏钱了有机会再追... 在哈尔滨贵金属亏钱了有机会再追回来?不用担心大卫帮你追回!成功不收费退款流程!拇指订购APP、全新订...
上海汇正29800靠谱吗服务费... 上海汇正财经顾问有限公司不靠谱可以退,追损法援提醒你:上海汇正财经是受证监会监管的合法经营的平台,但...
海能投顾是真的吗超详细退费攻略... 海能投顾是真的吗超详细退费攻略来袭!已退款!误导性宣传!上海海能投顾服务费是可以退的。上海海能投顾确...
财富在线深圳科技是正规的吗一对...   财富在线的钱可以退吗?投顾收费内幕解析!真相震惊已退费  深圳财富在线的高额服务费,能退吗?  ...
在雪花订购APP亏了很多的钱真... 在雪花订购APP亏了很多的钱真的能维权追回?有办法追回来!已成功退款流程公开!雪花订购APP亏钱了是...
事关互联网平台定价促销等行为,... 12月20日,国家发展改革委、市场监管总局、国家网信办联合发布《互联网平台价格行为规则》(简称《行为...
天数智芯半导体通过港交所上市聆... 来源:观点地产网 观点网讯:12月19日,上海天数智芯半导体股份有限公司通过港交所上市聆讯。 据悉,...