字节跳动新模型 提振机器视觉指数
创始人
2025-02-11 06:00:45

2月10日,字节跳动旗下豆包大模型团队发布视频生成实验模型“VideoWorld”,该模型由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型即可认知世界。

受该消息影响,当日收盘,据Wind数据,机器视觉指数涨2.45%。成份股中,中光学涨停,格灵深瞳涨9.69%,宇瞳光学涨7.54%。

字节内部人士对记者表示,VideoWorld视觉模型属于学术研究项目,是在探索新的技术方法,目前并未应用至产品端。另外,尽管VideoWorld在围棋和模拟机器人操控环境中展现出较优性能,但在真实世界环境中的应用仍面临着高质量视频生成和多环境泛化等挑战。

据官方披露,为进行该视频模型研究,豆包团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。前者是因为围棋可以评估模型规则学习、推理和规划能力,且围棋关键信息仅有黑白两色及棋盘,可将外观、纹理等复杂细节与高级知识的评估分离。

同时,豆包团队还选取了机器人任务,以考察模型在理解控制规则和规划任务方面的能力。在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。

经过一段时间的探索,豆包团队发现,视频序列的知识挖掘效率显著落后于文本形式,主要是因为视频中存在大量冗余信息,影响模型的学习效率。比如在学习棋子移动过程中,模型只需通过状态序列中少量位置标记编码,但面向视频数据,编码器则会产生过多冗余标记,不利于模型对复杂知识的快速学习,这也是VideoWorld模型诞生的背景,保留丰富视觉信息的同时,压缩关键决策和动作相关的视觉变化,实现更有效的视频学习。

VideoWorld并非字节发布的首款视频大模型。上周,字节跳动对外披露旗下一站式AI创作平台即梦AI将上线多模态视频生成模型OmniHuman,仅需一张图片与一段音频便可生成一条AI视频,该模型为字节自研闭源模型。此前,字节已发布文生视频大模型MagicVideo - V2、通用多模态大模型UniDoc等产品。

除了字节跳动,阿里、腾讯、快手等企业相继推出视频生成类产品,并披露在多模态领域布局。此前接受第一财经等媒体采访时,字节旗下火山引擎总裁谭待表示,企业做大模型是为了辅助人去做各种事情,需要语言、视觉等方面的完整能力,这就要求大模型具备多模态能力,才能端到端地帮助个人创业者与企业去解决具体问题。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

金证投顾服务费怎样要回来老年股...   金证投顾服务费怎样要回来老年股民维权无门,专业协助快速实现退款成功  股市行情持续低迷,给人的感...
2025智能科技消费调查:超8... 1月26日,第11届智能科技产品消费者大调查(以下简称“调查”)结果正式发布:2025年,超过25%...
钱坤证券投资咨询有限公司可靠吗...  钱坤证券投资咨询有限公司可靠吗怎么申请退款?“顾问”在割韭菜,能退费!钱坤证券确实是一家正规的投顾...
莫迪下令拒收俄罗斯石油,中国伸... 莫迪决定停止接收俄罗斯石油的命令,实际上揭示了一个细节鲜明的画面:一些载着俄罗斯原油的油轮,未能按预...
聚焦四川上市公司 | 近百家机... 金融投资报记者 林珂 新年伊始,机构投资者又忙碌了起来,调研频率明显加快。就四川省上市公司来看,年初...
33万亿理财资金何去何从?20... 财联社1月26日讯(编辑 王蔚 实习生 梁泽丰)《中国银行业理财市场年度报告(2025年)》显示,理...
迈得医疗预告2025年扭亏为盈... 《科创板日报》1月26日讯(记者 史士云)今日,迈得医疗(688310.SH)发布2025年年度业绩...
博众投资推荐的股票可靠吗教你一... 博众投资推荐的股票可靠吗教你一招快速追回服务费 受害者已经退博众投顾不可信,推荐的股票不靠谱,交的服...
会笑会哭还会比心|“变脸球”花... 在南岗区某商场的某甜品店内, 一颗悬浮的球体正成为全场焦点。 它时而绽放灿烂笑脸, 时而闪烁爱心, ...
迈合欣智能申请生产系统运维方法... 国家知识产权局信息显示,上海迈合欣智能科技有限公司申请一项名为“一种生产系统运维方法、装置和电子设备...