机器人学习也要提速提质!智元机器人发布首个通用具身基座大模型
创始人
2025-03-10 14:40:34

去年已实现量产近千台的人形机器人公司智元机器人再度对外宣布重磅消息。

3月10日,该公司正式发布首个通用具身基座大模型,即智元启元大模型(Genie Operator-1)。“GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。”

值得关注的是,智元机器人方面介绍,GO-1大模型还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

2024年底,智元机器人年推出了AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。然而,如何有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据?这仍然是关键。

智元介绍,数字金字塔的底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景;在这之上是大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式;更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等;金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。

“现有的VLA(Vision-Language-Action)架构,未有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。”基于这一现实,智元此次提出了Vision-Language-Latent-Action(ViLLA)架构。

据介绍,该架构由VLM(多模态大模型)+ MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)则借助百万真机数据获得精细的动作执行能力。

也就是说,与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟,能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。

智元机器人称,在推理时,VLM、Latent Planner和Action Expert三者协同工作:VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

“实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上一个新台阶。”智元机器人方面表示。

根据该公司给出的数据,通过Vision-Language-Latent-Action (ViLLA) 架构,其在五种不同复杂度的任务上测试 GO-1,相比已有的最优模型,GO-1平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外还单独验证了ViLLA 架构中Latent Planner的作用,其可以提升12%的成功率(66%->78%)。

智元机器人称,智元通用具身基座大模型GO-1的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进。

智元机器人于2023年2月成立于上海临港新片区,其临港工厂也已于2024年10月开始生产,这也是上海首座人形机器人量产工厂。据悉,智元机器人还计划在上海张江建设年产能在1万台左右的人形机器人的二期工厂。截至目前,该公司主要有三条主打产品线,分别为远征、Genie和灵犀。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

新一批“科技副总”上岗!聚焦电... 5月14日,“科创天府·智汇蓉城”成都市“科技副总”选聘(电子信息与人工智能领域)专场活动举行。在蓉...
10大护肝排毒食物!轮流换着吃... 肝脏是人体重要的代谢与解毒器官,承担着分解毒素、合成营养、调节免疫等多重任务。一旦肝火偏旺或功能下降...
原创 A... A股“股王”出事了。 就在刚刚,源杰科技甩出一份公告,字少,事大—— 公司副总经理陈文君,因涉嫌刑事...
美股异动丨思科盘前大涨超19%... 全球最大网络设备制造商思科(CSCO.US)盘前大涨超19%,报121.47美元,开盘势将再创历史新...
今日金价拐点显现,下周行情或将... 5月14日的黄金市场走出了明显的拐点形态,多空双方力量在此消彼长中达到了短暂的平衡,这种蓄势待发的状...
收盘丨沪指跌1.52%,猪肉、... 5月14日,四大股指集体收跌,沪指跌1.52%,深证成指跌2.14%,创业板指跌2.16%,科创综指...
世纪互联盘中狂飙逾30%!宁德... 5月13日,世纪互联(VNET.US)宣布引入新的战略投资者,PJ Millennium I Lim...
国有大行首个要关停的信用卡AP... 来源:图虫 5月13日,中国银行信用卡公众号发布信息称,为进一步整合服务资源,优化线上金融服务体验,...
微纳星空IPO的几点探讨:低比... 来源:市场资讯 来源:基本面解码 北京微纳星空科技股份有限公司(以下简称“微纳星空”)微纳星空是国内...
路演互动丨龙辰科技5月15日北... 来源:全景财经 并在北交所上市网上路演 股票代码:920161 本活动于2026年5月15日(星期五...