今天分享的是:星海系列:人形机器人与AI大模型之Robot+AI的Transformer之旅
报告共计:54页
本报告聚焦人形机器人与AI大模型结合领域的前沿进展,详细阐述了相关技术在机器人领域的创新应用及未来发展趋势,展现了该领域的蓬勃发展态势。
Transformer模型演进
2017年Google提出Transformer网络架构,凭借注意力机制处理长距离依赖关系和并行计算优势,广泛应用于语言处理。随着发展,语言、图片、视频大模型兴起,结合视觉模型形成多模态大模型(MLLM),虽面临数据处理与训练挑战,但Scaling Law的存在为模型发展提供方向,即通过扩大数据规模提升性能。
机器人数据化突破
1. 谷歌RT - 2:通过大规模视觉 - 语言预训练,将视觉识别与低级机器人控制结合,实现强大泛化能力,可理解并执行新任务,未来将致力于获取新技能和开发开元模型。
2. 英伟达MimicGen:作为自动化数据生成系统,通过分割与重组少量人类演示数据,生成大量多样化演示数据,减少人工干预,提升机器人学习效率,在复杂任务中表现出色,未来有望拓展应用场景。
3. 谷歌RoboCat:基于Gato模型的多任务、多具身通才智能体,能在多任务和不同机器人平台上快速适应并泛化,展示了自主改进循环的潜力,未来将注重多模态任务规划。
特斯拉FSD进展
特斯拉FSD历经发展,2024年初V12版本实现完全端到端自动驾驶,采用神经网络控制车辆,模拟人类驾驶决策,大幅减少事故率,引领自动驾驶技术发展。
端到端算法应用
端到端算法在自动驾驶中兴起,相比传统技术具有诸多优势,如解决corner case、实现拟人化自动驾驶、达到全局最优且成本低泛用性强,在人形机器人领域也具迁移优势,但面临真实数据收集标注、合成数据使用及模型可解释性等关键问题。
英伟达Robocasa成果
英伟达Robocasa构建大规模模拟框架,结合生成式AI工具,创建多样化厨房场景和任务,通过模拟数据提升机器人在真实任务中的表现,首次论证real - sim - real可行,未来将改进策略架构和学习算法,拓展应用环境。
机器人迈向AGI智能化
1. 李飞飞团队Rekep:提出关系关键点约束(ReKep),通过视觉 - 语言模型生成约束,解决机器人操作任务表示与优化问题,实现多阶段、双手操作任务,未来需克服优化框架和点跟踪等挑战。
2. 1x世界模型:从原始传感器数据学习构建模拟器,预测物体互动,理解环境并执行任务,首次证明扩展定律,但存在物体失真等问题,未来将融合多传感器信息。
3. 字节GR - 2:通过预训练和微调,在视频数据集上训练的GR - 2具有强大泛化能力和多任务通用性,在各场景测试中性能显著提升,未来可应用于多场景任务。
4. 数字表亲:提出ACDC算法自动创建数字表亲,优化机器人训练,降低成本并提高泛化能力,在模拟和真实环境中表现出色,为机器人学习提供新可能。
以下为报告节选内容