具身智能机器人年度总结，来自英伟达机器人主管_资讯

具身智能机器人年度总结，来自英伟达机器人主管

创始人

2026-01-05 15:20:23

henry 发自凹非寺

量子位 | 公众号 QbitAI

“机器人领域仍处于蛮荒时代。”

这是英伟达机器人主管Jim Fan，在2025年，即将收官之际给出的判断。

乍一听，这个结论多少有些刺耳。

毕竟，在这一年里，我们已经看到机器人打乒乓球、打篮球，完成复杂的长程搬运与跨场景任务——

当然，也少不了各种翻车“冥”场面。

但就像Jim Fan，以及聪明的网友反复指出的那样：

很多演示，本质上只是从上百次尝试中，挑选出来的最好一次。

这背后，恰恰暴露出机器人领域至今缺乏统一、可复现的标准评测体系的核心问题。

也正因如此，几乎人人都能通过添加限定词，宣称自己达到了SOTA。

除此之外，Jim Fan还指出——

当前机器人硬件进展快于软件，但硬件可靠性不足，反而限制了软件的迭代速度；同时，主流的VLM→VLA技术范式本身也存在结构性问题。

以下为分享全文：

2025年，机器人领域教给我的3件事

所有人都在为vibe coding感到兴奋。在节日气氛中，请允许我分享一下我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的3个教训。

硬件走在软件前面，但硬件可靠性严重限制了软件迭代速度

我们已经看到了极其精妙的工程杰作：Optimus、e-Atlas、Figure、Neo、G1等等。

但问题是，我们最好的AI还远没有把这些前沿硬件的潜力榨干。（机器人）身体的能力，明显强过大脑目前能发出的指令。

然而，要“伺候”这些机器人，往往需要一整个运维团队。

机器人不像人类那样会自我修复：过热、马达损坏、诡异的固件问题，几乎是日常噩梦。

错误一旦发生，就是不可逆、也不宽容的。

真正被scaling的，只有我的耐心。

机器人领域的基准测试，依然是一场史诗级灾难

在大模型世界里，人人都知道MMLU、SWE-Bench是怎么回事。

但在机器人领域没有任何共识：用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器，还是直接上真实世界？

按定义来说，每个人都是SOTA——因为每次发新闻，都会临时定义一个新的benchmark。

每个人都会从100次失败里，挑出那次最好看的demo。

到2026年，我们这个领域必须做得更好，不能再把可复现性和科学规范当成二等公民。

基于VLM的VLA路线，总感觉不太对

VLA指的是Vision-Language-Action（视觉-语言-动作）模型，目前这是机器人大脑的主流范式。

配方也很简单：拿一个预训练好的VLM checkpoint，在上面“嫁接”一个动作模块。

但仔细想想就会发现问题。VLM 本质上是被高度优化用来爬诸如视觉问答这类 benchmark的，这直接带来两个后果：

VLM的大多数参数，都服务于语言和知识，而不是物理世界；
视觉编码器被主动训练去丢弃低层细节，因为问答任务只需要高层理解，但对机器人来说，微小细节对灵巧操作至关重要。

因此，VLA 的性能没有理由随着VLM参数规模的增长而线性提升。问题出在预训练目标本身就不对齐。

相比之下，视频世界模型（video world model）显然是一个更合理的机器人策略预训练目标。我正在在这个方向上下重注。

在Jim Fan的推文下面，不少网友也表示了赞同。

有网友表示，硬件的容错能力确实非常重要：

硬件约束导致迭代变慢，是一个常被低估的瓶颈。软件可以高频更新，但物理系统必须建立在可靠的机械基础上，而这需要真实时间去验证和打磨。

硬件很关键，但数据很重要

在Jim Fan的讨论中，硬件被放到了核心位置，但与此同时，我们也发现数据作为一个核心元素被忽略了。

在机器人研究中，数据塑造模型能力，而模型的发挥又离不开硬件，这是其典型的全栈特性。

在今年，我们已经看到了像Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等全新硬件本体。

从展示效果看，这些新硬件在运动能力上表现亮眼：

无论是宇树的翻跟头，还是小鹏机器人的步态控制，都已明显超出年初的平均水平，并且证明了大型机器人（成年人身高）也能像小型机器人一样灵活。

但真正现实的问题可能正如Jim和网友谈到的，如何在维持高性能的同时，进一步提升硬件可靠性，例如抗摔性、电池发热、长时间运行稳定性等工程层面的挑战。

在数据方面，今年最值得注意的例子之一是Generalist，它通过大量的数据规模证明了具身智能的Scaling law。

其中，数据越大，模型参数越高，模型在具体任务上的表现也就越好，符合我们在LLM上观察到的现象。

与此同时，也出现了像Sunday这样方便数据采集的定制化机器人硬件。

这套系统与机器人的手部协同设计，利用技能捕捉手套采集人类动作数据，并能以近90%的成功率转换为机器人可用数据。

同样受到关注的还有Egocentric-10K，一个汇集了1万小时工作数据的大型数据集。

可以说，在具身智能领域，数据的重要性已不言自明。但具体的数据路线仍未收敛：人类中心采集（可穿戴设备、Umi、视频）、真机遥操数据、仿真数据，以及互联网数据、数据模态、配比仍是开放问题。

2025机器人年度词汇——VLA

在模型方面，VLA毫无疑问是2025机器人领域最热的词汇。

根据伦敦国王学院、香港理工大学等研究机构的最新综述，仅2025年一年就发表了超200篇VLA工作。

前段时间更是有网友调侃道：2026年可能会有一万篇VLA工作。

那么，VLA到底是啥呢？

简单来说，VLA 赋予了机器人一个大脑，这个“大脑”可以同时处理以下三种模态的信息：

视觉 (Vision, V)：通过摄像头感知环境，理解物体的形状、位置、颜色、状态和场景布局。
语言 (Language, L)：理解人类的自然语言指令（例如，“把桌上的红苹果放到碗里”）并进行高层推理。
动作 (Action, A)：将理解的指令转化为机器人可以执行的低级物理动作序列（例如，移动关节、抓取、推动等）。

传统机器人通常需要为每个新任务进行专门编程或训练，而VLA模型通过大规模数据学习，能够执行训练中未明确见过的任务，甚至在陌生环境下也能工作，从而具备泛化性。

但正如Jim Fan在上面提到的，基于VLM (视觉-语言模型) 的VLA模型，其骨架本质上是为问答和知识推理而优化的，其庞大的参数库和服务目标，与机器人所需的物理世界精细操作存在严重错位。

在这篇综述中，我们也找到了对Jim Fan提出的观点的一些回应，以问答形式梳理如下：

Q：VLM的视觉编码器倾向丢弃低层物理细节，仅保留高层语义（如“这是苹果”）。而这些微小细节恰恰决定了抓取、推动等动作的成功率

A：未来的 VLA 需要整合物理驱动的世界模型，内部表征 3D 几何、物理动态、因果关系和可供性，实现语义指令与物理精度的统一。

Q：由于VLM预训练目标与机器人控制不对齐，增加模型参数并不会线性提升性能。

A：通过“形态无关表征”解耦高层语义规划与低层本体感知控制，使通用机器人大脑能够通过轻量适配器实现零样本跨具身迁移，从而发挥数据规模带来的泛化能力，而非盲目堆叠参数。

Q：Jim Fan建议以视频世界模型作为机器人预训练目标，因为它天然编码时序动态与物理规律。

A：当前研究趋势是将世界模型能力“嫁接”到VLM上，例如训练数据驱动模拟器学习物理动态，再嵌入VLA作为解耦内部模拟器，实现显式规划，使VLA从“被动序列生成器”转向主动物理感知智能体。

此外，在数据和评测基准方面，综述更倾向“仿真派”，提出以模拟优先、失败为中心的数据范式。

一方面，依赖真实世界的大规模异构数据不可持续，未来需转向高保真模拟环境生成多样化轨迹。

另一方面，应充分利用失败轨迹，从中学习，提高数据利用效率。

在评测方面，现有标准过于依赖二元成功率，难以反映鲁棒性、效率和安全裕度。未来必须进行更全面的能力评估。

One more thing

最后插播两条趋势性消息：

据摩根士丹利的研究，机器人产业有望从当前的910亿美元激增至2050年的25万亿美元。

与此同时，硅谷巨头除微软/Anthropic外，全部加码机器人软/硬件。

所以，虽然现实很骨感，但机器人题材依旧sexy～

参考链接

[1]https://suyuz1.github.io/Survery/

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

上一篇：元.福影业（上海）有限公司短剧投资是真的吗？上线分红能信吗？短剧投资靠谱吗？是忽悠人的吗？股票群老师推荐的短剧项目能信吗？

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

具身智能机器人年度总结，来自英伟达机器人主管

相关内容

热门资讯