真机RL杀疯了！机器人自学20分钟100分，数字孪生封神_资讯

真机RL杀疯了！机器人自学20分钟100分，数字孪生封神

创始人

2026-02-13 14:20:33

新智元报道

编辑：犀牛

【新智元导读】TwinRL用手机扫一遍场景构建数字孪生，让机器人先在数字孪生里大胆探索、精准试错，再回到真机20分钟跑满全桌面100%成功率——比现有方法快30%，人类干预减少一半以上。

让机器人真正「走出演示数据」的那一刻，发生了什么？

你花了两周时间，手把手遥操作教一个机械臂抓香蕉放盘子。桌子左半边，它学得像模像样，十拿九稳。

然后你把香蕉往右边挪了15厘米。

机械臂愣住了。

它不是「没学好」，而是从来没见过那个位置。

对它来说，桌子右半边就是另一个宇宙。

这不是段子，这是2025年几乎所有VLA模型在真实世界里的真实处境。

过去两年，Vision-Language-Action（VLA）模型席卷机器人领域。

从「看图+听话+动手」，到多任务、多场景的泛化执行，VLA让机器人第一次看起来像「理解世界」的智能体。

论文里成功率动辄90%以上，演示视频拍得漂亮极了。

但真正做过真机实验的人都知道，这里面藏着一个所有人都心知肚明、却很少有人正面回答的问题：

如果没有人类不断示范，机器人还能不能自己学？

答案是——几乎不能。

现实的残酷在于：

人类示范（Teleoperation）昂贵、低效、覆盖有限——一个人手握操控杆操作一天，也就覆盖桌面的一小片区域
在线强化学习（RL）在真实机器人上慢、危险、资源消耗大——机械臂一个探索失误，可能直接撞坏传感器

但这些都还不是最致命的。

最致命的是——

RL的探索空间，被SFT演示数据牢牢锁死。

哪怕你给机器人再多奖励，它也只会在「演示数据附近」打转。

就像一个只在家门口遛过弯的人，你跟他说「去探索世界」，他转一圈还是回到了自家楼下。

探索，根本没有发生。

这个问题被回避得太久了。

直到TwinRL，第一次把它撕开，摊到台面上。

近日，至简动力、北京大学计算机学院多媒体信息处理国家重点实验室、清华大学、香港科技大学，提出了一种面向真实世界机器人操作的数字孪生协同强化学习框架 TwinRL（Digital Twin-Driven Reinforcement Learning），可直接在真实机器人上高效执行在线强化学习并系统性扩展探索空间。

据行业知情人士透露，至简动力目前估值已逼近独角兽阵营。成立半年即获得如此密集的顶级资本加持，在整个具身智能赛道中也极为罕见。

TwinRL的核心洞察：RL的问题，不是学不会，而是探索空间被限制。

通过系统性的真实机器人实验，TwinRL团队观察到一个关键现象：

真实世界中，VLA的有效探索空间，几乎完全由SFT数据分布决定。

这意味着什么？

RL更像是「重加权」，而不是「开新路」
Out-of-Distribution（OOD）区域，对SFT模型来说几乎不可达
即便加入Human-in-the-Loop，也只是缓慢地「挪边界」

问题不在算法，而在探索空间本身。

于是，一个大胆的想法出现了：

如果真实世界没法并行探索，那就把「探索」这件事，提前搬到一个「可控、可扩展的世界」里。

这个世界，就是数字孪生（Digital Twin）。

TwinRL：不是「模拟器」

而是探索放大器和探索指引器

和传统「仿真+real2sim」不同，Digital Twin不是用来替代真实世界的，而是用来「放大真实世界探索能力」的。

TwinRL构建了一个数字孪生–真实机器人协同强化学习框架，核心由三步组成：

一、探索空间扩展（Exploration Space Expansion）

使用手机拍摄真实场景
基于3D Gaussian Splatting高效重建高保真数字孪生
在孪生环境中生成远超人类示范覆盖范围的合成轨迹
在SFT阶段就显式拓宽数据分布支持

不是「学得更好」，而是一开始就站在更大的世界里。

二、数字孪生中的并行在线RL

真实机器人无法并行试错，但数字孪生可以。

TwinRL在部署前：

在数字孪生中高效并行执行在线RL
生成RL风格的高质量探索轨迹，桥接offline→online

这一步极大缓解了真实世界RL的冷启动和不稳定问题。

三、Sim-to-Real引导的人在回路探索

数字孪生不仅「多」，而且「准」。

TwinRL会：

在孪生环境中自动识别失败高发但信息密集的配置
精准引导人类只在「最有价值的位置「介入
大幅减少无效示范和重复操作

人类不再是苦力，而是策略级引导者。

数字孪生协

同强化学习框架TwinRL

与以往仅在单一初始配置上达到高成功率不同，TwinRL 实现的不是「一个点 100%」，而是在更广的工作空间范围内（包括分布外 OOD 区域）实现 100% 的成功率覆盖。

在 4 项真实世界操作任务中，TwinRL 平均仅需约 20 分钟即可完成在线强化学习收敛，相比现有真实机器人 RL 方法实现至少 30% 的加速，同时显著降低了人类干预需求。

此外，即使在物体位置扰动与环境变化条件下，TwinRL 依然能够保持稳定表现，展现出更强的空间泛化与探索能力。

真机测试视频

论文链接: https://arxiv.org/abs/2602.09023

项目主页: https://sites.google.com/view/twinrl/twinrl

1. 摘要

尽管视觉–语言–动作（Vision-Language-Action, VLA）模型在机器人操作任务中展现出良好的泛化能力，其在真实世界中的应用仍受到高成本人类示范数据和有限真实交互的制约。

在线强化学习（Reinforcement Learning, RL）为提升模型能力提供了基于环境反馈的有效途径，但在真实机器人场景中，其探索效率与可扩展性仍然受到显著限制。

通过系统性的真实机器人实验，研究团队发现：在线强化学习在真实世界中的有效探索空间，与监督微调（Supervised Fine-Tuning, SFT）阶段所使用的数据分布高度相关。

在此背景下，本文提出了一种数字孪生–真实机器人协同强化学习框架 TwinRL，旨在对 VLA 模型的探索过程进行系统性扩展与引导。

TwinRL 首先利用手机采集的真实场景数据高效重建高保真数字孪生环境，实现真实世界与仿真环境之间的双向迁移。

在监督微调阶段，框架通过数字孪生引入探索空间扩展策略，以显式拓宽轨迹数据分布的支持范围。

在此基础上，TwinRL 进一步提出了一种 sim-to-real 引导的探索机制，在部署前于数字孪生环境中执行高效并行的在线强化学习，从而有效衔接离线训练与真实世界在线学习过程。

此外，框架还利用数字孪生中的高效采样识别失败频发但信息密集的关键配置，用于引导真实机器人上的定向人类在回路探索。

在多个真实世界机器人操作任务上的实验结果表明，TwinRL 在示范数据覆盖区域及分布外区域均取得了稳定性能提升，在显著减少人类干预的同时，将真实机器人在线强化学习的收敛时间缩短至约 20 分钟，并相比现有方法实现了至少 30% 的效率提升。

图 1：整体框架（a）我们提出了 TwinRL，一种数字孪生–真实机器人协同的强化学习框架。该框架通过引入数字孪生环境，将探索空间从人类示范所覆盖的分布内区域扩展至分布外区域，并在数字孪生中执行高效、并行的在线强化学习，从而实现 sim-to-real 引导的探索过程，显著提升真实机器人在线强化学习的收敛速度。（b）在四个机器人操作任务上的实验结果表明，TwinRL 在在线强化学习阶段收敛速度更快，并在真实世界示范覆盖区域及分布外区域均取得了接近 100% 的成功率，平均约 20 分钟即可达到该性能水平。由于 HiL-SERL 方法未包含监督微调阶段，其性能仅在分布内区域进行报告。

2. 研究背景

视觉–语言–动作（Vision-Language-Action, VLA）模型近年来在机器人操作任务中展现出良好的泛化潜力，能够将自然语言指令直接映射为连续控制行为。

然而，现有 VLA 方法在真实世界部署中仍高度依赖人工示范数据（teleoperation），其获取成本高、覆盖范围有限，且难以支持长期自主学习。

强化学习（Reinforcement Learning, RL）被认为是突破示范数据瓶颈的重要手段，但在真实机器人系统中直接应用在线 RL 面临效率低、风险高、难以并行等现实约束。

尤其是在复杂物理环境下，机器人探索空间受到初始监督数据分布的强烈限制，导致在线学习难以有效扩展到未覆盖区域。

3. 核心观察与研究动机

图 2：探索瓶颈。(a) 我们将工作空间划分为分布内区域（A）与分布外区域（B）。每个区域由任务完成时被操作物体中心的位置进行定义。(b) 热力图可视化展示了不同策略在各区域中的性能表现。(c) 学习曲线展示了 A-only 策略在两个区域中进行在线强化学习时的训练动态变化。

尽管在线强化学习（online RL）为提升任务鲁棒性提供了探索路径，但其在真实物理硬件上的样本效率仍然面临挑战。

受到通用领域研究的启发，我们观察到，在真实世界的 VLA 强化学习中，探索过程实际上受到监督微调（SFT）阶段所诱导的轨迹分布空间支持的严格约束。

这一约束带来了双重瓶颈：（1）限制策略能够可靠探索的状态集合；（2）即便引入人类干预，也显著降低在线 RL 的学习效率。

实验设置.

如图所示，我们在一个高精度积木插入任务上开展实验，该任务对空间位置精度要求较高。所有策略均基于 Octo 模型构建。我们将工作空间划分为分布内区域 A（由示范数据覆盖）与分布外区域 B（在 SFT 阶段未被观察到）。

瓶颈一.我们通过改变 SFT 示范的空间覆盖范围，分析其对策略泛化能力与自主在线 RL 的影响。具体比较两种训练数据分布：A-only，仅使用区域 A 的 30 条示范；A+B，在此基础上加入来自区域 B 的 30 条数字孪生示范。为衡量示范覆盖如何塑造探索空间，我们将策略初始化为 A-only SFT 模型，并在未见过的区域 B 中执行自主在线 RL。

发现一.如图所示，在每个网格单元内执行 10 次 rollout。在区域 B 中，A+B 策略成功率达到 62.5%，而 A-only 策略完全局限于区域 A（区域 B 成功率为 0%）。这表明标准 SFT 策略在空间未覆盖区域上的外推能力极其有限。更重要的是，从 A-only 模型出发在区域 B 中进行自主在线 RL 时，会出现明显的探索死锁现象。在 OOD 初始配置下，即使经过 40K 训练步（约两小时），策略仍无法稳定获得正奖励。这一现象与此前工作的观察一致：replay buffer 被失败轨迹主导，导致自主适应几乎失效。结果说明，在线 RL 的有效探索空间与 SFT 数据的空间覆盖范围高度相关。

瓶颈二.为缓解探索死锁，可以引入人类在回路（HiL）干预，引导机器人完成任务。然而，关键问题在于：在人类指导可用的情况下，是否能够保证在 OOD 场景下实现高效在线适应？为此，我们比较两种设置：分布内后训练（在区域 A 中进行在线 RL）与分布外后训练（在区域 B 中进行在线 RL）。所有模型均初始化自相同的 A-only SFT 策略。

发现二. 尽管在人类干预下，两种设置都能获得成功的纠正示范，但样本效率差异显著。如图所示，分布内后训练适应迅速，在约 45 分钟（约 14K 交互步）内成功率超过 90%；相比之下，分布外后训练收敛更慢且更不稳定，在相同交互预算下未能达到可比性能。这些结果表明，即便引入 HiL 机制，在未见过的区域 B 中学习仍然困难。这主要源于不利的奖励景观以及 replay buffer 中数据分布失衡，显著降低了梯度效率。

结论。上述观察表明，要突破两个瓶颈，必须在真实世界交互前扩展探索覆盖范围，并在在线阶段系统性引导人类干预以提升学习效率。基于此，我们提出 TwinRL —— 一个数字孪生与真实机器人协同的强化学习框架，将数字孪生作为探索放大器与引导器，贯穿 SFT 与在线 RL 两个阶段。

4. TwinRL 框架概述

整个框架由三个紧密耦合的阶段构成：探索空间扩展、数字孪生并行在线强化学习以及 sim-to-real 引导的真实世界探索。

探索空间扩展策略. 首先，我们构建高保真的数字孪生环境。通过手机采集真实场景并基于 3D Gaussian Splatting 进行重建，实现真实环境与仿真环境之间的几何与视觉一致性。基于该孪生环境，我们在监督微调（SFT）warm-up 阶段引入探索空间扩展策略，在保持任务语义一致的前提下生成覆盖更广状态配置的轨迹数据，显式拓宽训练轨迹分布的支持范围，从而增强策略在分布外区域的可达性。

孪生在线 RL 阶段.尽管我们的方法在 SFT 阶段扩展了 VLA 模型的探索支持范围，但在真实机器人上直接启动在线强化学习仍然面临两个关键瓶颈。第一，监督示范数据

与 RL 风格专家轨迹

之间的分布不匹配，可能在离线到在线过渡过程中引发严重的性能退化以及 Q 值不稳定问题。第二，即便采用人类在回路（HiL）引导的在线 RL，仍然存在较高的样本复杂度，并高度依赖操作者经验。为了解决这些问题，我们将数字孪生作为并行计算引擎，引入“孪生在线 RL 阶段”以及一种“失败感知的探索机制”，从而将真实世界中的探索转化为更加有针对性且样本效率更高的过程。如方法图 Stage II 所示，为了弥合示范数据与 RL 风格交互数据之间的分布差距，我们首先在数字孪生中执行并行在线 RL。在该阶段，策略

从 SFT 模型初始化，并在 N 个并行孪生环境中进行交互训练。优化目标为：

。其中，

与 SFT 阶段所使用的损失相同；

为强化学习目标，鼓励策略选择具有更高 Q 估计值的动作，其形式为对状态 s 和策略动作 a 的期望负 Q 值。通过这一过程，孪生在线 RL 阶段能够高效收集多样化轨迹

，包括成功执行、失败行为以及恢复策略，并将其存储在孪生 replay buffer

中。由于并行处理能力，我们可以在约 1 分钟内生成一批 rollout（例如每个 episode 约 30 步）。由于示范数据与 RL 风格交互数据之间存在分布差距，早期在线学习往往表现出不稳定性。因此，在数字孪生中完成高效在线学习后，我们将孪生 buffer 中的数据迁移至真实世界 replay buffer，用于初始化真实训练过程。通过提供更加均衡的训练信号，该初始化策略能够减少离线 SFT 向真实在线学习过渡阶段的训练不稳定性，并缓解性能退化。此外，在后续的定向 HiL 引导在线 RL 过程中，该策略也有助于防止在已有良好性能配置上出现灾难性遗忘。

真实世界在线 RL. 如方法图 Stage III 所示，我们利用数字孪生识别状态空间中容易失败的区域，并据此引导真实世界在线 RL 的初始状态分布。与以往依赖真实 rollouts 的课程学习或重置策略不同，数字孪生可以在不消耗物理交互预算的前提下，以低成本、系统化方式评估策略在大范围初始配置下的表现。具体而言，我们在数字孪生中评估当前策略，并构建目标初始状态集合：

，其中

表示从初始状态

出发的经验成功率，

为熟练度阈值。在真实世界在线交互过程中，优先从

中采样初始状态进行 episode 重置，使有限的真实交互预算集中于更具挑战性的状态区域。为进一步降低在困难区域探索的成本与风险，我们在真实机器人训练中引入 HiL 机制。干预生成的轨迹被存入 replay buffer，并用于后续策略更新。不同于现有 HiL 方法，我们提出了一种新的引导机制：由数字孪生决定在真实世界 RL 过程中“何时”以及“何处”触发 HiL 干预，从而实现更加精准和高效的协同学习。随后，我们利用数字孪生中的高效采样识别失败频发但信息密集的关键配置，并据此引导真实机器人上的 targeted human-in-the-loop 交互，使有限的人类干预集中于最具学习价值的区域。

我们的贡献总结如下：

我们通过系统性的真实机器人实验揭示了真实世界 VLA 在线强化学习中“有效探索空间受 SFT 数据分布显著约束”的关键现象，并据此明确了探索结构设计在真实世界 RL 中的重要性。
我们提出 TwinRL数字孪生–真实机器人协同强化学习框架，通过数字孪生重建与双向迁移，将数字孪生从验证工具提升为探索扩展与引导的核心组件，实现从分布内示范到分布外区域的探索空间扩展。
我们提出探索空间扩展的 SFT warm-up 策略，并结合数字孪生中的并行在线 RL 与 failure-driven 的 sim-to-real 引导人类在回路探索机制，有效桥接离线与在线阶段并显著加速真实世界 RL 收敛；在四项任务中实现接近 100% 成功率，平均约 20 分钟收敛，并获得至少 30% 的训练加速。

图 3：TwinRL 框架。阶段 I：从人类遥操作示范出发，我们引入一种探索空间扩展策略，通过合成多样化的数字孪生示范数据来拓宽 SFT 的覆盖范围。阶段 II：随后，基于 SFT 初始化的策略在数字孪生环境中进行可扩展、并行的在线强化学习，生成具有强化学习特征的 rollout 轨迹；这些轨迹被迁移至真实世界以初始化 replay buffer，从而稳定在线学习过程。阶段 III：在真实世界在线强化学习过程中，数字孪生高效且持续地识别失败频发但信息密集的物体配置，并据此引导有针对性的 Human-in-the-Loop（HiL）rollout。

5. 实验结果

定量与定性分析.我们在 4 个真实世界操作任务上系统评估 TwinRL，包括 Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block 以及 Erase-Whiteboard。

所有实验均在 7-DoF Franka Emika FR3 平台上进行，并采用双相机感知系统（固定第三视角 + 腕部相机）进行观测。

我们报告成功率（SR）随真实世界训练时间与交互步数变化的曲线，用于比较不同方法的收敛速度与最终性能。

在分布内（ID）区域，TwinRL 在在线强化学习初始阶段即表现出显著更高的成功率，这一优势源于探索空间扩展策略在 SFT 阶段对轨迹分布支持的拓宽。

相比仅使用真实示范的基线方法，TwinRL 在 0-step（真实交互开始前）即具备更强的部署先验。

随着在线 RL 进行，TwinRL 在大多数任务中均在约 20 分钟内在分布内（ID）与分布外（OOD）区域完成收敛，达到 100% 成功率，而对比方法（ConRFT 与 HiL-SERL）则收敛更慢，或在相同交互预算下未能达到相当性能。

在分布外（OOD）区域，性能差距更加显著。TwinRL 在 OOD 区域同样实现接近 100% 的成功率，并保持稳定的收敛曲线，而仅依赖真实示范初始化的策略往往在 OOD 区域出现探索死锁，难以获得稳定的正奖励信号。相比现有真实世界 RL 方法，TwinRL 在整体收敛速度上实现了至少 30% 的加速，显著减少了达到高成功率所需的真实交互时间。

从稳定性角度来看，所有方法在从离线 SFT 过渡到在线 RL 阶段时都会经历性能波动。然而，TwinRL 在该过渡阶段表现出更小的性能退化，并能够更快恢复至高成功率水平。这一现象与我们将数字孪生中并行在线 RL 轨迹迁移至真实 replay buffer 的设计一致，该机制有效缓解了离线–在线分布切换所带来的梯度不稳定问题。

真机online强化学习过程

图 4：真实世界实验。我们报告了四项操作任务在分布内（ID）与分布外（OOD）设置下进行在线强化学习的成功率曲线。纵轴表示成功率，横轴同时给出在线训练时间以及模型训练步数。

消融实验. 我们选取 Insert-Hexagon-Block 任务进行消融分析。如图所示，每一行均执行 10 次 rollout 试验。

探索空间扩展的影响。我们分析孪生数据的规模与分布如何影响 warm-up 阶段的性能。表中报告了在不同 ID/OOD 合成轨迹增强设置下的成功率。与基础模型相比，在 ID 与 OOD 各加入 30 条孪生轨迹的平衡设置下，成功率达到 57.0%（提升 30%），表明我们的数字孪生管线即便在高精度任务中，也能够在整个工作空间生成高质量轨迹。进一步增加孪生数据量可带来额外性能提升：将 ID 数据加倍（60/30）获得最大收益，在 ID 区域成功率峰值达到 80%；增加 OOD 数据（30/60）则将成功率提升至 70%。总体来看，这些结果验证了探索空间扩展策略能够有效拓宽 SFT 的覆盖范围。需要注意的是，虽然更多合成数据有助于提升性能，但也会增加 SFT 时间成本，形成准确率与效率之间的权衡。

表 I：探索空间扩展的消融实验。我们在 SFT warm-up 阶段改变加入的孪生生成轨迹数量，并测量相应的成功率（SR）。

Sim-to-Real 引导 HiL 的效率。我们评估数字孪生引导的 HiL 在真实世界在线 RL 中的作用。如图所示，我们对比了是否启用孪生引导机制的 TwinRL。该机制利用数字孪生 rollout 识别信息密集的初始物体配置，并在必要时触发 HiL 干预。结果表明，启用孪生引导干预能够显著减少真实训练步数，在保持更高成功率的同时实现更快收敛。相反，在相同的策略初始化与 replay buffer 条件下，移除该机制会导致适应速度变慢、样本效率降低。这说明，在 TwinRL 中，数字孪生不仅在部署前扩展探索支持，还在在线阶段通过将真实交互引导至具有挑战性且信息密集的状态区域中发挥关键作用。

图 x：Sim-to-Real 引导 HiL 的消融实验。引导机制显著加速了强化学习过程，在约 4k 步（约 14 分钟）时达到 100% 成功率；而未使用引导机制的训练收敛更慢，且最终成功率更低。

鲁棒性分析.我们在此前未见过的环境扰动条件下，对 SFT 策略与 TwinRL 引导的在线 RL 策略进行零样本鲁棒性评估。这些扰动包括背景杂物干扰和光照变化。如图所示，我们设计了三种测试条件：背景扰动（加入与任务无关的物体以形成杂乱场景）、变暗光照（整体均匀照明变化）以及动态光照（动态彩色光源与移动光影效果）。

实验结果表明，在观测分布发生偏移的情况下，TwinRL 的性能仅出现轻微下降，而仅经过 SFT 训练的模型则表现出明显更大的性能退化。这些结果说明，通过真实世界交互进行 RL 微调，可以推动策略形成更加稳定的控制行为和更具抗噪能力的决策边界。进一步地，TwinRL 通过孪生引导的 HiL 机制，将真实交互集中于高信息密度的关键配置，从而进一步增强了策略的鲁棒性。

图 x：鲁棒性分析。我们在此前未见过的环境扰动条件下，对 SFT 策略与 TwinRL 引导的在线 RL 策略进行对比；上排展示了扰动场景示例。

具身智能的技术闭环

至简动力团队通过一系列环环相扣的研究，他们正在构建起具身智能的「三部曲」：从强大的基座模型出发，通过创新的推理范式，最终实现 100 分的在线进化与实际落地。

第一步：LaST₀——构建隐式时空思维基座

一切进化的起点源于基座能力的突破。至简动力近期发布的LaST₀基座模型，首次将世界模型对物理世界的理解、预测及VLA的快慢思维融合。

技术核心：精细操作仅依靠语言是不够的，更依赖对物理世界的充分理解和精准预测，LaST₀在latent space对语言逻辑、视觉语义、3D空间结构以及机器人状态联合建模及生成预测，在保证高频动作执行流畅的前提下，显著提升了对物理世界动态的高效推理能力。

解决痛点：如果说传统模型容易在复杂动态环境下容易失效、“反应迟钝”，LaST₀则解决了机器人“怎么一边想一边快速动”的难题。

第二步：ManualVLA——打通“推理到执行”的精细操作说明书

有了强大的基座，如何让机器人真正理解复杂的的长程任务？针对推理到执行的闭环，至简动力提出了 ManualVLA。

技术核心：它贯通了生成式推理与低层动作执行，使模型能够从目标状态出发，自动生成类似人类使用的多模态“操作说明书”，基于说明书实现精细长程操纵。

应用表现：这使得机器人能完成细粒度的长程操纵。在乐高组装等复杂任务上，其平均成功率比此前最优方法高出 32%。它完美回答了机器人“怎么想清楚再动手”的问题。

第三步：TwinRL——借助数字孪生实现“100分”的在线进化

当模型具备了推理与执行能力，最后的关键在于如何让它在真实世界中持续进化，实现真正的VLA落地。基于上述统一的模型能力，至简动力进一步提出 TwinRL。

技术核心：TwinRL 借助数字孪生扩展了真机强化学习的探索空间，极大提升了探索效率。

突破性指标：实验验证显示，在多个任务上，机器人少于 20 分钟即可在桌面区域达到 100% 的成功率，包括真机数据成功覆盖了训练分布内与分布外区域。

进化价值：TwinRL 真正解决了“怎么让机器人在真实世界里自己变强”的终极挑战。

结语：一体化 VLA 范式的落地元年

我们在这篇文章中，将至简动力的三项核心技术——LaST₀（基座与推理）、ManualVLA（指令与执行）、TwinRL（进化与落地）有机串联，构建起一个从基础研究到产业落地的完整故事闭环。

这三者共同构成了至简动力「推理—执行—进化」的 VLA 技术三角。

从「纸面论文」到「物理闭环」，见证至简动力如何重塑具身智能 VLA 范式。

这不仅是学术上的领先，更是一场真正一体化 VLA 基础模型范式从论文走向真实产线和场景的跃迁。

秒追ASI

上一篇：北京银行招标结果：北京银行2025-2028年教育培训机构入围项目入围结果公告

下一篇：昆工科技获得实用新型专利授权：“一种湿法冶金电积用铝阴极板”

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

真机RL杀疯了！机器人自学20分钟100分，数字孪生封神

相关内容

热门资讯