把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
创始人
2024-12-27 19:01:10
0

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng,其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。

  • 论文标题:GRAPE: Generalizing Robot Policy via Preference Alignment
  • 论文链接:https://arxiv.org/abs/2411.19309
  • 项目地址:https://grape-vla.github.io
  • 代码地址:https://github.com/aiming-lab/GRAPE

研究背景

近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。

此外,这些模型通常通过微调来复制在不同环境下由专家收集的演示数据,这导致了分布偏差,并限制了它们对多样化操作目标(如效率、安全性和任务完成)的适应能力。

方法部分

为了解决这一问题,我们提出了 GRAPE,一种即插即用的算法,通过偏好对齐提升机器人策略的泛化能力,并支持将 VLA 模型对齐到任意设定的目标。GRAPE 的框架如下图所示:

图 1:GRAPE 的框架

GRAPE 带来了以下三大优势,显著增强了 VLA 模型的泛化性:

  1. GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力,而不仅仅是简单的行为克隆;
  2. GRAPE 隐式建模了成功和失败尝试中的奖励,从而提升对多样化任务的泛化能力;
  3. GRAPE 采用可扩展的偏好合成算法。GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。

具体而言,GRAPE 的框架可以被拆成三个部分:Trajectory-wise Preference Optimization、Customized Preference Synthesis 和 Iterative Online Alignment。以下是这三个部分的详细介绍:

Trajectory-wise Preference Optimization(轨迹级偏好优化):

GRAPE 将逐步训练的 VLA 模型扩展到轨迹级别,并通过强化学习(RL)目标进行训练,确保对齐后的策略能够优先选择被接受的轨迹,而非被拒绝的轨迹。

具体而言,我们基于 DPO 的 Loss 函数进行了改进,引入了一种全新的 TPO_Loss,使得模型能够学习轨迹级别的偏好。我们利用模型在任务中采集的较优与较劣的尝试(分别计为 ζ_w,ζ_l),建立了 TPO 偏好数据集,最终使得模型在 TPO 训练后在全局层面获得了对齐,并增强了其鲁棒性。

图 2 TPO-Loss 公式

Customized Preference Synthesis(定制化偏好合成):

基于 TPO-Loss 的设计,我们需要对于轨迹的优劣进行建模,从而构建对应的偏好数据集。然而,对于一些复杂的机器人任务,并没有能够用于轨迹排序的奖励模型。

针对这个问题,GRAPE 引入了一种可扩展算法,将复杂操作任务分解为独立阶段,并通过一个大型视觉-语言模型提出的关键点,自动引导偏好建模过程中的时空约束。这些约束具有灵活性,可根据需求进行定制,使模型与不同目标(如安全性、效率或任务完成)保持一致。

Iterative Online Alignment(迭代式在线对齐):

GRAPE 通过以下迭代循环不断优化对齐过程:1)在线样本采集,2)合成偏好排序,3)轨迹级偏好优化。这种方法逐步提升了 VLA 策略的泛化能力,并使其与任意目标更好地对齐。

实验结果

真机泛化实验

我们在域内任务以及五种分布外泛化(OOD)任务上评估了 GRAPE 的性能,这些 OOD 任务包括:视觉(新的视觉环境)、主体(未见过的物体)、动作(未见过的操作)、语义(未见过的提示)和语言落地泛化(物体处于未见过的空间位置)。

结果显示,GRAPE 在这些 OOD 任务上的表现分别比最先进的 OpenVLA-SFT 模型提升了 20.7%、27.5%、10.0%、5.0% 和 26.7%。这充分体现了通过偏好对齐过程所实现的卓越泛化能力。

仿真泛化实验

我们进一步在 Simpler-EnvLIBERO 环境中评估了 GRAPE 的性能,重点考察三种 OOD 任务的泛化能力:主体(未见过的物体)、物理属性(未见过的物体尺寸 / 形状)和语义(未见过的提示)。

结果显示,GRAPE 在这些 OOD 任务上相较 OpenVLA-SFT 模型分别提升了 8.0%12.3% 19.0% 的表现。

图 3:真机与仿真实验统计结果

特定对齐目标分析

GRAPE 能够高效地将机器人策略与通过自然语言指定的多种目标对齐,例如任务完成、安全性和效率。这些目标被融入多阶段的成本函数中,进而影响采样轨迹的排序。

实验表明,当对齐目标为更安全或更高效的操作策略时,GRAPE 可将碰撞率降低 44.31%,或将执行轨迹的长度缩短 11.15%。

图4:指定的对齐目标(安全),训练后的模型学会了安全地执行操作

结论

本文提出了 GRAPE,一种即插即用的 VLA 模型对齐框架,在多种机器人任务场景下均能使用,能够基于轨迹偏好提升机器人策略的泛化能力,并支持将模型对齐到指定目标。

相关内容

热门资讯

原创 A... 今年以来一直建议坚持“红利高股息(资源、能源、银行、电力等)+科技成长(半导体、信创智能、新能源、军...
OpenAI研究员首次提出「A... 新智元报道 编辑:KingHZ 泽正 【新智元导读】本月,OpenAI科学家就当前LLM的scal...
打虎!周家斌被查 据中央纪委国家监委网站12月28日消息,广西壮族自治区人大常委会党组成员、副主任,桂林市委书记周家斌...
长城证券股份有限公司 第三届董... 证券代码:002939 证券简称:长城证券 公告编号:2024-103 长城证券股份有限公司 第三届...
双旦购机就选华为nova 13... 来源:快科技官方 临近元旦,节日氛围愈加浓厚,许多人开始准备选购一台新手机,奖赏自己过去一年的努力与...
国家级海上风电研究与试验 检测... 12月26日,我国首个国家级海上风电研究与试验检测基地传动链平台(右图)在福建建成投运。该平台是国内...
嫦娥五号月球样品向公众开放 据央视新闻消息,2020年12月,嫦娥五号成功从月球带回月壤样品,月球样品科研工作随之展开。今天(1...
广东琮泰取得用于水利工程施工的... 金融界2024年12月27日消息,国家知识产权局信息显示,广东琮泰工程有限公司取得一项名为“种用于水...
布局深市企业成长机遇,关注深证... 本周深证50指数上涨1.0%,深证100指数上涨0.8%,创业板指数下跌0.2%,创业板中盘200指...
通过股息得到固定收益?或许不止... “道琼斯高股息股票”(Dogs of the Dow)和略微不那么知名的“S&P高股息股票”(Dog...
越强阀门取得热熔断防火球阀专利... 金融界2024年12月27日消息,国家知识产权局信息显示,越强阀门有限公司取得一项名为“热熔断防火球...
武创院倡议共建生命科学仪器科创... 湖北日报全媒记者 李源 通讯员 冉文娟 “让我们携手深化‘共投共担’机制,打造生命科学仪器科创高地,...
韩国央行:超三成韩国人持有加密... 【韩国央行:超三成韩国人持有加密货币】财联社12月27日电,韩国央行根据在Upbit、Bithumb...
沪深北交易所修订专项品种公司债... 人民网北京12月28日电 (记者黄盛)沪深北交易所在12月27日分别发布公了公司债券专项品种指引,持...
“和合共生”彰显中华民族文化自... 余德烁 中华文明所蕴含的“和合共生”理念,不仅彰显中华民族的文化自信,也是全球化时代的智慧之光 在经...
中国联通&中国信通院:... 今天分享的是:中国联通&中国信通院:2024年流程智能研究报告 报告共计:50页 《2024年流程智...
特朗普要求:暂停执行TikTo... 当地时间12月27日,美国当选总统特朗普向美国最高法院提出请求,要求暂停执行TikTok强制出售令。...
全球AMR龙头启动港股IPO,... 在全球化背景下,物流是经济运行的关键,国务院办公厅发布的《有效降低全社会物流成本行动方案》强调了降低...
金观平:要更加注重投资质量效益 投资连接供需两端,是拉动经济增长的“三驾马车”之一。中央经济工作会议在部署明年重点工作任务时,把“大...
头豹研究院:2024年女性补血... 2019年—2023年,补血保健食品行业市场规模由22.34亿人民币元增长至24.73亿人民币元,期...