arxiv RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models

/documents/74493/

基本信息

文件基本信息

名称
RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models
描述
多任务“视觉-语言-动作”(VLA)模型最近显示出作为机器人技术通用基础模型的前景越来越大,在新环境中的新任务中实现了非凡的开箱即用性能。然而,为了让这些模型真正有用,最终用户必须有简单的方法来教他们改进。对于语言和视觉模型,执行上下文学习 (ICL) 的新兴能力已被证明是一种多功能且非常有用的界面,可以轻松教授新任务,无需参数微调。不幸的是,以模仿学习为目标进行预训练的 VLA 并不能自然获得 ICL 能力。在本文中,我们证明,通过正确的微调方法和小型机器人演示数据集,可以将上下文适应性事后注入到这样的 VLA 中。经过情境学习 (RICL) 的再培训后,我们的系统允许最终用户为新任务提供少量(10-20)次演示。然后,RICL 将这些演示中最相关的部分提取到 VLA 上下文中以利用 ICL,执行新任务并提高任务性能。我们应用 RICL 将 ICL 注入到 $\pi_{0}$-FAST VLA 中,并表明它允许对各种新操作任务进行大量上下文改进,每个任务仅进行 20 次演示,无需任何参数更新。当目标任务演示的参数可以更新时,RICL 微调可以进一步提高性能。我们随论文发布了 RICL-$\pi_{0}$-FAST 的代码和模型权重,首次为新的操作任务提供了一个简单的上下文学习界面。网站:此 https URL ...