基本信息

文件基本信息

名称

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models

首页

https://yiyibooks.cn/arxiv/2508.02062v1/index.html

原始地址

https://arxiv.org/pdf/2508.02062

描述

多任务“视觉-语言-动作”（VLA）模型最近显示出作为机器人技术通用基础模型的前景越来越大，在新环境中的新任务中实现了非凡的开箱即用性能。然而，为了让这些模型真正有用，最终用户必须有简单的方法来教他们改进。对于语言和视觉模型，执行上下文学习 (ICL) 的新兴能力已被证明是一种多功能且非常有用的界面，可以轻松教授新任务，无需参数微调。不幸的是，以模仿学习为目标进行预训练的 VLA 并不能自然获得 ICL 能力。在本文中，我们证明，通过正确的微调方法和小型机器人演示数据集，可以将上下文适应性事后注入到这样的 VLA 中。经过情境学习 (RICL) 的再培训后，我们的系统允许最终用户为新任务提供少量（10-20）次演示。然后，RICL 将这些演示中最相关的部分提取到 VLA 上下文中以利用 ICL，执行新任务并提高任务性能。我们应用 RICL 将 ICL 注入到 $\pi_{0}$-FAST VLA 中，并表明它允许对各种新操作任务进行大量上下文改进，每个任务仅进行 20 次演示，无需任何参数更新。当目标任务演示的参数可以更新时，RICL 微调可以进一步提高性能。我们随论文发布了 RICL-$\pi_{0}$-FAST 的代码和模型权重，首次为新的操作任务提供了一个简单的上下文学习界面。网站：此 https URL ...