- 名称
- cVLA: Towards Efficient Camera-Space VLAs
- 描述
Vision语言动作(VLA)型号为解决复杂的机器人操纵任务提供了一个令人信服的框架,但训练通常很昂贵。在本文中,我们提出了一种新颖的VLA方法,该方法利用2D图像上视觉语言模型(VLM)的竞争性能直接推断机器人最终效应器在图像框架坐标中提出。与先前的VLA模型输出低水平控件不同,我们的模型可以预测轨迹航路点,从而使训练和机器人实施例均更有效 ...
Vision语言动作(VLA)型号为解决复杂的机器人操纵任务提供了一个令人信服的框架,但训练通常很昂贵。在本文中,我们提出了一种新颖的VLA方法,该方法利用2D图像上视觉语言模型(VLM)的竞争性能直接推断机器人最终效应器在图像框架坐标中提出。与先前的VLA模型输出低水平控件不同,我们的模型可以预测轨迹航路点,从而使训练和机器人实施例均更有效 ...