基本信息 - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

arxiv RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

阅读

Star 0

名称: RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

首页: https://yiyibooks.cn/arxiv/2307.15818v1/index.html

原始地址: https://arxiv.org/abs/2307.15818

描述

我们研究如何将在互联网规模数据上训练的视觉语言模型直接纳入端到端机器人控制中，以促进泛化并实现紧急语义推理。我们的目标是使单个端到端训练模型能够学习将机器人观察映射到动作，并享受对来自网络的语言和视觉语言数据进行大规模预训练的好处。为此，我们建议在机器人轨迹数据和互联网规模的视觉语言任务（例如视觉问答）上共同微调最先进的视觉语言模型 ...