arxiv RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

名称
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
首页
https://yiyibooks.cn/arxiv/2307.15818v1/index.html
原始地址
https://arxiv.org/abs/2307.15818
描述
我们研究如何将在互联网规模数据上训练的视觉语言模型直接纳入端到端机器人控制中,以促进泛化并实现紧急语义推理。我们的目标是使单个端到端训练模型能够学习将机器人观察映射到动作,并享受对来自网络的语言和视觉语言数据进行大规模预训练的好处。为此,我们建议在机器人轨迹数据和互联网规模的视觉语言任务(例如视觉问答)上共同微调最先进的视觉语言模型 ...