capbtabboxtable[][] capbfigboxfigure[][] chebotar@google.com, tianheyu@google.com, karolhausman@google.com https://robotics-transformer2.github.io

RT-2：视觉-语言-动作模型将网络知识转移到机器人控制

Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen Krzysztof Choromanski Tianli Ding Danny Driess Avinava Dubey Chelsea Finn Pete Florence Chuyuan Fu Montse Gonzalez Arenas Keerthana Gopalakrishnan Kehang Han Karol Hausman Alexander Herzog Jasmine Hsu Brian Ichter Alex Irpan Nikhil Joshi Ryan Julian Dmitry Kalashnikov Yuheng Kuang Isabel Leal Lisa Lee Tsang-Wei Edward Lee Sergey Levine Yao Lu Henryk Michalewski Igor Mordatch Karl Pertsch Kanishka Rao Krista Reymann Michael Ryoo Grecia Salazar Pannag Sanketi Pierre Sermanet Jaspiar Singh Anikait Singh Radu Soricut Huong Tran Vincent Vanhoucke Quan Vuong Ayzaan Wahid Stefan Welker Paul Wohlhart Jialin Wu Fei Xia Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich

摘要

我们研究如何将在互联网规模数据上训练的视觉语言模型直接纳入端到端机器人控制中，以促进泛化并实现紧急语义推理。我们的目标是使单个端到端训练模型能够学习将机器人观察映射到动作，并享受对来自网络的语言和视觉语言数据进行大规模预训练的好处。为此，我们建议在机器人轨迹数据和互联网规模的视觉语言任务（例如视觉问答）上共同微调最先进的视觉语言模型。与其他方法相比，我们提出了一个简单、通用的方法来实现这一目标：为了使自然语言响应和机器人动作符合相同的格式，我们将动作表示为文本标记并将它们直接合并到训练集中该模型的方式与自然语言标记相同。我们将此类模型称为视觉-语言-动作模型（VLA），并实例化此类模型的一个示例，我们将其称为 RT-2。我们广泛的评估（6000 次评估试验）表明，我们的方法可以实现高性能的机器人策略，并使 RT-2 能够从互联网规模的训练中获得一系列新兴能力。这包括显着改进对新物体的泛化能力、解释机器人训练数据中不存在的命令的能力（例如将物体放置到特定数字或图标上）以及响应用户命令执行基本推理的能力（例如拾取最小或最大的物体，或者最接近另一个物体的物体）。我们进一步表明，结合思维推理链允许 RT-2 执行多阶段语义推理，例如找出要拿起哪个物体用作临时锤子（石头），或者哪种类型的饮料最适合疲倦的人（能量饮料）。

1简介

在广泛的网络规模数据集上预训练的高容量模型为各种下游任务提供了一个有效且强大的平台：大型语言模型不仅可以实现流畅的文本生成（Brohan等人，2022年；OpenAI，2023年；Anil等人, 2023) 但紧急解决问题(Cobbe 等人, 2021; Lewkowycz 等人, 2022; Polu 等人, 2022) 和散文的创造性生成(Brown等人，2020；OpenAI，2023）和代码（Chen 等人，2021），而视觉语言模型实现开放词汇视觉识别（Radford 等人，2021） ; Minderer 等人, 2022; Kirillov 等人, 2023) 甚至可以对图像中的对象-代理交互进行复杂的推断(Alayrac 等人, 2022;hao 等人, 2022; Wang 等人, 2022; Chen 等人, 2023b, a; Driess 等人, 2023; Huang 等人, 2023)。这种语义推理、问题解决和视觉解释能力对于必须在现实环境中执行各种任务的通用机器人来说非常有用。然而，目前尚不清楚机器人如何获得这种能力。虽然暴力方法可能需要收集数百万次机器人交互试验，但最有能力的语言和视觉语言模型是根据来自网络的数十亿个标记和图像进行训练的（Alayrac 等人，2022；Chen 等人，2023b， a; Huang 等人, 2023) – 在不久的将来不太可能与机器人数据匹配的数量。另一方面，将此类模型直接应用于机器人任务也很困难：此类模型对语义、标签和文本提示进行推理，而机器人则需要接地的低级动作，例如笛卡尔末端执行器命令。虽然最近的一些工作试图将语言模型（大语言模型）和视觉语言模型（VLM）融入机器人（Ahn 等人，2022；Driess 等人，2023；Vemprala 等人，2023），此类方法通常仅解决机器人规划的“更高级别”方面，本质上扮演状态机的角色，解释命令并将其解析为单独的原语（例如拾取和放置对象），然后由单独的低级控制器本身在训练期间不会从互联网规模模型的丰富语义知识中受益。因此，在本文中，我们要问：大型预训练视觉语言模型是否可以直接集成到低级机器人控制中，以提高泛化能力并实现紧急语义推理？

Refer to caption — 图1： RT-2 概述：我们将机器人动作表示为另一种语言，可以将其转换为文本标记并与互联网规模的视觉语言数据集一起进行训练。在推理过程中，文本标记被去标记为机器人动作，从而实现闭环控制。这使我们能够利用视觉语言模型的骨干和预训练来学习机器人策略，将它们的一些泛化、语义理解和推理转移到机器人控制中。我们在项目网站上演示了 RT-2 执行的示例：robotics-transformer2.github.io。

为此，我们探索了一种既简单又有效的方法：我们直接训练专为开放词汇视觉问答和视觉对话而设计的视觉语言模型，以输出低级机器人动作，同时解决其他互联网规模的视觉问题- 语言任务。尽管此类模型通常经过训练以生成自然语言标记，但我们可以通过将动作标记为文本标记并创建“多模态句子”（Driess等人，2023）<来在机器人轨迹上训练它们/t1> 通过产生相应的动作来“响应”与相机观察配对的机器人指令。通过这种方式，视觉语言模型可以被直接训练为遵循机器人策略的指令。这种简单的方法与之前将 VLM 纳入机器人策略（Shridhar 等人，2022a）或从头开始设计新的视觉-语言-动作架构（Reed 等人，2022）的替代方案形成鲜明对比。：相反，预先存在的视觉语言模型（已摊销大量计算投资）在没有任何新参数的情况下进行训练，以输出文本编码动作。我们将此类模型称为视觉-语言-动作（VLA）模型。我们通过构建 RT-1 （Brohan 等人，2022）提出的协议来实例化 VLA 模型，使用类似的数据集，但扩展模型以使用大型视觉语言主干。因此，我们将我们的模型称为 RT-2（机器人 Transformer 2）。我们在图 1 中提供了概述。

我们观察到，源自此类视觉语言模型的机器人策略表现出一系列卓越的功能，将从机器人数据中学习到的物理运动与将从网络数据中学习到的图像和文本解释为单个模型的能力相结合。除了显着提高对新对象和语义变化指令的泛化的预期好处之外，我们还观察到了许多新兴功能。虽然模型的物理技能仍然仅限于机器人数据中看到的技能分布，但该模型通过使用从网络收集的知识解释图像和语言命令，获得了以新方式部署这些技能的能力。图 2 显示了一些示例亮点。该模型能够重新利用从机器人数据中学到的拾取和放置技能，将物体放置在语义指示的位置附近，例如特定的数字或图标，尽管这些提示不存在于机器人数据中。该模型还可以解释对象之间的关系，以确定拾取哪个对象以及将其放置在哪里，尽管机器人演示中没有提供此类关系。此外，如果我们通过思维链提示来增强命令，该模型就能够做出更复杂的语义推理，例如找出要拿起哪个物体作为临时锤子（一块石头），或者哪种类型的饮料最适合疲倦的人（能量饮料）。

我们的主要贡献是 RT-2，这是一系列模型，源自对网络规模数据训练的大型视觉语言模型进行微调，以直接充当可泛化和语义感知的机器人策略。我们的实验研究了具有多达 55B 个参数的模型，这些模型是根据之前的工作（Brohan 等人，2022）中的互联网数据和带指令注释的机器人轨迹进行训练的。在 6k 机器人评估过程中，我们表明 RT-2 能够显着改进对象、场景和指令的泛化能力，并展现出继承自网络规模视觉语言预训练的广泛新兴功能。

2相关工作

视觉语言模型。 视觉语言模型 (VLM) (Gan 等人, 2022) 有多个类别，其中可能有两个最相关的：(1) 表征学习模型，例如 CLIP (Radford 等人, 2021)，学习两种模态的常见嵌入，以及 (2) $\{\text{vision},\text{text}\}\rightarrow\{\text{text}\}$ 形式的视觉语言模型，学习将视觉和语言作为输入并提供自由格式的文本。这两个类别都已用于为各种下游应用提供预训练，例如对象分类（Radford等人，2021），检测（Gu等人，2021） t1> 和细分（Ghiasi 等人，2021）。在这项工作中，我们重点关注后一类（Alayrac等人，2022；Chen等人，2023b，a；Driess等人，2023；Li等人，2019；Lu等人，2019；Hao等人， 2022；李等人，2023）。这些模型通常针对许多不同的任务进行训练，例如图像字幕、视觉问答 (VQA) 以及同时在多个数据集上执行通用语言任务。虽然之前的工作研究了 VLM 用于解决包括机器人技术在内的各种问题和设置，但我们的重点是如何通过赋予 VLM 预测机器人动作的能力，从而将其功能扩展到机器人闭环控制，从而利用知识已经存在于 VLM 中，以实现新水平的泛化。

机器人学习的泛化。开发能够在各种场景中广泛成功的机器人控制器是机器人研究的一个长期目标（Smith and Coles，1973；Kaelbling，2020）。实现机器人操作泛化的一种有前景的方法是从大型且多样化的数据集中学习（Pinto 和 Gupta，2016；Levine 等人，2018；Dasari 等人，2019）。通过这样做，先前的方法已经证明了机器人如何泛化到新的对象实例（Pinto和Gupta，2016；Mahler等人，2017；Levine等人，2018；Finn和Levine，2017；Young等人，2021），涉及对象和技能的新颖组合的任务（Finn 等人，2017；Yu 等人，2018；James 等人，2018；Dasari 和 Gupta，2021；Jang 等人，2021），新的目标或语言指令(Pong 等人, 2019; Nair 等人, 2022a; Jang 等人, 2021; Jiang 等人, 2022; Mees 等人, 2022; Liu 等人, 2022)，具有新颖语义对象类别的任务（Shridhar 等人，2021；Stone 等人，2023），以及未见过的环境（Hansen 等人，2020；Cui 等人， 2022; 杜等人, 2023a). 与大多数先前的工作不同，我们的目标是开发和研究一个可以泛化到所有这些轴上未见过的条件的单一模型。我们方法的一个关键要素是利用预先训练的模型，这些模型所接触的数据比机器人看到的数据要广泛得多。

机器人操作的预训练。预训练在机器人学习中有着悠久的历史。大多数工作都集中在预训练的视觉表示上，这些表示可用于初始化机器人相机观察的编码器，可以通过监督 ImageNet 分类（Shah 和 Kumar，2021）、数据增强（Laskin等人, 2020a, b; Kostrikov 等人, 2020; Pari 等人, 2021) 或针对机器人控制定制的目标(Nair 等人, 2022b; Ma 等人, 2022; Xiao 等人，2022b；Karamcheti 等人，2023；Majumdar 等人，2023b)。其他作品结合了预训练的语言模型，通常作为指令编码器（Hill 等人，2020；Lynch 和 Sermanet，2020；Nair 等人，2022a；Jang 等人，2021；Jiang 等人，2022； Brohan 等人, 2022; Shridhar 等人, 2022b) 或高层规划(Huang 等人, 2022; Ahn 等人, 2022; Driess 等人, 2023; Singh 等人, 2023;吴等人，2023；穆等人，2023）。我们特别考虑使用预训练的视觉语言模型（VLM），而不是使用预训练的视觉模型或预训练的语言模型，它提供了关于世界的丰富的、扎实的知识。先前的工作研究了 VLM 在机器人领域的使用（Shridhar 等人，2021；Karamcheti 等人，2023；Stone 等人，2023；Driess 等人，2023；Gadre 等人，2022；Shah 等人，2023；杜等人，2023b)，并构成了这项工作的灵感的一部分。这些现有方法使用 VLM 进行视觉状态表示（Karamcheti 等人，2023），用于识别对象（Stone 等人，2023；Gadre 等人，2022），用于高级规划（Driess等人，2023），或提供监督或成功检测（Xiao等人，2022a；Du等人，2023b；Sumers等人，2023；Zhang等人，2023；马等人，2023）。虽然 CLIPort (Shridhar 等人, 2021) 和 MOO (Stone 等人, 2023) 将预先训练的 VLM 集成到端到端视觉运动操纵策略中，但两者都包含了重要的限制其适用性的政策结构。值得注意的是，我们的工作不依赖于受限的 2D 动作空间，也不需要校准相机。此外，一个关键的区别是，与这些工作不同，我们利用生成语言的 VLM，并且我们公式的统一输出空间使模型权重能够在语言和动作任务之间完全共享，而无需引入仅动作模型层组件。

3 视觉-语言-行动模型

在本节中，我们将介绍我们的模型系列以及使训练 VLM 能够直接执行闭环机器人控制的设计选择。首先，我们描述模型的总体架构以及如何从常用于视觉语言任务的模型中导出它们。然后，我们介绍了对大型 VLM 进行微调的方法和挑战，这些 VLM 在网络规模数据上进行了预训练，以直接输出机器人动作，成为 VLA 模型。最后，我们描述了如何使这些模型适用于机器人任务，解决模型大小和推理速度方面的挑战以实现实时控制。

3.1 预训练的视觉语言模型

我们在这项工作中构建的视觉语言模型（Chen等人，2023a；Driess等人，2023）将一个或多个图像作为输入并产生一系列标记，这些标记通常代表自然语言文本。这些模型可以执行广泛的视觉解释和推理任务，从推断图像的组成到回答有关单个对象及其与其他对象的关系的问题（Alayrac 等人，2022；Chen 等人，2023a；Driess等人，2023；黄等人，2023）。表示执行如此广泛的任务所需的知识需要大型模型和网络规模的数据集。在这项工作中，我们采用了两个先前提出的 VLM 来充当 VLA 模型：PaLI-X (Chen 等人, 2023a) 和 PaLM-E (Driess 等人, 2023)。我们将这些模型的视觉-语言-动作版本称为 RT-2-PaLI-X 和 RT-2-PaLM-E。我们利用这些模型的实例化，这些模型的参数大小从数十亿到数百亿不等。我们在附录D中提供了这两个模型的架构的详细描述。

3.2 机器人动作微调

为了使视觉语言模型能够控制机器人，必须训练它们输出动作。我们采取直接的方法来解决这个问题，将动作表示为模型输出中的标记，这些标记的处理方式与语言标记相同。我们的动作编码基于 Brohan 等人 (2022) 针对 RT-1 模型提出的离散化。动作空间由机器人末端执行器的 6-DoF 位置和旋转位移，以及机器人夹具的延伸水平和用于终止情节的特殊离散命令组成，该命令应由策略触发以发出成功信号完成。连续维度（除离散终止命令之外的所有维度）统一离散化为 256 个 bin。因此，机器人动作可以使用离散箱的序数表示为 8 个整数。为了使用这些离散动作将视觉语言微调为视觉语言动作模型，我们需要将模型现有标记化中的标记与离散动作相关联垃圾箱。这需要保留 256 个 Token 作为操作 Token 。选择哪些标记取决于每个 VLM 使用的特定标记化，我们将在本节后面讨论。为了定义 VLM 微调的目标，我们通过简单地将每个维度的动作标记与空格字符连接起来，将动作向量转换为单个字符串：

\displaystyle\text{``terminate}\enspace\Delta\text{pos}_{x}\enspace\Delta\text{pos}_{y}\enspace\Delta\text{pos}_{z}\enspace\Delta\text{rot}_{x}\enspace\Delta\text{rot}_{y}\enspace\Delta\text{rot}_{z}\enspace\text{gripper\_extension''}.

这种目标的可能实例可以是：“1 128 91 241 5 101 127”。我们在实验中微调的两个 VLM PaLI-X (Chen 等人, 2023a) 和 PaLM-E (Driess 等人, 2023) 使用不同的标记化。对于 PaLI-X，1000 以内的整数都有一个唯一的词符，因此我们只需将操作 bin 与代表相应整数的词符相关联即可。对于不提供这种方便的数字表示的 PaLM-E 模型，我们只需覆盖 256 个最不常用的标记来表示动作词汇表。值得注意的是，训练 VLM 用动作标记覆盖现有标记是符号调整的一种形式（Wei等人，2023），在之前的工作中已被证明对于 VLM 效果很好。

采用上述动作表示，我们将机器人数据转换为适合 VLM 模型微调的数据，其中我们的输入包括机器人摄像头图像和文本任务描述（使用标准 VQA 格式“问：机器人应该采取什么动作来执行任务”）操作说明]？ A:”)，我们的输出被格式化为一串代表机器人动作的数字/最不常用的标记。

协同微调。正如我们将在实验中展示的那样，提高机器人性能的训练方案的一个关键技术细节是使用原始网络数据协同微调机器人数据，而不是仅对机器人数据进行简单的微调。我们注意到，协同微调会产生更通用的策略，因为在微调过程中，策略会接触到来自网络规模数据的摘要视觉概念和低级机器人动作，而不仅仅是机器人动作。在协同微调期间，我们通过增加机器人数据集的采样权重来平衡每批中机器人训练数据和网络数据的比率。

输出约束。 RT-2 和标准 VLM 之间的一个重要区别是，RT-2 需要输出有效的动作 Token 才能在真实机器人上执行。因此，为了确保 RT-2 在解码过程中输出有效的动作标记，我们通过仅在模型被机器人动作任务提示时采样有效动作标记来限制其输出词汇，而模型仍然允许输出全部范围的动作标记。标准视觉语言任务上的自然语言标记。

3.3 实时推理

现代VLM的规模可以达到数百或数千亿个参数（Chen等人，2023a；Driess等人，2023）。这项工作中训练的最大模型使用 55B 个参数。在标准桌面式机器或常用于实时机器人控制的机器人 GPU 上直接运行此类模型是不可行的。据我们所知，我们的模型是有史以来最大的，超过一个数量级，用于直接闭环机器人控制，因此需要一套新的解决方案来实现高效的实时推理。我们开发了一种协议，通过将 RT-2 模型部署在多 TPU 云服务中并通过网络查询该服务，可以在机器人上运行 RT-2 模型。通过这个解决方案，我们可以实现合适的控制频率，并使用相同的云服务为多个机器人提供服务。我们评估的最大模型，55B参数RT-2-PaLI-X-55B模型，可以以1-3 Hz的频率运行。该模型的较小版本由 5B 个参数组成，可以以 5 Hz 左右的频率运行。

4实验

我们的实验侧重于 RT-2 的现实世界泛化和涌现能力，旨在回答以下问题：

1.

RT-2 如何执行所见任务，更重要的是，如何概括新对象、背景和环境？
2.

我们可以观察和测量 RT-2 的任何新兴功能吗？
3.

泛化如何随参数计数和其他设计决策而变化？
4.

RT-2 能否表现出类似于视觉语言模型的思维链推理迹象？

我们在各种条件下使用约 6,000 个评估轨迹来评估我们的方法和几个基线，我们将在以下各节中对此进行描述。除非另有说明，我们使用 7DoF 移动操纵器，其动作空间如第 2 节中所述。 3.2。我们还在项目网站上演示了 RT-2 执行的示例：robotics-transformer2.github.io。我们训练了两个利用预训练 VLM 的 RT-2 特定实例：(1) RT-2-PaLI-X 由 5B 和 55B PaLI-X (Chen 等人， 2023a)，(2) RT-2-PaLM-E 由 12B PaLM-E （Driess 等人，2023）构建而成。

对于训练，我们利用来自 Chen 等人 (2023a) 和 Driess 等人 (2023) 的原始网络规模数据，其中包括视觉问答、字幕和非结构化内容交织的图像和文本示例。我们将其与 Brohan 等人 (2022) 的机器人演示数据结合起来，该数据是在办公室厨房环境中使用 13 个机器人在 17 个月内收集的。每个机器人演示轨迹都用描述所执行任务的自然语言指令进行注释，由描述技能的动词（例如“拾取”、“打开”、“放入”）和一个或多个描述所操纵对象的名词组成（例如，“7up can”、“抽屉”、“餐巾”）（有关所用数据集的更多详细信息，请参阅附录 B)。对于所有 RT-2 训练运行，我们采用原始 PaLI-X (Chen 等人, 2023a) 和 PaLM-E (Driess 等人, 2023) 论文中的超参数，包括学习率计划和正则化。更多训练详情可参见附录E。

基线。我们将我们的方法与多个最先进的基线进行比较，这些基线对我们方法的不同方面提出了挑战。所有基线都使用完全相同的机器人数据。为了与最先进的策略进行比较，我们使用 RT-1 (Brohan 等人，2022)，这是一种基于 35M 参数转换器的模型。为了与最先进的预训练表示进行比较，我们使用 VC-1 (Majumdar 等人, 2023a) 和 R3M (Nair 等人, 2022b)，通过训练 RT-1 主干网络实施策略，将其表示作为输入。为了与使用 VLM 的其他架构进行比较，我们使用 MOO (Stone 等人, 2023)，它使用 VLM 为语义图创建额外的图像通道，该通道然后被送入 RT-1 主干。附录C中提供了更多信息。

4.1 RT-2 如何执行所见任务，更重要的是，如何泛化新对象、背景和环境？

为了评估分布内性能和泛化能力，我们将 RT-2-PaLI-X 和 RT-2-PaLM-E 模型与前面部分列出的四个基线进行比较。对于 seen 任务类别，我们使用与 RT-1 (Brohan 等人，2022) 中相同的一套 seed 指令，其中包括本次评估中的 200 多个任务： 36个用于拾取物品，35个用于敲击物品，35个用于放置物品，48个用于移动物品，18个用于打开和关闭各种抽屉，36个用于从抽屉中取出物品和将物品放入抽屉中。但请注意，这些“分布内”评估仍然会改变对象的放置和一天中的时间和机器人位置等因素，需要将技能推广到环境中的实际变化。

图3显示了泛化评估示例，这些评估被分为未见类别(对象、背景和环境)，并且还分为简单案例和困难案例。对于看不见的物体，硬盒包括难以抓握和更独特的物体（例如玩具）。对于看不见的背景，硬案例包括更多样的背景和新颖的物体。最后，对于看不见的环境，硬箱对应于带有显示器和配件的视觉上更清晰的办公桌环境，而更简单的环境是厨房水槽。这些评估由 280 多项任务组成，主要关注多种不同场景中的拾取和放置技能。附录F.2中指定了未见类别的指令列表。

评估结果如图4和附表3所示。 RT-2 模型和 RT-1 在所见任务上的表现相似，但其他基线的成功率较低。 RT-2 模型和基线之间的差异在各种泛化实验中最为明显，这表明视觉-语言-动作模型的优势在于从互联网规模的预训练数据中转移更通用的视觉和语义概念。在这里，平均而言，RT-2 的两个实例的性能相似，与接下来的两个基线 RT-1 和 MOO 相比 $\sim$ 提高了 2 倍， ${\scriptsize\sim}$ 比另一个基线好 6 倍基线。 RT-2 的 PaLM-E 版本似乎在较难版本的泛化场景中比 RT-2-PaLI-X 表现更好，而在较简单的泛化场景中表现不佳，导致相似的平均性能。

开源语言表基准。为了使用开源基线和环境提供额外的比较点，我们利用 Lynch 等人 (2022) 的开源 Language-Table 模拟环境。我们针对语言表数据集在多个预测任务（包括域内 VQA 任务）上共同微调较小的 PaLI 3B 模型，并在模拟中评估结果策略。对于动作预测任务，我们将动作离散化并编码为格式为“X Y”的文本，其中X和Y范围在{-10之间, -9, …, +9, +10}，并表示末端执行器的 delta 2D 笛卡尔设定点。由于尺寸减小，生成的模型可以以与其他基线相似的速率 (5 Hz) 运行推理。该实验的结果如表6所示。与基线相比，我们观察到使用我们的模型时性能显着提升，这表明基于 VLM 的预训练与大型 PaLI 模型的表达能力在其他场景中可能是有益的，在这种情况下，使用不同的机器人进行模拟。我们还在图 6 中展示了现实世界的定性分布外行为，展示了在此环境中以前未见过的新颖的推送任务和目标对象。有关语言表实验的更多详细信息，请参阅附录 B 和 D。

Model	Language-Table
BC-Zero (Jang et al., 2021)	72 $\pm$ 3
RT-1 (Brohan et al., 2022)	74 $\pm$ 13
LAVA (Lynch et al., 2022)	77 $\pm$ 4
RT-2-PaLI-3B (ours)	90 $\pm$ 10

4.2我们可以观察和测量 RT-2 的任何新兴功能吗？

除了评估视觉-语言-动作模型的泛化能力之外，我们还旨在评估这些模型通过从网络传输知识来实现超出机器人数据中展示的新功能的程度。我们将此类能力称为新兴，因为它们是通过转移互联网规模的预训练而出现的。我们并不期望这种转移能够实现新的机器人动作，但我们确实希望语义和视觉概念（包括关系和名词）能够有效转移，即使这些概念在机器人数据中没有出现的情况下也是如此。

定性评估。首先，我们用 RT-2-PaLI-X 模型进行实验，以确定从视觉语言概念转移的各种新兴功能。我们在图 2 中演示了此类交互的一些示例。通过探索我们发现RT-2在语义理解和场景上下文中的基本推理方面继承了新颖的能力。例如，完成“将草莓放入正确的碗中”的任务不仅需要对草莓和碗是什么有细致的了解，而且还需要在场景中进行推理，以知道草莓应该与类似的水果搭配。对于“捡起即将从桌子上掉下来的袋子”的任务，RT-2 展示了物理理解能力，可以消除两个袋子之间的歧义并识别不稳定放置的物体。在这些场景中测试的所有交互从未在机器人数据中见过，这表明语义知识从视觉语言数据转移。

定量评估。为了量化这些新兴功能，我们采用之前评估中的前两个基线 RT-1 和 VC-1，并将它们与我们的两个模型进行比较：RT-2-PaLI-X 和 RT-2-PaLM-E。为了减少这些实验的方差，我们使用 A/B 测试框架（Fisher，1936）评估所有方法，其中所有四个模型在完全相同的条件下依次评估。

我们将 RT-2 的新兴功能分为三类，涵盖推理和语义理解轴（附录图 9 中显示了每个类别的示例）。第一个术语是符号理解，它明确测试 RT-2 策略是否从视觉语言预训练中传输任何机器人数据中不存在的语义知识。此类别中的示例说明为“将苹果移至 3”或“将可乐罐推到心形上方”。第二类我们称之为推理，它展示了将底层 VLM 的各方面推理应用于控制任务的能力。这些任务需要视觉推理（“将苹果移动到具有相同颜色的杯子”）、数学（“将 X 移动到二加一之和附近”）和多语言理解（“mueve la manzana al vaso verde”）。我们将最后一类称为人类识别任务，其中包括“将可乐罐移到戴眼镜的人身上”等任务，以展示以人为中心的理解和识别。用于此评估的指令的完整列表在附录F.2中指定。

我们在图 6(a) 中展示了该实验的结果，所有数值结果在附录 H.2 中。我们观察到，我们的 VLA 模型在所有类别中都显着优于基线，我们最好的 RT-2-PaLI-X 模型的平均成功率是下一个最佳基线 (RT-1) 的 3 倍以上。我们还注意到，虽然较大的基于 PaLI-X 的模型平均可以带来更好的符号理解、推理和人物识别性能，但较小的基于 PaLM-E 的模型在涉及数学推理的任务上具有优势。我们将这个有趣的结果归因于 PaLM-E 中使用的不同预训练混合物，这使得模型比大多数视觉预训练的 PaLI-X 更有能力进行数学计算。

4.3 泛化如何随参数计数和其他设计决策而变化？

为了进行比较，我们使用 RT-2-PaLI-X 模型，因为它在模型大小方面具有灵活性（由于 PaLM-E 的性质，RT-2-PaLM-E 仅限于 PaLM 的某些大小，并且ViT 模型）。特别是，我们比较了两种不同的模型大小 5B 和 55B，以及三种不同的训练例程：从头开始训练模型，不使用 VLM 预训练中的任何权重；仅使用机器人动作数据微调预训练模型；和协同微调（协同训练与微调），这是本工作中使用的主要方法，我们使用原始 VLM 训练数据以及机器人数据进行 VLM 微调。由于我们最感兴趣的是这些模型的泛化方面，因此我们从这组实验中删除了已看到的任务评估。

消融结果如图6(b)和附录表5所示。首先，我们观察到，即使对于 5B 模型，从头开始训练一个非常大的模型也会导致性能非常差。鉴于此结果，我们决定在从头开始训练时跳过对更大的 55B PaLI-X 模型的评估。其次，我们注意到，与简单地使用机器人数据进行微调相比，共同微调模型（无论其大小）会产生更好的泛化性能。我们将此归因于以下事实：将原始数据保留在训练的微调部分周围，使模型不会忘记其先前在 VLM 训练期间学到的概念。最后，毫不奇怪的是，我们注意到模型大小的增加带来了更好的泛化性能。

4.4RT-2 能否表现出类似于视觉语言模型的思维链推理迹象？

受大语言模型（Wei等人，2022）中思想链提示方法的启发，我们用PaLM-E操纵了RT-2的变体，只需几百个梯度步即可增加它结合使用语言和动作的能力，并希望能够引发更复杂的推理行为。我们对数据进行了扩充，添加了一个额外的“计划”步骤，该步骤首先用自然语言描述了机器人即将采取的动作的目的，然后是实际的动作标记，例如“指导：我饿了。计划：挑选rxbar巧克力。行动：1 128 124 136 121 158 111 255。”这种数据增强方案充当 VQA 数据集（视觉推理）和操作数据集（生成动作）之间的桥梁。

我们定性地观察到，具有思想链推理的 RT-2 能够回答更复杂的命令，因为它首先被赋予了用自然语言规划其动作的位置。这是一个很有前途的方向，它提供了一些初步证据，表明使用大语言模型或 VLM 作为规划器（Ahn 等人，2022；Driess 等人，2023）可以与单个低级策略相结合VLA模型。图 8 和附录 I 显示了 RT-2 与思想链推理的推出。

5 限制

尽管 RT-2 表现出有希望的泛化特性，但这种方法仍存在多种局限性。首先，尽管我们表明通过 VLM 进行网络规模的预训练可以提高语义和视觉概念的泛化能力，但机器人并没有通过包含这种额外的经验来获得执行新动作的任何能力。该模型的物理技能仍然限于机器人数据中看到的技能分布（参见附录G)，但它学会了以新的方式部署这些技能。我们认为这是由于数据集在技能方面变化不够的结果。未来工作的一个令人兴奋的方向是研究如何通过新的数据收集范式（例如人类视频）获得新技能。

其次，虽然我们展示了我们可以实时运行大型VLA模型，但这些模型的计算成本很高，并且当这些方法应用于需要高频控制的设置时，实时推理可能成为主要瓶颈。未来研究的一个令人兴奋的方向是探索量化和蒸馏技术，这些技术可能使此类模型能够以更高的速率或在更低成本的硬件上运行。这也与当前的另一个限制有关，即只有少量通用的 VLM 模型可用于创建 RT-2。我们希望有更多的开源模型可用（例如https://llava-vl.github.io/)，并且专有模型将开放其微调API，这已经足够了构建 VLA 模型的要求。

6 结论

在本文中，我们描述了如何通过将视觉语言模型（VLM）预训练与机器人数据相结合来训练视觉语言动作（VLA）模型。然后，我们提出了基于 PaLM-E 和 PaLI-X 的 VLA 的两个实例，我们称之为 RT-2-PaLM-E 和 RT-2-PaLI-X。这些模型与机器人轨迹数据共同微调，以输出机器人动作，这些动作以文本标记表示。我们表明，我们的方法可以产生非常高性能的机器人策略，更重要的是，可以带来明显更好的泛化性能和继承自网络规模视觉语言预训练的新兴功能。我们相信，这种简单而通用的方法显示了机器人技术直接受益于更好的视觉语言模型的希望，这使得机器人学习领域处于战略地位，可以随着其他领域的进步而进一步改进。

致谢

我们谨致谢 Fred Alcober、Jodi Lynn Andres、Carolina Parada、Joseph Dabis、Rochelle Dela Cruz、Jessica Gomez、Gavin Gonzalez、John Guilyard、Tomas Jackson、Jie Tan、Scott Lehrer、Dee M、Utsav Malla、Sarah Nguyen、Jane Park、Emily Perez、Elio Prado、Jornell Quiambao、Clayton Tan、Jodexty Therlonge、Eleanor Tomlinson、Wenxuan Zhou 以及 Google DeepMind 团队的反馈和贡献。

参考

Ahn et al. (2022) M. Ahn, A. Brohan, N. Brown, Y. Chebotar, O. Cortes, B. David, C. Finn, K. Gopalakrishnan, K. Hausman, A. Herzog, et al. Do as I can, not as I say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691, 2022.
Alayrac et al. (2022) J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds, et al. Flamingo: a visual language model for few-shot learning. arXiv preprint arXiv:2204.14198, 2022.
Anil et al. (2023) R. Anil, A. M. Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E. Taropa, P. Bailey, Z. Chen, et al. Palm 2 technical report. arXiv preprint arXiv:2305.10403, 2023.
Brohan et al. (2022) A. Brohan, N. Brown, J. Carbajal, Y. Chebotar, J. Dabis, C. Finn, K. Gopalakrishnan, K. Hausman, A. Herzog, J. Hsu, et al. Rt-1: Robotics transformer for real-world control at scale. arXiv preprint arXiv:2212.06817, 2022.
Brown et al. (2020) T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
Cer et al. (2018) D. Cer, Y. Yang, S. Kong, N. Hua, N. Limtiaco, R. S. John, N. Constant, M. Guajardo-Cespedes, S. Yuan, C. Tar, Y. Sung, B. Strope, and R. Kurzweil. Universal sentence encoder. CoRR, abs/1803.11175, 2018. URL http://arxiv.org/abs/1803.11175.
Chen et al. (2021) M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. d. O. Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
Chen et al. (2023a) X. Chen, J. Djolonga, P. Padlewski, B. Mustafa, S. Changpinyo, J. Wu, C. R. Ruiz, S. Goodman, X. Wang, Y. Tay, S. Shakeri, M. Dehghani, D. Salz, M. Lucic, M. Tschannen, A. Nagrani, H. Hu, M. Joshi, B. Pang, C. Montgomery, P. Pietrzyk, M. Ritter, A. Piergiovanni, M. Minderer, F. Pavetic, A. Waters, G. Li, I. Alabdulmohsin, L. Beyer, J. Amelot, K. Lee, A. P. Steiner, Y. Li, D. Keysers, A. Arnab, Y. Xu, K. Rong, A. Kolesnikov, M. Seyedhosseini, A. Angelova, X. Zhai, N. Houlsby, and R. Soricut. Pali-x: On scaling up a multilingual vision and language model, 2023a.
Chen et al. (2023b) X. Chen, X. Wang, S. Changpinyo, A. Piergiovanni, P. Padlewski, D. Salz, S. Goodman, A. Grycner, B. Mustafa, L. Beyer, A. Kolesnikov, J. Puigcerver, N. Ding, K. Rong, H. Akbari, G. Mishra, L. Xue, A. Thapliyal, J. Bradbury, W. Kuo, M. Seyedhosseini, C. Jia, B. K. Ayan, C. Riquelme, A. Steiner, A. Angelova, X. Zhai, N. Houlsby, and R. Soricut. Pali: A jointly-scaled multilingual language-image model, 2023b.
Cobbe et al. (2021) K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Cui et al. (2022) Z. J. Cui, Y. Wang, N. Muhammad, L. Pinto, et al. From play to policy: Conditional behavior generation from uncurated robot data. arXiv preprint arXiv:2210.10047, 2022.
Dasari and Gupta (2021) S. Dasari and A. Gupta. Transformers for one-shot visual imitation. In Conference on Robot Learning, pages 2071–2084. PMLR, 2021.
Dasari et al. (2019) S. Dasari, F. Ebert, S. Tian, S. Nair, B. Bucher, K. Schmeckpeper, S. Singh, S. Levine, and C. Finn. Robonet: Large-scale multi-robot learning. In Conference on Robot Learning, 2019.
Dehghani et al. (2023) M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, R. Jenatton, L. Beyer, M. Tschannen, A. Arnab, X. Wang, C. Riquelme, M. Minderer, J. Puigcerver, U. Evci, M. Kumar, S. van Steenkiste, G. F. Elsayed, A. Mahendran, F. Yu, A. Oliver, F. Huot, J. Bastings, M. P. Collier, A. Gritsenko, V. Birodkar, C. Vasconcelos, Y. Tay, T. Mensink, A. Kolesnikov, F. Pavetić, D. Tran, T. Kipf, M. Lučić, X. Zhai, D. Keysers, J. Harmsen, and N. Houlsby. Scaling vision transformers to 22 billion parameters, 2023.
Driess et al. (2023) D. Driess, F. Xia, M. S. Sajjadi, C. Lynch, A. Chowdhery, B. Ichter, A. Wahid, J. Tompson, Q. Vuong, T. Yu, et al. Palm-e: An embodied multimodal language model. arXiv preprint arXiv:2303.03378, 2023.
Du et al. (2023a) M. Du, S. Nair, D. Sadigh, and C. Finn. Behavior retrieval: Few-shot imitation learning by querying unlabeled datasets. arXiv preprint arXiv:2304.08742, 2023a.
Du et al. (2023b) Y. Du, K. Konyushkova, M. Denil, A. Raju, J. Landon, F. Hill, N. de Freitas, and S. Cabi. Vision-language models as success detectors. arXiv preprint arXiv:2303.07280, 2023b.
Finn and Levine (2017) C. Finn and S. Levine. Deep visual foresight for planning robot motion. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 2786–2793. IEEE, 2017.
Finn et al. (2017) C. Finn, T. Yu, T. Zhang, P. Abbeel, and S. Levine. One-shot visual imitation learning via meta-learning. In Conference on robot learning, pages 357–368. PMLR, 2017.
Fisher (1936) R. A. Fisher. Design of experiments. British Medical Journal, 1(3923):554, 1936.
Gadre et al. (2022) S. Y. Gadre, M. Wortsman, G. Ilharco, L. Schmidt, and S. Song. Clip on wheels: Zero-shot object navigation as object localization and exploration. arXiv preprint arXiv:2203.10421, 2022.
Gan et al. (2022) Z. Gan, L. Li, C. Li, L. Wang, Z. Liu, J. Gao, et al. Vision-language pre-training: Basics, recent advances, and future trends. Foundations and Trends® in Computer Graphics and Vision, 14(3–4):163–352, 2022.
Ghiasi et al. (2021) G. Ghiasi, X. Gu, Y. Cui, and T.-Y. Lin. Open-vocabulary image segmentation. arXiv preprint arXiv:2112.12143, 2021.
Grauman et al. (2022) K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu, M. Martin, T. Nagarajan, I. Radosavovic, S. K. Ramakrishnan, F. Ryan, J. Sharma, M. Wray, M. Xu, E. Z. Xu, C. Zhao, S. Bansal, D. Batra, V. Cartillier, S. Crane, T. Do, M. Doulaty, A. Erapalli, C. Feichtenhofer, A. Fragomeni, Q. Fu, A. Gebreselasie, C. Gonzalez, J. Hillis, X. Huang, Y. Huang, W. Jia, W. Khoo, J. Kolar, S. Kottur, A. Kumar, F. Landini, C. Li, Y. Li, Z. Li, K. Mangalam, R. Modhugu, J. Munro, T. Murrell, T. Nishiyasu, W. Price, P. R. Puentes, M. Ramazanova, L. Sari, K. Somasundaram, A. Southerland, Y. Sugano, R. Tao, M. Vo, Y. Wang, X. Wu, T. Yagi, Z. Zhao, Y. Zhu, P. Arbelaez, D. Crandall, D. Damen, G. M. Farinella, C. Fuegen, B. Ghanem, V. K. Ithapu, C. V. Jawahar, H. Joo, K. Kitani, H. Li, R. Newcombe, A. Oliva, H. S. Park, J. M. Rehg, Y. Sato, J. Shi, M. Z. Shou, A. Torralba, L. Torresani, M. Yan, and J. Malik. Ego4d: Around the world in 3,000 hours of egocentric video, 2022.
Gu et al. (2021) X. Gu, T.-Y. Lin, W. Kuo, and Y. Cui. Open-vocabulary object detection via vision and language knowledge distillation. arXiv preprint arXiv:2104.13921, 2021.
Hansen et al. (2020) N. Hansen, R. Jangir, Y. Sun, G. Alenyà, P. Abbeel, A. A. Efros, L. Pinto, and X. Wang. Self-supervised policy adaptation during deployment. arXiv preprint arXiv:2007.04309, 2020.
Hao et al. (2022) Y. Hao, H. Song, L. Dong, S. Huang, Z. Chi, W. Wang, S. Ma, and F. Wei. Language models are general-purpose interfaces. arXiv preprint arXiv:2206.06336, 2022.
Hill et al. (2020) F. Hill, S. Mokra, N. Wong, and T. Harley. Human instruction-following with deep reinforcement learning via transfer-learning from text. arXiv preprint arXiv:2005.09382, 2020.
Huang et al. (2023) S. Huang, L. Dong, W. Wang, Y. Hao, S. Singhal, S. Ma, T. Lv, L. Cui, O. K. Mohammed, Q. Liu, et al. Language is not all you need: Aligning perception with language models. arXiv preprint arXiv:2302.14045, 2023.
Huang et al. (2022) W. Huang, P. Abbeel, D. Pathak, and I. Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. In International Conference on Machine Learning, pages 9118–9147. PMLR, 2022.
James et al. (2018) S. James, M. Bloesch, and A. J. Davison. Task-embedded control networks for few-shot imitation learning. In Conference on robot learning, pages 783–795. PMLR, 2018.
Jang et al. (2021) E. Jang, A. Irpan, M. Khansari, D. Kappler, F. Ebert, C. Lynch, S. Levine, and C. Finn. Bc-z: Zero-shot task generalization with robotic imitation learning. In Conference on Robot Learning, pages 991–1002. PMLR, 2021.
Jiang et al. (2022) Y. Jiang, A. Gupta, Z. Zhang, G. Wang, Y. Dou, Y. Chen, L. Fei-Fei, A. Anandkumar, Y. Zhu, and L. Fan. Vima: General robot manipulation with multimodal prompts. arXiv preprint arXiv:2210.03094, 2022.
Kaelbling (2020) L. P. Kaelbling. The foundation of efficient robot learning. Science, 369(6506):915–916, 2020.
Karamcheti et al. (2023) S. Karamcheti, S. Nair, A. S. Chen, T. Kollar, C. Finn, D. Sadigh, and P. Liang. Language-driven representation learning for robotics. arXiv preprint arXiv:2302.12766, 2023.
Kirillov et al. (2023) A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.
Kostrikov et al. (2020) I. Kostrikov, D. Yarats, and R. Fergus. Image augmentation is all you need: Regularizing deep reinforcement learning from pixels. arXiv preprint arXiv:2004.13649, 2020.
Laskin et al. (2020a) M. Laskin, K. Lee, A. Stooke, L. Pinto, P. Abbeel, and A. Srinivas. Reinforcement learning with augmented data. Advances in neural information processing systems, 33:19884–19895, 2020a.
Laskin et al. (2020b) M. Laskin, A. Srinivas, and P. Abbeel. Curl: Contrastive unsupervised representations for reinforcement learning. In International Conference on Machine Learning, pages 5639–5650. PMLR, 2020b.
Levine et al. (2018) S. Levine, P. Pastor, A. Krizhevsky, J. Ibarz, and D. Quillen. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International journal of robotics research, 37(4-5):421–436, 2018.
Lewkowycz et al. (2022) A. Lewkowycz, A. Andreassen, D. Dohan, E. Dyer, H. Michalewski, V. Ramasesh, A. Slone, C. Anil, I. Schlag, T. Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022.
Li et al. (2023) J. Li, D. Li, S. Savarese, and S. Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023.
Li et al. (2019) L. H. Li, M. Yatskar, D. Yin, C.-J. Hsieh, and K.-W. Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019.
Liu et al. (2022) H. Liu, L. Lee, K. Lee, and P. Abbeel. Instruction-following agents with jointly pre-trained vision-language models. arXiv preprint arXiv:2210.13431, 2022.
Lu et al. (2019) J. Lu, D. Batra, D. Parikh, and S. Lee. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in neural information processing systems, 32, 2019.
Lynch and Sermanet (2020) C. Lynch and P. Sermanet. Language conditioned imitation learning over unstructured data. arXiv preprint arXiv:2005.07648, 2020.
Lynch et al. (2022) C. Lynch, A. Wahid, J. Tompson, T. Ding, J. Betker, R. Baruch, T. Armstrong, and P. Florence. Interactive language: Talking to robots in real time. arXiv preprint arXiv:2210.06407, 2022.
Ma et al. (2022) Y. J. Ma, S. Sodhani, D. Jayaraman, O. Bastani, V. Kumar, and A. Zhang. Vip: Towards universal visual reward and representation via value-implicit pre-training. arXiv preprint arXiv:2210.00030, 2022.
Ma et al. (2023) Y. J. Ma, W. Liang, V. Som, V. Kumar, A. Zhang, O. Bastani, and D. Jayaraman. Liv: Language-image representations and rewards for robotic control. arXiv preprint arXiv:2306.00958, 2023.
Mahler et al. (2017) J. Mahler, J. Liang, S. Niyaz, M. Laskey, R. Doan, X. Liu, J. A. Ojea, and K. Goldberg. Dex-net 2.0: Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics. arXiv preprint arXiv:1703.09312, 2017.
Majumdar et al. (2023a) A. Majumdar, K. Yadav, S. Arnaud, Y. J. Ma, C. Chen, S. Silwal, A. Jain, V.-P. Berges, P. Abbeel, J. Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240, 2023a.
Majumdar et al. (2023b) A. Majumdar, K. Yadav, S. Arnaud, Y. J. Ma, C. Chen, S. Silwal, A. Jain, V.-P. Berges, P. Abbeel, J. Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240, 2023b.
Mees et al. (2022) O. Mees, L. Hermann, and W. Burgard. What matters in language conditioned robotic imitation learning over unstructured data. IEEE Robotics and Automation Letters, 7(4):11205–11212, 2022.
Minderer et al. (2022) M. Minderer, A. Gritsenko, A. Stone, M. Neumann, D. Weissenborn, A. Dosovitskiy, A. Mahendran, A. Arnab, M. Dehghani, Z. Shen, et al. Simple open-vocabulary object detection with vision transformers. arXiv preprint arXiv:2205.06230, 2022.
Mu et al. (2023) Y. Mu, Q. Zhang, M. Hu, W. Wang, M. Ding, J. Jin, B. Wang, J. Dai, Y. Qiao, and P. Luo. Embodiedgpt: Vision-language pre-training via embodied chain of thought. arXiv preprint arXiv:2305.15021, 2023.
Nair et al. (2022a) S. Nair, E. Mitchell, K. Chen, S. Savarese, C. Finn, et al. Learning language-conditioned robot behavior from offline data and crowd-sourced annotation. In Conference on Robot Learning, pages 1303–1315. PMLR, 2022a.
Nair et al. (2022b) S. Nair, A. Rajeswaran, V. Kumar, C. Finn, and A. Gupta. R3m: A universal visual representation for robot manipulation. arXiv preprint arXiv:2203.12601, 2022b.
OpenAI (2023) OpenAI. Gpt-4 technical report, 2023.
Pari et al. (2021) J. Pari, N. M. Shafiullah, S. P. Arunachalam, and L. Pinto. The surprising effectiveness of representation learning for visual imitation. arXiv preprint arXiv:2112.01511, 2021.
Pinto and Gupta (2016) L. Pinto and A. Gupta. Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours. In 2016 IEEE international conference on robotics and automation (ICRA), pages 3406–3413. IEEE, 2016.
Polu et al. (2022) S. Polu, J. M. Han, K. Zheng, M. Baksys, I. Babuschkin, and I. Sutskever. Formal mathematics statement curriculum learning. arXiv preprint arXiv:2202.01344, 2022.
Pong et al. (2019) V. H. Pong, M. Dalal, S. Lin, A. Nair, S. Bahl, and S. Levine. Skew-fit: State-covering self-supervised reinforcement learning. arXiv preprint arXiv:1903.03698, 2019.
Radford et al. (2021) A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.
Reed et al. (2022) S. Reed, K. Zolna, E. Parisotto, S. G. Colmenarejo, A. Novikov, G. Barth-Maron, M. Gimenez, Y. Sulsky, J. Kay, J. T. Springenberg, et al. A generalist agent. arXiv preprint arXiv:2205.06175, 2022.
Ryoo et al. (2021) M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, and A. Angelova. Tokenlearner: Adaptive space-time tokenization for videos. Advances in Neural Information Processing Systems, 34:12786–12797, 2021.
Shah et al. (2023) D. Shah, B. Osiński, b. ichter, and S. Levine. Lm-nav: Robotic navigation with large pre-trained models of language, vision, and action. In K. Liu, D. Kulic, and J. Ichnowski, editors, Proceedings of The 6th Conference on Robot Learning, volume 205 of Proceedings of Machine Learning Research, pages 492–504. PMLR, 14–18 Dec 2023. URL https://proceedings.mlr.press/v205/shah23b.html.
Shah and Kumar (2021) R. Shah and V. Kumar. Rrl: Resnet as representation for reinforcement learning. arXiv preprint arXiv:2107.03380, 2021.
Shridhar et al. (2021) M. Shridhar, L. Manuelli, and D. Fox. Cliport: What and where pathways for robotic manipulation. In Proceedings of the 5th Conference on Robot Learning (CoRL), 2021.
Shridhar et al. (2022a) M. Shridhar, L. Manuelli, and D. Fox. Cliport: What and where pathways for robotic manipulation. In Conference on Robot Learning, pages 894–906. PMLR, 2022a.
Shridhar et al. (2022b) M. Shridhar, L. Manuelli, and D. Fox. Perceiver-actor: A multi-task transformer for robotic manipulation. arXiv preprint arXiv:2209.05451, 2022b.
Singh et al. (2023) I. Singh, V. Blukis, A. Mousavian, A. Goyal, D. Xu, J. Tremblay, D. Fox, J. Thomason, and A. Garg. Progprompt: Generating situated robot task plans using large language models. In ICRA, 2023.
Smith and Coles (1973) M. H. Smith and L. S. Coles. Design of a low cost, general purpose robot. In IJCAI, pages 324–336, 1973.
Stone et al. (2023) A. Stone, T. Xiao, Y. Lu, K. Gopalakrishnan, K.-H. Lee, Q. Vuong, P. Wohlhart, B. Zitkovich, F. Xia, C. Finn, et al. Open-world object manipulation using pre-trained vision-language models. arXiv preprint arXiv:2303.00905, 2023.
Sumers et al. (2023) T. Sumers, K. Marino, A. Ahuja, R. Fergus, and I. Dasgupta. Distilling internet-scale vision-language models into embodied agents. arXiv preprint arXiv:2301.12507, 2023.
Tay et al. (2023) Y. Tay, M. Dehghani, V. Q. Tran, X. Garcia, J. Wei, X. Wang, H. W. Chung, S. Shakeri, D. Bahri, T. Schuster, H. S. Zheng, D. Zhou, N. Houlsby, and D. Metzler. Ul2: Unifying language learning paradigms, 2023.
Vemprala et al. (2023) S. Vemprala, R. Bonatti, A. Bucker, and A. Kapoor. Chatgpt for robotics: Design principles and model abilities. Microsoft Auton. Syst. Robot. Res, 2:20, 2023.
Wang et al. (2022) J. Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, and L. Wang. Git: A generative image-to-text transformer for vision and language. arXiv preprint arXiv:2205.14100, 2022.
Wei et al. (2022) J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. Chi, Q. Le, and D. Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.
Wei et al. (2023) J. Wei, L. Hou, A. Lampinen, X. Chen, D. Huang, Y. Tay, X. Chen, Y. Lu, D. Zhou, T. Ma, and Q. V. Le. Symbol tuning improves in-context learning in language models, 2023.
Wu et al. (2023) J. Wu, R. Antonova, A. Kan, M. Lepert, A. Zeng, S. Song, J. Bohg, S. Rusinkiewicz, and T. Funkhouser. Tidybot: Personalized robot assistance with large language models. arXiv preprint arXiv:2305.05658, 2023.
Xiao et al. (2022a) T. Xiao, H. Chan, P. Sermanet, A. Wahid, A. Brohan, K. Hausman, S. Levine, and J. Tompson. Robotic skill acquisition via instruction augmentation with vision-language models. arXiv preprint arXiv:2211.11736, 2022a.
Xiao et al. (2022b) T. Xiao, I. Radosavovic, T. Darrell, and J. Malik. Masked visual pre-training for motor control. arXiv preprint arXiv:2203.06173, 2022b.
Young et al. (2021) S. Young, D. Gandhi, S. Tulsiani, A. Gupta, P. Abbeel, and L. Pinto. Visual imitation made easy. In Conference on Robot Learning, pages 1992–2005. PMLR, 2021.
Yu et al. (2016) K.-T. Yu, M. Bauza, N. Fazeli, and A. Rodriguez. More than a million ways to be pushed. a high-fidelity experimental dataset of planar pushing. In 2016 IEEE/RSJ international conference on intelligent robots and systems (IROS), pages 30–37. IEEE, 2016.
Yu et al. (2018) T. Yu, C. Finn, A. Xie, S. Dasari, T. Zhang, P. Abbeel, and S. Levine. One-shot imitation from observing humans via domain-adaptive meta-learning. arXiv preprint arXiv:1802.01557, 2018.
Zhai et al. (2022) X. Zhai, A. Kolesnikov, N. Houlsby, and L. Beyer. Scaling vision transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12104–12113, 2022.
Zhang et al. (2023) X. Zhang, Y. Ding, S. Amiri, H. Yang, A. Kaminski, C. Esselink, and S. Zhang. Grounding classical task planners via vision-language models. arXiv preprint arXiv:2304.08587, 2023.

附录 A贡献

•

训练和评估（设计和执行训练模型的程序、评估模拟和现实世界中的模型、运行算法设计选择的消融）：Yevgen Chebotar、Krzysztof Choromanski、Tianli Ding、Danny Driess、Avinava Dubey , Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Alexander Herzog, Brian Ichter, Alex Irpan, Isabel Leal, Lisa Lee, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Michael Ryoo, Anikait Singh, Quan Vuong、Ayzaan Wahid、Paul Wohlhart、Fei Xia、Ted Shaw 和 Tianhe Yu。
•

网络架构（设计和实现模型网络模块，致力于操作的标记化，在实验期间实现模型网络的推理）：Yevgen Chebotar、Xi Chen、Krzysztof Choromanski、Danny Driess、Pete Florence、Keerthana Gopalakrishnan 、Kehang Han、Karol Hausman、Brian Ichter、Alex Irpan、Isabel Leal、Lisa Lee、Henryk Michalewski、Igor Mordatch、Kanishka Rao、Michael Ryoo、Anikait Singh、Quan Vuong、Ayzaan Wahid、Jialin Wu、Fei Xia、Ted Shaw 和于天和。
•

数据收集（收集真实机器人数据、运行真实机器人评估、执行运行真实机器人所需的操作）：Noah Brown、Justice Carbajal、Tianli Ding、Krista Reymann、Grecia Salazar、Pierre Sermanet、Jaspiar Singh 、Huong Tran、Stefan Welker 和 Sichun Xu。
•

领导层（领导项目工作、管理项目人员、就项目方向提供建议）：Yevgen Chebotar、Chelsea Finn、Karol Hausman、Brian Ichter、Sergey Levine、Yao Lu、Igor Mordatch、Kanishka Rao、Pannag Sanketi、Radu Soricut、Vincent Vanhoucke 和 Tianhe Yu。
•

论文（处理纸质手稿、设计纸质可视化和图形）：Yevgen Chebotar、Danny Driess、Chelsea Finn、Pete Florence、Karol Hausman、Brian Ichter、Lisa Lee、Sergey Levine、Igor Mordatch、Karl Pertsch、Quan Vuong、飞侠、特德·肖和余天河。
•

基础设施（致力于训练模型、运行实验、存储和访问数据所需的基础设施和代码库主干）：Anthony Brohan、Yevgen Chebotar、Danny Driess、Kehang Han、Jasmine Hsu、Brian Ichter、Alex Irpan 、 Nikhil Joshi、Ryan Julian、Dmitry Kalashnikov、Yuheng Kuang、Isabel Leal、Lisa Lee、Tsang-Wei Edward Lee、Yao Lu、Igor Mordatch、Quan Vuong、Ayzaan Wahid、Fei Xia、Ted Shaw、Peng Xu 和 Tianhe Yu。

附录 B数据集

视觉语言数据集基于 Chen 等人 (2023b) 和 Driess 等人 (2023) 的数据集混合。这些数据的大部分由 WebLI 数据集组成，该数据集包含 109 种语言的大约 10B 个图像文本对，过滤到得分最高的 10% 跨模式相似性示例，以提供 1B 个训练示例。还包括许多其他字幕和视觉问答数据集，有关数据集混合的更多信息可以在 RT-2-PaLI-X 的 Chen 等人 (2023b) 和中找到Driess 等人 (2023) for RT-2-PaLM-E。在协同微调 RT-2-PaLI-X 时，我们不使用 Chen 等人 (2023a) 描述的 Episodic WebLI 数据集。

机器人数据集基于 Brohan 等人 (2022) 的数据集。这包括使用移动操纵机器人收集的演示片段。每个演示都用来自七种技能之一的自然语言指令进行注释：“拾取对象”、“将对象移动到对象附近”、“放置物体直立”、“敲翻物体”、“打开抽屉”、“关闭抽屉”、“放置物体放入容器”，并“从容器0>中挑选物体并放置在柜台上”。更多详情请参阅Brohan 等人 (2022)。

RT-2-PaLI-X 对机器人训练数据集进行加权，使其约占协同微调混合物的 50%。 RT-2-PaLM-E 将机器人数据集的权重设为训练混合物的 66% 左右。

对于表 6 中 Language-Table 的结果，我们的模型是在 Lynch 等人 (2022) 的 Language-Table 数据集上进行训练的。我们的模型在几个预测任务上进行了协同微调：（1）给定两个连续的图像帧和文本指令来预测动作； (2) 给定图像帧，预测指令；（3）给定图像帧，预测机器人手臂的位置； (4) 预测给定图像帧之间的时间步数； (5) 根据给定的图像帧和指令，预测任务是否成功。

附录 C基线

我们将我们的方法与多个最先进的基线进行比较，这些基线对我们方法的不同方面提出了挑战。所有基线都使用完全相同的机器人数据。

•

RT-1：Robotics Transformer 1 Brohan 等人 (2022) 是一种基于 Transformer 的模型，在以下情况下在类似的任务套件上实现了最先进的性能：它被出版了。该模型不使用基于 VLM 的预训练，因此它提供了一个重要的数据点来证明基于 VLM 的预训练是否重要。
•

VC-1：VC-1 Majumdar 等人 (2023a) 是一种视觉基础模型，使用专为机器人任务设计的预训练视觉表示。我们使用 VC-1 ViT-L 模型的预训练表示。由于 VC-1 不包含语言调节，因此我们通过 Universal Sentence Encoder Cer 等人 (2018) 单独嵌入语言命令来添加此功能，以便与我们的方法进行比较。特别是，我们将生成的语言嵌入标记连接到 VC-1 生成的图像标记，并将连接后的词符序列传递给词符学习者 Ryoo 等人 (2021)。然后，由词符学习器生成的词符序列被仅 RT-1 解码器的 Transformer 模型使用，以预测机器人动作标记。我们对 VC-1 基线进行端到端训练，并在期间解冻 VC-1 权重，因为这比使用冻结的 VC-1 权重产生更好的结果。
•

R3M：R3M Nair 等人 (2022b) 与 VC-1 类似，R3M 使用预先训练的视觉语言表示来改进策略训练。在本例中，作者使用人类活动的 Ego4D 数据集 Grauman 等人 (2022) 来学习策略使用的表示。 VC-1 和 R3M 都测试了不同的最先进的表示学习方法，作为使用 VLM 的替代方法。为了从 R3M 预训练表示中获取语言条件策略，我们遵循与上述 VC-1 相同的过程，不同之处在于我们使用 R3M ResNet50 模型来获取图像标记，并在训练期间将其解冻。
•

MOO：MOO Stone 等人 (2023) 是一种以对象为中心的方法，其中首先使用 VLM 以单个彩色的形式指定感兴趣的对象原始图像中的像素。然后使用端到端策略对经过像素修改的图像进行训练，以完成一组操作任务。该基线对应于以下情况：VLM 用作增强感知的单独模块，但其表示不用于策略学习。

附录 DRT-2 的 VLM

PaLI-X 模型架构由 ViT-22B Dehghani 等人 (2023) 组成，用于处理图像，它可以接受 $n$ 图像序列，从而产生 $n\times k$ 每个图像的标记，其中 $k$ 是每个图像的补丁数。经过投影层的图像 Token 随后被 32B 参数和 50 层的编码器-解码器主干消耗，类似于 UL2 Tay 等人 (2023)，它联合处理文本和图像作为嵌入以自回归方式生成输出标记。文本输入通常由任务类型和任何附加上下文组成（例如，用于字幕任务的“在 $\langle$ lang $\rangle$ 中生成字幕”或“在 $\langle$ 中回答” >lang $\rangle$ ：VQA 任务的问题”）。

在Language-Table（表6)上训练的PaLI-3B模型使用较小的ViT-G/14（Zhai等人，2022）（2B参数）来处理图像，和 UL2-3B (Tay 等人, 2023) 用于编码器-解码器网络。

PaLM-E模型基于仅解码器的大语言模型，将图像和文本等机器人数据投影到语言词符空间中，并输出高级计划等文本。在使用 PaLM-E-12B 的情况下，用于将图像投影到语言嵌入空间的视觉模型是 ViT-4B Chen 等人 (2023b)。连续变量与文本输入的串联使 PaLM-E 能够完全多模态，接受各种输入，例如多传感器模态、以对象为中心的表示、场景表示和对象实体引用。

附录E培训详情

我们对 PaLI-X (Chen 等人, 2023a) 5B 和 55B 模型、PaLI (Chen 等人, 2023b) 的预训练模型进行协同微调> 3B 模型和 PaLM-E (Driess 等人, 2023) 12B 模型。对于 RT-2-PaLI-X-55B，我们使用学习率 1e-3 和批量大小 2048，并对模型进行 80K 梯度步长的协同微调，而对于 RT-2-PaLI-X-5B，我们使用相同的参数学习率和批量大小，并对模型进行 270K 梯度步长的协同微调。对于 RT-2-PaLM-E-12B，我们使用学习率 4e-4 和批量大小 512 来共同微调模型以实现 1M 梯度步长。两个模型都使用下一个词符预测目标进行训练，这对应于机器人学习中的行为克隆损失。对于表 6 中用于语言表结果的 RT-2-PaLI-3B 模型，我们使用学习率 1e-3 和批量大小 128 来共同微调模型以实现 300K 梯度步长。

附录F评估详细信息

F.1 评估场景

为了定量研究 RT-2 的新兴能力，我们研究了各种具有挑战性的语义评估场景，旨在衡量推理、符号理解和人类识别等能力。图 9 提供了这些场景子集的直观概述，表 2 中显示了用于定量评估的指令的完整列表。

F.2评估说明

表1列出了用于对不可见物体、背景和环境进行模型评估的自然语言指令。每条指令运行 1-5 次，具体取决于该评估集中的指令总数。表2列出了用于评估定量紧急评估的自然语言指令。每条指令运行 5 次。

Task Group	Tasks
Unseen Objects (Easy)	pick banana, move banana near coke can, move orange can near banana, pick oreo, move oreo near apple, move redbull can near oreo, pick pear, pick coconut water, move pear near coconut water, move pepsi can near pear
Unseen Objects (Hard)	pick cold brew can, pick large orange plate, pick chew toy, pick large tennis ball, pick bird ornament, pick fish toy, pick ginger lemon kombucha, pick egg separator, pick wrist watch, pick green sprite can, pick blue microfiber cloth, pick yellow pear, pick pretzel chip bag, pick disinfectant wipes, pick pineapple hint water, pick green cup, pick pickle snack, pick small blue plate, pick small orange rolling pin, pick octopus toy, pick catnip toy
Unseen Backgrounds (Easy)	pick green jalapeno chip bag, pick orange can, pick pepsi can, pick 7up can, pick apple, pick blue chip bag, pick orange, pick 7up can, move orange near sink, pick coke can, pick sponge, pick rxbar blueberry
Unseen Backgrounds (Hard)	pick wrist watch, pick egg separator, pick green sprite can, pick blue microfiber cloth, pick yellow pear, pick pretzel chip bag, pick disinfectant wipes, pick pineapple hint water, pick green cup, pick pickle snack, pick small blue plate, pick small orange rolling pin, pick octopus toy, pick catnip toy, pick swedish fish bag, pick large green rolling pin, pick black sunglasses
Unseen Environments (Easy)	pick coke can, pick apple, pick rxbar blueberry, move apple near coke can, move rxbar blueberry near apple, move coke can near rxbar blueberry, pick blue plastic bottle, pick sponge, pick blue chip bag, move sponge near blue plastic bottle, move blue chip bag near sponge, move blue plastic bottle near blue chip bag, move coke can near white mug, move sponge near white mug, move coke can near yellow bowl, move sponge near yellow bowl, move coke can near green cloth, move sponge near green cloth, move coke can near plate, move sponge near plate, move coke can near spoon, move sponge near spoon, move coke can near orange cup, move sponge near orange cup, pick white mug, pick yellow bowl, pick green cloth, move white mug near sponge, move yellow bowl near sponge, move green cloth near sponge, pick plate, pick spoon, pick orange cup, move plate near sponge, move spoon near sponge, move orange cup near sponge, put coke can into sink, drop coke can into sink, push coke can into sink, put sponge into sink, drop sponge into sink, push sponge into sink, put green cloth into sink, drop green cloth into sink, push green cloth into sink
Unseen Environments (Hard)	pick coke can, pick apple, pick rxbar blueberry, move apple near coke can, move rxbar blueberry near apple, move coke can near rxbar blueberry, move coke can near stapler, move apple near stapler, move coke can near keyboard, move apple near keyboard, move coke can near tissue box, move apple near tissue box, move coke can near papers, move apple near papers, move coke can near mouse, move apple near mouse, move coke can near book, move apple near book, pick marker, pick stapler, pick mouse, move marker near apple, move stapler near apple, move mouse near apple, push coke can to the left, push coke can to the right, push sponge to the left, push sponge to the right, push tissue box to the left, push tissue box to the right, point at coke can, point at sponge, point at tissue box

表格1：用于评估测试受控分布的自然语言指令沿着新物体、新环境和新背景的维度变化。对于每个类别，我们引入具有较小分布变化和较大分布变化的评估设置。这些场景的可视化如图 3 所示。

Task Group	Tasks
Symbol Understanding: Symbol 1	move coke can near X, move coke can near 3, move coke can near Y
Symbol Understanding: Symbol 2	move apple to tree, move apple to duck, move apple to apple, move apple to matching card
Symbol Understanding: Symbol 3	put coke can close to dog, push coke can on top of heart, place coke can above star
Reasoning: Math	move banana to 2, move banna near the sum of two plus one, move banana near the answer of three times two, move banana near the smallest number
Reasoning: Logos	move cup to google, move cup to android, move cup to youtube, move cup to a search engine, move cup to a phone
Reasoning: Nutrition	get me a healthy snack, pick a healthy drink, pick up a sweet drink, move the healthy snack to the healthy drink, pick up a salty snack
Reasoning: Color and Multilingual	move apple to cup with same color, move apple to cup with different color, move green chips to matching color cup, move apple to vaso verde, Bewegen Sie den Apfel in die rote Tasse, move green chips to vaso rojo, mueve la manzana al vaso verde, déplacer les frites verts dans la tasse rouge
Person Recognition: Celebrities	move coke can to taylor swift, move coke can to tom cruise, move coke can to snoop dog
Person Recognition: CelebA	move coke can to person with glasses, move coke can to the man with white hair, move coke can to the brunette lady

表2：用于定量紧急评估的自然语言指令。

附录 G失败案例示例

在图 10 中，我们提供了语言表设置中值得注意的失败案例类型的示例，其中 RT-2 模型未泛化到看不见的对象动态。在这些情况下，虽然模型能够正确地处理语言指令并移动到第一个正确的对象，但它无法控制这些对象的挑战性动态，这些对象与具有在这种环境中被看到Lynch 等人 (2022)。然后笔就会从桌子上滚下来（图10，左），而香蕉的质心远离机器人接触的地方（图10，正确的）。我们注意到，众所周知，推动动态很难预测和控制 Yu 等人 (2016)。我们假设，通过进一步扩展跨不同环境和对象的数据集，可以实现机器人与环境交互动力学的更大泛化——例如，在本例中，数据集包含类似类型的更多样化的推动动力学 Dasari 等人 (2019 ）。

此外，尽管 RT-2 在定性和定量紧急评估中在现实世界操作任务中表现出色，但我们仍然发现许多值得注意的失败案例。例如，根据当前的训练数据集组成和训练方法，RT-2 似乎在以下方面表现不佳：

•

通过特定部位（例如手柄）抓取物体
•

超出机器人数据中所见的新颖动作，例如用毛巾擦拭或使用工具
•

灵巧或精确的动作，例如折叠毛巾
•

需要多层间接的扩展推理

附录H定量实验结果

H.14.1 部分的总体性能

表3列出了我们定量的总体评估结果。我们发现，RT-2 在已见任务上的表现与基线一样甚至更好，并且在对未见物体、背景和环境的泛化方面显着优于基线。

Model	Seen Tasks	Unseen Objects		Unseen Backgrounds		Unseen Environments		Unseen Average
		Easy	Hard	Easy	Hard	Easy	Hard
R3M (Nair et al., 2022b)	45	32	14	13	9	0	2	12
VC-1 (Majumdar et al., 2023a)	63	34	10	13	3	0	0	10
RT-1 (Brohan et al., 2022)	92	31	43	71	9	26	14	32
MOO (Stone et al., 2023)	75	58	48	38	41	19	3	35
RT-2-PaLI-X-55B (ours)	91	70	62	96	48	63	35	62
RT-2-PaLM-E-12B¹¹1The original pre-training data mixture used in PaLM-E-12B (as described in Driess et al. (2023)) includes robot images for high-level VQA planning tasks that can be similar to images encountered in generalization scenarios. However, none of those training examples include low-level actions that are evaluated in this experiment. (ours)	93	84	76	75	71	36	33	62

表3： RT-2 的两个实例和基线在已见的训练任务以及未见的评估中的总体性能，用于衡量对新对象、新背景和新环境的泛化。

H.2 紧急评估，第 4.2 节

表4列出了我们所有的定量紧急评估结果。我们发现，在没有任何额外的机器人演示的情况下，RT-2 在这些新指令上的性能比 RT-1 好 2 到 3 倍。这展示了我们的方法如何允许我们在网络规模的视觉语言数据集上利用预训练的功能。

Model	Symbol Understanding				Reasoning					Person Recognition			Average
	Symbol 1	Symbol 2	Symbol 3	Average	Math	Logos	Nutrition	Color/Multilingual	Average	Celebrities	CelebA	Average
VC-1 (Majumdar et al., 2023a)	7	25	0	11	0	8	20	13	10	20	7	13	11
RT-1 (Brohan et al., 2022)	27	20	0	16	5	0	32	28	16	20	20	20	17
RT-2-PaLI-X-55B (ours)	93	60	93	82	25	52	48	58	46	53	53	53	60
RT-2-PaLM-E-12B (ours)	67	20	20	36	35	56	44	35	43	33	53	43	40

表4： RT-2 的表现和定量紧急评估的基线。

H.3 尺寸和训练消融，针对第 4.3 节

表 5 详细介绍了模型大小和训练方法的消融定量结果。在每个方面，我们都看到模型大小在性能中起着重要作用，并且协同微调优于微调，后者优于从头开始训练。

Model	Size	Training	Unseen Objects		Unseen Backgrounds		Unseen Environments		Average
			Easy	Hard	Easy	Hard	Easy	Hard
RT-2-PaLI-X	5B	from scratch	0	10	46	0	0	0	9
RT-2-PaLI-X	5B	fine-tuning	24	38	79	50	36	23	42
RT-2-PaLI-X	5B	co-fine-tuning	60	38	67	29	44	24	44
RT-2-PaLI-X	55B	fine-tuning	60	62	75	38	57	19	52
RT-2-PaLI-X	55B	co-fine-tuning	70	62	96	48	63	35	63

表5： RT-2 的消融展示了参数计数和训练策略对泛化的影响。

附录一额外的思路推理结果

我们提供了使用 RT-2-PaLM-E 完成的思想链推理的其他示例，如第 2 节中所述。 4.4，如图11。