情境感知在 3D 视觉语言推理中的重要性

Yunze Man Liang-Yan Gui Yu-Xiong Wang
University of Illinois Urbana-Champaign
{yunzem2,lgui,yxw}@illinois.edu

摘要

在 3D 空间中执行复杂的视觉语言推理任务，代表着开发家用机器人和以人为本的具身人工智能的重要里程碑。在这项工作中，我们证明了 3D 视觉语言推理中一个至关重要且独特的挑战是情境感知，它包含两个关键组成部分：(1) 自主代理根据语言提示确定其自身位置。 (2) 代理从其计算位置的角度回答开放式问题。为了应对这一挑战，我们引入了 SIG3D，一个用于 3D 视觉语言推理的端到端情境地面模型。我们将 3D 场景标记化为稀疏体素表示，并提出了一种语言地面情境估计器，随后是一个情境问答模块。在 SQA3D 和 ScanQA 数据集上的实验表明，SIG3D 在情境估计和问答方面明显优于最先进的模型（例如，情境估计准确率提高了 30% 以上）。后续分析证实了我们的架构设计选择，探索了视觉和文本标记的不同功能，并强调了情境感知在 3D 问答领域的重要性。项目页面位于 https://yunzeman.github.io/situation3d。

1 引言

人类通过与 3D 世界的互动以及多模态信息的整合（例如口头指导或指令）来高效地学习知识。同样，将语言指导引入视觉理解任务可以极大地提高模型的学习效率 [3, 42]。尽管在语言理解 [31, 7, 58, 11] 和视觉语言集成 [3, 37, 54, 61] 方面取得了相当大的进步，但现有方法在准确感知和理解决定现实世界 3D 环境方面仍然存在缺陷，这主要是由于缺乏 3D 情境推理能力。

Refer to caption — 图 1: 以前的方法执行直接的 3D 视觉语言推理，而没有对具身代理在 3D 环境中的情境进行建模。我们的方法 SIG3D 将情境描述植根于 3D 空间，然后在视觉语言融合之前，从代理的预期角度重新编码视觉符元，从而产生一个更全面、更通用的 3D 视觉语言 (VL) 表示和推理框架。 Q、K、V 分别代表查询、键和值。

与机器学习模型相比，人类将自己置身于 3D 世界，然后从他们的自我视角感知和与周围环境交互 (图 1)。这种情境感知是 2D 和 3D 视觉理解之间的关键区别，也是在更复杂、更真实的场景中实现对空间概念无缝理解的关键。许多现有的方法认识到 3D 中缺乏位置理解，并提出了新的基准和联合优化函数 [44]，或位置嵌入方法 [25] 来提高整体推理性能。

然而，缺乏显式情境建模和基于情境的 3D 推理方法限制了他们获得可泛化且一致的 3D 视觉语言 (VL) 表示。如图 2 所示，最先进方法 [44] (蓝色) 的情境预测在数据集 [13] 中几乎所有场景中都与真实向量 (红色) 有很大差异。此外，我们在第 3 节中的初步研究还表明，情境理解尽管在理解问题上下文方面非常重要，但在现有方法的最终问答 (QA) 性能中只起着很小的作用。

在这项工作中，我们提出了 SIG3D，这是一种新颖的方法，旨在 精确地从文本描述中建模和估计具身代理的自我位置和方向，然后从代理的自我中心视角执行多模态 QA 任务，如图 1 所示。具体来说，我们利用大规模预训练的语言和视觉编码器来处理输入文本和 3D 数据，并将符元与注意力模块融合以预测情境向量。之前直接预测自我情境的尝试受到 3D 环境中固有的广阔搜索空间的阻碍。为了解决这个问题，我们将任务重新概念化为 基于锚点的分类，其中视觉符元被视为锚点，并且为每个视觉符元同时回归位置可能性和一组旋转参数。在获得情景估计后，我们提出了一种情景对齐和情景引导的符元重新编码策略，以从代理的预期视角感知环境。这些策略用更准确的情景意识增强了视觉符元，以用于后续的问答任务。

在两个具有挑战性的 3D 视觉问答 (VQA) 数据集 [44, 5] 上进行的实验表明，我们模型的情景估计和问答任务有了显著改进。特别是，我们提高了情景估计的准确性，提高幅度超过 30%，而随后的问答性能提高了 3%。进一步的定性和定量分析验证了我们的设计选择，并突出了情景意识在 3D 推理任务中的重要性。

总之，我们的论文有以下贡献：(1) 我们认识到，情景意识的缺乏是现有研究中的一个重大疏忽。为了解决这个问题，我们引入了 SIG3D，这是一种情景接地的 3D VL 推理架构，专门设计来填补这一空白。 (2) 我们提出了一种基于锚点的方案来进行情景估计，该方案有效地缩小了 3D 环境中广泛的搜索空间，以便用文本描述精确地接地 3D 位置和方向。此外，我们研究了情景对齐和视觉重新编码机制，以利用情景意识来提高问答性能。 (3) 我们的模型在两个具有挑战性的数据集 SQA3D 和 ScanQA 上表现出了优异的性能，在情景估计和问答指标方面都超过了现有技术水平。消融研究突出了情景引导编码的重要性，揭示了它对一般问答任务的有益影响。

2 相关工作

视觉语言模型 (VLMs)。早期的 Transformer 驱动的 [59] 文本和视觉编码器 [31, 17] 推动了最近视觉语言学习的巨大进步。文本图像对比模型 [54, 30] 提出通过大规模预训练来对齐两种模态的特征空间，为从广义开放词汇视觉感知 [34, 21, 36] 到文本到图像生成 [56] 的众多下游任务提供动力。与此同时，一些工作在单独的模态上使用文本和视觉编码器，然后进行特征融合 [18, 33] 以进行多模态推理任务。随着大型语言模型 (LLM) 的出现 [7, 58, 69]，视觉语言模型 (VLM) 在多模态学习架构中使用 LLM 作为构建块，取得了巨大的进步。具体来说，最近的工作将视觉嵌入直接投影到语言空间的符元中，作为 LLM 的输入 [40, 47, 70]，或使用潜在瓶颈结构进行跨模态视觉解码 [3, 25, 37, 38]，或将 LLM 层作为各种视觉任务的编码器块 [49]。

在视觉问答 (VQA) 领域 [4, 73]，最近的工作将研究前沿推进到视频理解 [40, 29, 28, 62, 14]、基于知识的理解 [46, 57, 20, 23, 41, 63] 和常识推理 [68]。尽管在二维图像解释方面表现出色，但大多数现有方法缺乏泛化到三维场景的能力。相反，我们的工作研究了视觉信息的表示及其与语言嵌入在三维域中的融合，目标是三维情境引导的视觉语言解释。

将语言基础融入三维空间。与二维图像相比，空间关系、交互式探索和拓扑分析等仅存在于三维世界中的知识为开发具有更强常识推理能力的语言模型提供了额外的挑战和机遇，这些语言模型建立在现实世界的三维场景之上。在这个方向上，早期工作试图使用自然语言描述来定位孤立的物体 [9, 1] 或更复杂场景中的物体 [8, 2, 27, 19]。最近，随着更多收集的三维视觉语言基准的出现，一些工作开始探索语言引导的三维视觉解释和推理，涉及各种数据集，包括三维场景字幕 [10]、开放词汇分割 [51, 16, 32] 和问答 [5, 24, 15, 65, 74, 26]。

LLM 的成功也引起了人们将其用于三维视觉语言推理以进行任务分解 [64]、数据生成和多模态特征融合 [25]。受 ScanQA [5] 的启发，SQA3D [44] 通过开发一个情境问答基准并提出该基准上的第一个联合学习基线，迈出了探索具有挑战性的三维情境推理问题的第一步。我们的工作强调了情境意识在三维视觉语言学习范式中的独特性和重要性，这导致了显著更好的三维情境基础和问答性能。

3 情境推理的试点研究

尽管强调了情境理解和推理的重要性，但现有方法 [44] 在提供有效的情境估计方面存在不足，如图 2 所示。本节深入探讨了一项试点研究，该研究考察了情境理解对下游推理任务的影响。 SQA3D 基线 [44] 整合了情境描述，并在直接回归任务中使用地面实况 (GT) 情境向量进行监督。我们研究了该基线的三个变体，以评估情境理解的影响。在第一个变体中，我们从模型中删除情境描述和监督，方法是传入空的情境符元。在另一个变体中，我们破坏情境监督，方法是在 GT 向量中引入非常大的高斯噪声，以有效地将其随机化。最后，我们尝试将 GT 情境向量编码到输入中，并使用可学习的多层感知器 (MLP) 层来形成 GT 情境符元。

图 3 展示了这项研究的结果，揭示了这些变体在性能方面变化微乎其微。值得注意的是，破坏 GT 情境信息或直接将其整合进来，只会导致 QA 结果发生微小的变化。从输入中完全省略情境描述会导致精度略微下降 2%。但是，在没有此信息的情况下，该模型在确定正确答案时会采用随机猜测的方式，因为所有响应都取决于情境。来自图 2 和 3 的发现共同表明，现有方法在情境估计和在后续推理任务中应用情境理解方面存在缺陷。这些尚未解决的挑战促使我们开发了我们提出的方法。

4 方法

我们 SIG3D 方法的概述如图 4所示。我们的方法从一组代表 3D 场景的点开始，这些点伴随着一个场景描述和一个定义问题整体上下文的问题。我们将它们分解成单独的符元嵌入 (第 4.1节)，并将文本描述与包含位置和方向的向量接地到 3D 场景中。由于 3D 搜索空间的庞大和复杂性，我们发现直接的单向量估计具有挑战性，因此我们提出了一种基于锚点的场景估计策略 (第 4.2节)。随后，我们从场景向量的角度重新编码视觉符元，增强了后续推理任务 (第 4.3节) 的场景感知能力。最终的视觉和文本符元由 Transformer 解码器融合，以生成最终的响应。

4.1 视觉和文本符元化

利用输入场景点云和文本提示，我们的目标是生成三种不同类型的符元：3D 视觉符元 $z^{\mathrm{3D}}\in\mathbb{R}^{N_{v}\times C_{v}}$ 、场景符元 $z^{\mathrm{S}}\in\mathbb{R}^{N_{s}\times C_{s}}$ 和问题符元 $z^{\mathrm{Q}}\in\mathbb{R}^{N_{q}\times C_{q}}$ 。每种类型的符元都具有两个主要组成部分： $N$ ，代表符元的数量； $C$ ，封装特征嵌入。为了对场景输入和问题进行符元化并捕获特征嵌入，我们遵循先前方法 [5, 44]，采用了一个共享的文本符元化器 $\mathrm{E}^{\mathrm{TXT}}$ 。我们假设场景和问题提示在输入数据中是分开的。如果没有，LLM [7] 可以用于解析文本输入，而不会改变句子的语义含义。然而，在适用于 3D VL 推理任务的标准 3D 视觉符元化方法 $\mathrm{E}^{\mathrm{3D}}$ 上缺乏共识，这促使我们在以下段落中进行更详细的探索。

视觉符元化。给定一个输入点云 $\mathbf{p}\in\mathbb{R}^{N\times 3}$ ，大多数先前方法 [5, 44, 15] 采用 VoteNet [53] 检测器来获取对象级符元 $z^{\mathrm{3D}}\in\mathbb{R}^{N_{\mathrm{obj}}\times C_{\mathrm{obj}}}$ 作为视觉表示，其中 $N_{\mathrm{obj}}$ 是对象提议的数量， $C_{\mathrm{obj}}$ 是对象级特征嵌入。但是，我们指出了这种抽象策略的几个问题：(1) 基于检测的符元化方法往往会忽略场景中的非对象区域，而这些区域在某些推理场景中可能是必不可少的 (e.g.，地上的地毯、天花板、墙壁)。 (2) 在对象级抽象之后，视觉表示会丢失场景的高级信息 (e.g.，客厅的形状、厨房的角落)。 (3) 从头开始训练的监督检测器只能识别训练集中的对象 (e.g.，ScanNet [13] 只有 20 个类别)，这意味着该方法不具备零样本能力来推理关于现实世界场景中不可避免的常见新颖未见对象。

鉴于此，我们采用了来自 OpenScene [51] 的预训练的开放词汇量基于体素的符元化方法。场景首先被离散化为规则的小 3D 体素，并输入到视觉编码器中进行特征提取：

\displaystyle z^{\mathrm{3D}}=\mathrm{E}^{\mathrm{3D}}(\mathcal{V}(\mathbf{p})),

(1)

其中 $\mathcal{V}$ 表示体素化过程， $\mathrm{E}^{\mathrm{3D}}$ 是 Minkowski 稀疏 3D 卷积网络 [12]。稀疏网络通过从 CLIP [54] 渲染的多视图 2D 图像的嵌入进行蒸馏预训练，从而得到具有更好语言对齐和 3D 感知的特征图。我们从编码器网络中获取上采样的瓶颈层特征嵌入，并计算 $z$ 轴（垂直）上的平均值，将体素投影到 $x$ - $y$ 平面，并将结果 2D 特征图中的特征网格作为我们的 $N_{v}$ 视觉符元。我们发现这种鸟瞰投影可以得到更紧凑的表示，并提高最终性能。

4.2 情境估计

给定 3D 视觉符元 $z^{\mathrm{3D}}$ 和情境符元 $z^{\mathrm{S}}$ ，我们的目标是估计情境描述所指的情境向量 $\vec{s}$ ，该向量包含由坐标 $(x,y,z)$ 表示的位置分量 $s^{\mathrm{pos}}$ 和由欧拉角 ${(\theta,\psi,\phi)}$ 表示的旋转分量 $s^{\mathrm{rot}}$ ，其中俯仰角 $\psi$ 始终定义为 0，这意味着情境向量被定义为平行于地面平面。先前的研究 [44] 利用一个 Transformer 块来计算视觉和语言符元之间的交叉注意力特征，并直接从平均注意力图中回归最终情境向量。我们发现这种策略会产生非常不准确的估计，如图 2 所示，这是由于整个 3D 体积中的搜索空间很大。受最近 3D 物体检测方法 [66, 71, 45] 的启发，我们通过将定位问题转化为分类问题来缩小搜索空间。

位置嵌入和特征融合。在体素化和 3D 编码过程之后，每个 3D 符元都与一个 3D 位置 $(x,y,z)$ 相关联，该位置代表其体素的中心。我们首先通过使用一个两层感知器为每个 $N_{v}$ 可视符元生成可学习的位置嵌入 (PE) 来为模型提供位置信息，并将可学习的位置嵌入添加到符元特征 $z^{\mathrm{3D}}$ 中。我们使用情境解释器 [55] 来提取情境信息，并要求更新后的可视符元关注这些情境符元，并使用多个 Transformer 层生成联合特征嵌入。

基于锚点的状况估计。我们将特征融合模块的每个输出符元视为一个锚点，并使用它来预测位置可能性 $p\in[0,1]$ 和旋转估计。由于每个符元都与一个 3D 位置 $(x,y,z)$ 相关联，因此位置可能性 $p$ 指示情境向量位于此符元（体素）中心的可能性。我们使用高斯核定义了此分类任务的软真值，这意味着符元越靠近实际情境向量 $s^{\mathrm{pos}}$ ，该符元将被赋予更高的真值概率 $p$ 。为了抵消稀疏的监督信号并增加向量位置周围的正监督，我们在 CenterPoint [66] 中采用了峰值扩大技术，其中高斯核的大小增加（意味着 $\sigma$ 增加）以允许向量位置周围有更密集的监督。此外，我们探索了不同的旋转表示，发现与四元数和 $(\sin\theta,\cos\theta)$ 表示相比，[72] 提出的 6D 向量取得了最佳性能。因此，我们采用了一个具有 MLP 层的情境估计头，为每个符元输出一个 7 维向量，其中第一个通道代表位置可能性，另外六个通道代表 6D 旋转矩阵。我们将具有峰值位置可能性的符元的中心作为我们的估计 $s^{\mathrm{pos}}$ ，并将它的对应 6D 旋转向量转换为我们的估计 $s^{\mathrm{rot}}$ 。该估计可以等效地表示为旋转矩阵 $R$ 和平移矩阵 $T$ 。关于架构和设计选择的更多讨论，请参见第 5.3 节。

4.3 情境引导的视觉编码

在获得情境估计后，我们受到人类认知过程的启发，研究了一种更有效的方法来增强下游响应的生成。直观地说，人类通常通过首先解释自己在空间中的情况，然后从适当的视角辨别周围环境来理解他们周围的 3D 环境。我们的模型旨在模拟这种自然策略。使用情境向量 $\vec{s}$ ，我们通过将原点重新定位到 $s^{\mathrm{pos}}$ ，并根据 $s^{\mathrm{rot}}$ 重新调整轴线来调整坐标系，使得新的 y 轴与指示的方向对齐。我们保持 $z$ 轴垂直定向，并将情境向量投影到 $x$ - $y$ 平面。这与数据集 [44] 的格式一致，其中假设情境向量平行于地面平面。随后，我们为每个 $N_{v}$ 视觉符元计算一个新的情境引导 PE，类似于第 4.2 节中概述的可学习 3D PE。它们使模型能够从当前情境的视角理解位置之间的相互关系。这些情境嵌入被添加到情境估计模块的输出嵌入中，该模块包含用于视觉符元的自注意力层，随后是连接视觉和情境信息的交叉注意力层。这种结构允许在情境和问题语境的影响下对视觉符元进行重新编码，引导模型对与情境相关和与问题相关的视觉符元分配更高的权重。输出，称为情境引导视觉符元，体现了这种重新语境化的理解。

4.4 问答头

我们遵循现有方法 [25]，使用一个大型视觉语言解码器来融合最终的视觉和文本符元，并生成对输入问题的文本响应。我们探索了自回归响应生成和基于分类的答案预测 [44, 5]。对于分类，我们根据 [5] 预测训练集中 $n_{a}$ 答案候选者的向量 $v^{\mathrm{ans}}\in\mathbb{R}^{n_{a}}$ 。

Model	Question Breakdown						Overall
Model	What	Is	How	Can	Which	Other	Overall
GPT-3 [7]	39.7	46.0	40.5	45.6	36.1	38.4	41.0
ClipBERT [35]	30.2	60.1	38.7	63.3	42.5	42.7	43.3
MCAN [67]	28.9	59.7	44.1	68.3	40.7	40.5	43.4
ScanQA [5]	28.6	65.0	47.3	66.3	43.9	42.9	45.3
SQA3D [44]	33.5	66.1	42.4	69.5	43.0	46.4	47.2
Multi-CLIP [15]	-	-	-	-	-	-	48.0
LM4Vision [49]	34.3	67.1	48.2	68.3	48.9	45.6	48.1
3D-LLM [25]	36.5	65.6	47.2	68.8	48.0	46.3	48.1
3D-VisTA [74]	34.8	63.3	45.4	69.8	47.2	48.1	48.5
SIG3D (Ours)	35.6	67.2	48.5	71.4	49.1	45.8	52.6

表 1：我们提出的 SIG3D 在 SQA3D 基准测试 [44] 上取得了最先进的性能。我们在“Is”、“How”和“Can”类型的问答中表现最好，以及使用 EM@1 指标的平均准确率。结果在测试集上报告。

Model	Localization		Orientation
Model	Acc@0.5m	Acc@1.0m	Acc@15°	Acc@30°
Random	7.2	25.8	8.4	16.9
SQA3D [44]	9.5	29.6	8.7	16.5
SQA3D (separate)	10.3	31.4	17.1	22.8
3D-VisTA [74]	11.7	34.5	16.9	24.2
SIG3D (Ours)	27.4	59.1	28.7	42.5

表 2: 我们提出的方法 SIG3D 在情境估计任务中明显优于先前的方法 [44]。 “Acc@0.5m” 代表具有 0.5m 阈值的定位精度。 “Acc@15°” 代表具有 15° 阈值的方位精度。单独表示禁用其他任务，让模型只专注于情境估计。

5 3D VQA 任务中的分析

我们在两个具有挑战性的基准测试中评估了 SIG3D 的 3D VL 推理，涵盖了以视觉为导向的情境估计和以文本为中心的 QA 任务。我们对研究中采用的实施策略、使用的数据集以及应用的指标进行了详细的检验。为了全面了解，实施、训练细节和其他补充信息可在补充材料中获得。

数据集。我们在 SQA3D [44] 和 ScanQA [5] 上评估了我们的方法，这两个都是具有挑战性的室内 3D VQA 数据集。两个数据集都源自 ScanNet 数据集 [13]，作为其 3D 场景的基础来源。 SQA3D 包含 33K 多个 3D VQA 任务的问答对，以及 26K 多个独特的情境描述。该数据集中的每个条目都包含一个 3D 场景点云、一个情境描述、一个问题和相关注释。 ScanQA 包含 41K 多个问答对，没有情境描述和情境注释。我们用它来展示我们的方法在通用 QA 任务上的泛化能力。我们使用这些数据集提供的拆分。

评估指标。对于 SQA3D，为了与基线方法 [44, 49, 74] 进行比较，我们使用了一个浅层 Transformer 解码器任务头来执行答案分类任务，并使用精确匹配 (EM@1) 来评估性能，这相当于 Top-1 答案准确率。我们还根据问题句子的第一个词，在“What”、“Is”、“How”、“Can”、“Which”和“Other”等问题类型的细分上提供了 EM@1。此外，我们使用定位精度和方向精度来评估情景估计性能。在这两个任务中，我们使用不同距离或角度阈值内的准确率作为我们的指标。例如，“Acc@0.5m” 表示当正阈值设置为 0.5 米时，位置估计的准确率。对于 ScanQA，我们使用大型 Transformer 解码器 [25] 进行自回归答案生成，并使用 BLEU [50]、ROUGE [39]、METEOR [6] 和 CIDEr [60] 指标进行评估。

Model	BLEU-1	BLEU-4	ROUGE	METEOR	CIDEr
BLIP2 [38]	29.7	5.9	26.6	11.3	45.7
Flamingo [3]	25.6	8.4	31.1	11.3	55.0
VN+MCAN [67]	28.0	6.2	29.8	11.4	54.7
SR+MCAN [67]	26.9	7.9	30.0	11.5	55.4
ScanQA [5]	30.2	10.1	33.3	13.1	64.9
3D-LLM [25]	39.3	12.0	35.7	14.5	69.4
SIG3D	39.5	12.4	35.9	13.4	68.8

表 3: SIG3D 在 ScanQA 数据集 [5] 上的性能与大规模文本-3D 预训练的最新技术相当。 VN 和 SR 分别代表 VoteNet 和 ScanRefer。 3D-LLM [74] 利用预训练的 2D VL 基础模型和 LLM 模型 [38, 3, 7, 37]，并在对 ScanQA 进行微调之前，在大规模的 3D 文本数据集上进行预训练。

5.1 情境问答

基线。我们的研究涉及对 SQA3D 数据集上的一系列代表性基线的比较分析。特别地，我们针对 GPT-3 [7]、ClipBERT [35] 和 MCAN [67] 进行评估，这些模型分别专注于语言、二维视频和二维图像 QA，如先前工作 [44] 中所述。对于 GPT-3，我们遵循 SQA3D [44]，使用 Scan2Cap [10] 将视觉输入转换为标题，以便 LLM 处理。 ScanQA [5] 代表了一个忽略情景输入的 3D QA 基线。 SQA3D [44] 和 Multi-CLIP [15] 都采用情景描述和标注进行直接回归任务。 LM4Vision [49] 利用 LLM 作为视觉和文本编码器。此外，3D-VisTA [74] 在其大规模 3D 场景文本数据集 ScanScribe 上进行了预训练，然后在该数据集上进行微调。

（一）视觉符元数量

	Acc@1.0m	Acc@30°	EM@1
128	48.9	38.2	49.2
256	59.1	42.5	50.9
512	57.8	42.1	50.7

(b) 体素大小 (以米为单位)

	Acc@1.0m	EM@1
0.01	54.1	49.5
0.02	59.1	50.9
0.05	47.3	48.8

	Acc@30°	EM@1
Quaternion	31.4	50.0
6D vector	42.5	50.9
$\sin\theta,\cos\theta$	42.6	50.6

表 4: 消融研究验证了我们各种设计选择提高了性能。 “Acc@1.0m”、“Acc@30°” 和 “EM@1” 分别是定位估计、方向估计和 QA 任务的准确率 (%)。我们的设置以灰色标记。

3D Vision Encoder
	Acc@1.0m	Acc@30°	EM@1
Text-only (no vision input)	-	-	47.5
VoteNet [53]	37.4	28.2	49.1
3DETR [48]	47.2	29.1	49.4
OpenScene - OpenSeg [51]	57.5	41.6	50.2
OpenScene - LSeg [51]	59.1	42.5	50.9
Language Tokenizer / Encoder
GloVe + LSTM [22, 52]	44.3	30.9	48.7
SBERT - MiniLM [55]	56.1	38.6	49.4
SBERT - MPNet [55]	55.9	40.6	49.7
SBERT - MPNet (finetune)	59.1	42.5	50.9

表 5: SIG3D 的性能随着更强大的视觉和语言编码器的改进而提高。我们发现开放词汇点编码器和基于 MPNet 的句子 BERT (SBERT) 导致了最佳性能。 “Acc@1.0m” 和 “Acc@30°” 分别代表情境估计任务中的定位和方向精度。 “EM@1” 展示了 QA 任务中的精确匹配指标。

情境估计。如表 2 所示，我们的工作在定位和方向估计任务方面均显著优于现有技术 [44, 74]。对于 3D-VisTA [74]，我们使用预训练模型并根据 [44] 使用 SQA3D 数据集微调一个新的情境头部。我们还报告了一个随机基线，其中我们从均匀分布中随机采样位置和方向作为下限性能。请注意，原始 SQA3D 仅略好于随机基线，这意味着它没有获得任何情境感知，尽管它具有情境估计损失。禁用 QA 任务并要求模型专门关注情境估计任务会导致性能略有提高。我们的方法，利用基于锚点的定位可能性估计，能够更好地理解 3D 情境关系。我们的方法也优于 3D-VisTA，后者是在大规模 3D 文本数据集上预训练的，这表明仅靠大型预训练不足以解决情境感知问题。请注意，我们没有包含 [44] 中报告的随机基线性能，因为每个值都是通过生成三个随机值并取最接近的一个值到真实值来获得的，因此它不能反映真实的“随机”基线。

情境问答。如表 1 所示，SIG3D 在大多数问题分解类别和整体准确率方面均优于先前方法。我们这项工作在没有进行大规模预训练的情况下（与 3D-VisTA 相比）以及不使用 LLM（与 GPT-3 相比）的情况下取得了领先的结果，表明其在情境感知方面的优越性。请注意，LLM 基线 GPT-3 在“What”类别中取得了最佳性能，这表明更强大的语言编码器在解释复杂问题方面具有潜力。

5.2 ScanQA 上的通用问答

基线。我们将与基于 2D 图像 VQA 的MCAN基线 [67]、ScanQA [5]、3D-LLM [25]（利用大规模预训练的 2D VLM 和 LLM 作为骨干模型）以及 3D-VisTA [74]（在他们提出的 3D 文本大规模数据集上进行预训练）进行比较。

问答。如表 3 所示，尽管 ScanQA 中的问题在回答时并不明确地要求情境理解，但 SIG3D 在没有大规模 3D 文本预训练和强大的 2D VLM 和 LLM 骨干模型的情况下，与最先进的方法取得了相当的结果。我们在 SQA3D [44] 上进行的预训练导致了 BLEU-1、BLEU-4 和 ROUGE 指标的更高性能，这表明其在通用 3D QA 场景中的泛化能力。

5.3 消融研究和分析

视觉和语言编码器。我们在表 5 中研究了不同视觉和文本标记器的影响。可以观察到，开放词汇视觉编码器（OpenScene）在所有指标上均优于基于检测的编码器（如 VoteNet 和 3DETR）。 OpenScene 的优异性能归因于 3D 检测器的局限性，这些检测器通常在有限的对象类别集上进行训练，这使得它们在识别文本提示中提到的新对象方面效率较低。关于语言编码器，我们的发现表明，更强的骨干网络与更好的性能相关联，这主要归因于其改进的解释复杂文本输入的能力。这表明将 LLM 与我们的方法集成在一起，有可能进一步提高性能，这是我们将在未来研究中探索的一个方向。

How to achieve better situation estimation
	Acc@1.0m	Acc@30°	EM@1
Baseline (joint optimization)	29.5	23.1	47.7
+ 3D PE	38.8	23.6	47.8
+ 6D Representation	38.5	27.4	47.7
+ Anchor-based Estimation	58.8	41.9	48.2
How to utilize situation estimation for better QA
+ 3D Situational PE	58.9	41.8	50.0
+ Visual Token Re-encoding	59.1	42.5	50.9
Oracle Model (Ground Truth Situation Information)
Situation as direct input	100	100	47.7
Situation as intermediate input	100	100	53.9

表 6: 消融研究验证了我们提出的模块可以带来更好的情况估计和更好的 QA 性能。

态势感知。在表 6 中，我们验证了态势感知在 3D VL 任务中的关键作用。首先，我们表明 3D PE、6D 旋转估计和基于锚点的定位估计都带来了更好的位置和方向估计性能。我们进一步确定，态势 PE 和视觉符元重新编码模块可以更好地利用预测的态势向量来进行 QA 任务。此外，我们在假设能够访问地面真实态势向量作为输入的情况下设计了两个预言模型。这些模型的结果揭示了一个重要的见解：当态势信息直接融入输入视觉嵌入中时，模型无法有效地解释态势信息。这强调了我们提出的中间表示和编码机制的必要性，证实了其在实现最佳 3D VL 任务性能中的重要性。

架构设计。我们在表 4 中探讨了模型的不同架构设计选择。我们发现，从视觉特征嵌入中采样的视觉符元数量会影响情况估计和 QA 任务的性能。采样更少的视觉符元会增加错过重要区域的风险，而采样更多也不会带来更好的性能。我们研究了体素的大小，发现 0.02m 是最有效的选择，因为 OpenScene [51] 主干是在相同体素大小的情况下预先训练的。我们还发现 $(\sin\theta,\cos\theta)$ 和 6D 矢量表示在旋转估计任务中比四元数表现好得多。这与 [72] 中报道的发现一致。

5.4 定性分析

最后，我们在图 5 中展示了 SIG3D 的一些定性结果。我们分别以红色和蓝色显示了地面实况和估计的场景向量，以及它们在相应 3D 场景中的位置。我们还使用红色叉号或绿色勾号打印答案，指示正确性。显然，我们的方法在场景估计任务中表现得明显更好，在位置和方向方面都产生了非常接近地面实况的向量。更好的场景感知还有助于复杂的具身导航和常识问答活动。这进一步证明了我们的方法在室内机器人或对话代理的开发中具有巨大潜力。

补充材料。补充部分提供了广泛的分析，包括对场景重新编码前后的 3D 可视化符元激活变化的详细检查。此外，它还包括正负样本的综合集合，对失败案例分析的深入研究，以及对局限性和未来工作的前瞻性讨论。

6 结论

在本文中，我们介绍了 SIG3D，一个用于 3D 推理任务的场景感知视觉语言模型。我们建议将 3D 场景表示为特征符元，将符元作为锚点从文本描述中估计场景向量，并使用估计的场景作为指导来对齐和重新编码视觉符元，以增强用于推理任务的特征。我们观察到在情境估计和问答任务上都取得了持续且显著的性能提升。

致谢。这项工作部分得到了NSF Grant 2106825、NIFA Award 2020-67021-32799、Jump ARCHES 捐赠以及IBM-Illinois Discovery Accelerator Institute的支持。这项工作使用了NCSA Delta的NVIDIA GPU，通过ACCESS计划分配的CIS220014、CIS230012和CIS230013。

参考文献

Achlioptas et al. [2019] Panos Achlioptas, Judy Fan, Robert Hawkins, Noah Goodman, and Leonidas J Guibas. ShapeGlot: Learning language for shape differentiation. In ICCV, 2019.
Achlioptas et al. [2020] Panos Achlioptas, Ahmed Abdelreheem, Fei Xia, Mohamed Elhoseiny, and Leonidas Guibas. ReferIt3D: Neural listeners for fine-grained 3D object identification in real-world scenes. In ECCV, 2020.
Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: A visual language model for few-shot learning. In NeurIPS, 2022.
Antol et al. [2015] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. VQA: Visual question answering. In ICCV, 2015.
Azuma et al. [2022] Daichi Azuma, Taiki Miyanishi, Shuhei Kurita, and Motoaki Kawanabe. ScanQA: 3D question answering for spatial scene understanding. In CVPR, 2022.
Banerjee and Lavie [2005] Satanjeev Banerjee and Alon Lavie. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005.
Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In NeurIPS, 2020.
Chen et al. [2020] Dave Zhenyu Chen, Angel X Chang, and Matthias Nießner. ScanRefer: 3D object localization in RGB-D scans using natural language. In ECCV, 2020.
Chen et al. [2019] Kevin Chen, Christopher B Choy, Manolis Savva, Angel X Chang, Thomas Funkhouser, and Silvio Savarese. Text2shape: Generating shapes from natural language by learning joint embeddings. In ACCV, 2019.
Chen et al. [2021] Zhenyu Chen, Ali Gholami, Matthias Nießner, and Angel X Chang. Scan2Cap: Context-aware dense captioning in RGB-D scans. In CVPR, 2021.
Chowdhery et al. [2022] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. PaLM: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311, 2022.
Choy et al. [2019] Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4D spatio-temporal convNets: Minkowski convolutional neural networks. In CVPR, 2019.
Dai et al. [2017] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3D reconstructions of indoor scenes. In CVPR, 2017.
Datta et al. [2022] Samyak Datta, Sameer Dharur, Vincent Cartillier, Ruta Desai, Mukul Khanna, Dhruv Batra, and Devi Parikh. Episodic memory question answering. In CVPR, 2022.
Delitzas et al. [2023] Alexandros Delitzas, Maria Parelli, Nikolas Hars, Georgios Vlassis, Sotirios Anagnostidis, Gregor Bachmann, and Thomas Hofmann. Multi-CLIP: Contrastive vision-language pre-training for question answering tasks in 3D scenes. In BMVC, 2023.
Ding et al. [2023] Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, and Xiaojuan Qi. PLA: Language-driven open-vocabulary 3D scene understanding. In CVPR, 2023.
Dosovitskiy et al. [2021] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.
Dou et al. [2022] Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, and Michael Zeng. An empirical study of training end-to-end vision-and-language transformers. In CVPR, 2022.
Feng et al. [2021] Mingtao Feng, Zhen Li, Qi Li, Liang Zhang, XiangDong Zhang, Guangming Zhu, Hui Zhang, Yaonan Wang, and Ajmal Mian. Free-form description guided 3D visual graph network for object grounding in point cloud. In ICCV, 2021.
Gardères et al. [2020] François Gardères, Maryam Ziaeefard, Baptiste Abeloos, and Freddy Lecue. ConceptBERT: Concept-aware representation for visual question answering. In EMNLP, 2020.
Ghiasi et al. [2022] Golnaz Ghiasi, Xiuye Gu, Yin Cui, and Tsung-Yi Lin. Scaling open-vocabulary image segmentation with image-level labels. In ECCV, 2022.
Graves and Graves [2012] Alex Graves and Alex Graves. Long short-term memory. Supervised Sequence Labelling with Recurrent Neural Networks, pages 37–45, 2012.
Gui et al. [2022] Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk, and Jianfeng Gao. KAT: A knowledge augmented transformer for vision-and-language. In NAACL, 2022.
Hong et al. [2023a] Yining Hong, Chunru Lin, Yilun Du, Zhenfang Chen, Joshua B Tenenbaum, and Chuang Gan. 3D concept learning and reasoning from multi-View images. In CVPR, 2023a.
Hong et al. [2023b] Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, and Chuang Gan. 3D-LLM: Injecting the 3D world into large language models. In NeurIPS, 2023b.
Huang et al. [2024] Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, and Siyuan Huang. An embodied generalist agent in 3D world. In ICML, 2024.
Huang et al. [2021] Pin-Hao Huang, Han-Hung Lee, Hwann-Tzong Chen, and Tyng-Luh Liu. Text-guided graph neural networks for referring 3D instance segmentation. In AAAI, 2021.
Jia et al. [2020] Baoxiong Jia, Yixin Chen, Siyuan Huang, Yixin Zhu, and Song-Chun Zhu. LEMMA: A multi-view dataset for learning multi-agent multi-task activities. In ECCV, 2020.
Jia et al. [2022] Baoxiong Jia, Ting Lei, Song-Chun Zhu, and Siyuan Huang. Egotaskqa: Understanding human tasks in egocentric videos. In NeurIPS, 2022.
Jia et al. [2021] Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In ICML, 2021.
Kenton and Toutanova [2019] Jacob Devlin Ming-Wei Chang Kenton and Lee Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.
Kerr et al. [2023] Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, and Matthew Tancik. LERF: Language embedded radiance fields. In ICCV, 2023.
Kim et al. [2021] Wonjae Kim, Bokyung Son, and Ildoo Kim. ViLT: Vision-and-language transformer without convolution or region supervision. In ICML, 2021.
Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, and Ross B. Girshick. Segment anything. In ICCV, 2023.
Lei et al. [2021] Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L Berg, Mohit Bansal, and Jingjing Liu. Less is more: Clipbert for video-and-language learning via sparse sampling. In CVPR, 2021.
Li et al. [2022a] Boyi Li, Kilian Q Weinberger, Serge Belongie, Vladlen Koltun, and Rene Ranftl. Language-driven semantic segmentation. In ICLR, 2022a.
Li et al. [2022b] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML, 2022b.
Li et al. [2023] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML, 2023.
Lin [2004] Chin-Yew Lin. ROUGE: A package for automatic evaluation of summaries. In ACL, 2004.
Lin et al. [2023a] Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, and Shih-Fu Chang. Towards fast adaptation of pretrained contrastive models for multi-channel video-language retrieval. In CVPR, 2023a.
Lin et al. [2022] Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, and Lu Yuan. REVIVE: Regional visual representation matters in knowledge-based visual question answering. In NeurIPS, 2022.
Lin et al. [2023b] Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, and Deva Ramanan. Multimodality helps unimodality: Cross-modal few-shot learning with multimodal models. In CVPR, 2023b.
Loshchilov and Hutter [2017] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
Ma et al. [2023] Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, and Siyuan Huang. SQA3D: Situated question answering in 3D scenes. In ICLR, 2023.
Man et al. [2023] Yunze Man, Liang-Yan Gui, and Yu-Xiong Wang. BEV-guided multi-modality fusion for driving perception. In CVPR, 2023.
Marino et al. [2019] Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. OK-VQA: A visual question answering benchmark requiring external knowledge. In CVPR, 2019.
Merullo et al. [2023] Jack Merullo, Louis Castricato, Carsten Eickhoff, and Ellie Pavlick. Linearly mapping from image to text space. ICLR, 2023.
Misra et al. [2021] Ishan Misra, Rohit Girdhar, and Armand Joulin. An end-to-end transformer model for 3D object detection. In ICCV, 2021.
Pang et al. [2024] Ziqi Pang, Ziyang Xie, Yunze Man, and Yu-Xiong Wang. Frozen transformers in language models are effective visual encoder layers. In ICLR, 2024.
Papineni et al. [2002] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: A method for automatic evaluation of machine translation. In ACL, 2002.
Peng et al. [2023] Songyou Peng, Kyle Genova, Chiyu ”Max” Jiang, Andrea Tagliasacchi, Marc Pollefeys, and Thomas Funkhouser. OpenScene: 3D scene understanding with open vocabularies. In CVPR, 2023.
Pennington et al. [2014] Jeffrey Pennington, Richard Socher, and Christopher D Manning. Glove: Global vectors for word representation. In EMNLP, 2014.
Qi et al. [2019] Charles R Qi, Or Litany, Kaiming He, and Leonidas J Guibas. Deep hough voting for 3D object detection in point clouds. In ICCV, 2019.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
Reimers and Gurevych [2019] Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence embeddings using siamese BERT-networks. In EMNLP, 2019.
Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
Schwenk et al. [2022] Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, and Roozbeh Mottaghi. A-OKVQA: A benchmark for visual question answering using world knowledge. In ECCV, 2022.
Touvron et al. [2023] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. NeurIPS, 2017.
Vedantam et al. [2015] Ramakrishna Vedantam, C Lawrence Zitnick, and Devi Parikh. CIDER: Consensus-based image description evaluation. In CVPR, 2015.
Wang et al. [2024] Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, and Jifeng Dai. VisionLLM: Large language model is also an open-ended decoder for vision-centric tasks. In NeurIPS, 2024.
Wu et al. [2021] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum, and Chuang Gan. STAR: A benchmark for situated reasoning in real-world videos. In NeurIPS (Datasets and Benchmarks Track), 2021.
Wu et al. [2022] Jialin Wu, Jiasen Lu, Ashish Sabharwal, and Roozbeh Mottaghi. Multi-modal answer validation for knowledge-based vqa. In AAAI, 2022.
Yang et al. [2024] Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F Fouhey, and Joyce Chai. LLM-Grounder: Open-vocabulary 3D visual grounding with large language model as an agent. In ICRA, 2024.
Ye et al. [2024] Shuquan Ye, Dongdong Chen, Songfang Han, and Jing Liao. 3D question answering. IEEE Transactions on Visualization and Computer Graphics, 30(3):1772–1786, 2024.
Yin et al. [2021] Tianwei Yin, Xingyi Zhou, and Philipp Krahenbuhl. Center-based 3D object detection and tracking. In CVPR, 2021.
Yu et al. [2019] Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, and Qi Tian. Deep modular co-attention networks for visual question answering. In CVPR, 2019.
Zellers et al. [2019] Rowan Zellers, Yonatan Bisk, Ali Farhadi, and Yejin Choi. From recognition to cognition: Visual commonsense reasoning. In CVPR, 2019.
Zhang et al. [2022] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, and Luke Zettlemoyer. OPT: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022.
Zhang et al. [2024] Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, and Wanli Ouyang. MotionGPT: Finetuned LLMs are general-purpose motion generators. In AAAI, 2024.
Zhou and Krähenbühl [2022] Brady Zhou and Philipp Krähenbühl. Cross-view transformers for real-time map-view semantic segmentation. In CVPR, 2022.
Zhou et al. [2019] Yi Zhou, Connelly Barnes, Jingwan Lu, Jimei Yang, and Hao Li. On the continuity of rotation representations in neural networks. In CVPR, 2019.
Zhu et al. [2016] Yuke Zhu, Oliver Groth, Michael Bernstein, and Li Fei-Fei. Visual7W: Grounded question answering in images. In CVPR, 2016.
Zhu et al. [2023] Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, and Qing Li. 3D-VisTA: Pre-trained transformer for 3D vision and text alignment. In ICCV, 2023.

补充材料

A 实现细节

在这里，我们提供了更多关于我们模型的信息。

视觉和文本编码器。我们使用OpenScene [51]（3D蒸馏变体）作为我们的视觉编码器，它将蒸馏的CLIP特征整合到最初为3D语义分割任务设计的3D Minkowski CNN骨干网络中。我们使用默认的0.02m体素大小将点云离散化为3D体素，并在体素化过程中禁用缩放和弹性畸变增强方法。 3D架构是预定义的明克UNet18A [12]。视觉标记的数量 $N_{v}$ 为256。此外，我们使用Sentence-BERT [55] MPNet变体作为我们的文本标记器和编码器。我们使用固定的批次填充策略，并将情境标记 $N_{s}$ 和问题标记 $N_{q}$ 的长度设置为100。所有三种类型 token 的特征嵌入大小均设置为 768。 OpenScene 主干网络的 256 维输出通过一个 1x1 卷积层投影到 768 的隐藏大小。我们冻结 OpenScene 主干网络，并在我们的训练过程中仅微调文本主干网络的最后一层。

融合和解码器模型。我们使用 4 层 MCAN Transformer [67, 59] 作为视觉和情境标记的融合块。可学习的位置嵌入和情境嵌入由一个 2 层 MLP 组成：首先从维度 3 到 128，然后从 128 到目标维度。我们使用 BLIP-2 [38] 作为最终响应生成的大型多模态 Transformer ，类似于 3D-LLM [25]。

训练细节。我们使用 AdamW [43] 优化器训练我们的模型，其中 $\beta_{1}=0.9$ 、 $\beta_{2}=0.999$ 和 $\epsilon=1\mathrm{e}$ -8。我们使用 16 的批次大小，并将初始学习率设置为 2 $\mathrm{e}$ -5。权重衰减设置为 0.05，并且我们根据 [40] 禁用层归一化层和所有偏差参数的权重衰减。我们在第 10 个和第 20 个时期后将学习率降低 10 倍。我们在单个 NVIDIA A100 GPU 上总共训练了 50 个时期。

B 通过情境重新编码增强视觉 Token 激活

在图 B中，我们提供了 3D 视觉标记 $z^{\mathrm{3D}}$ 在经历之前和之后的激活变化的深刻可视化。我们的情境引导视觉重新编码过程。此可视化采用绿色颜色映射，其中更亮的符元表示更高激活值。从该图中可以看出，情境引导在放大关键符元相关性方面的有效性。

例如，第二行中的可视化显示了焦点发生显著的转变。最初，符元主要集中在床区。然而，在重新编码后，注意力明显地转向与情境向量密切相关的区域以及与查询直接相关的区域。同样，在第三行中，情境重新编码过程导致“左侧”的窗区受到越来越多的重视。在第四行中，注意力最初集中在梳妆台区域。然后，它根据情境向量和问题提示，转移到代理左侧的厕所。该实验清楚地证明了我们的方法如何利用增强的情境意识，以可解释的方式提高下游推理任务的性能。我们的模型根据情境线索动态调整焦点的能力是其增强推理能力的关键因素。

C 更多定性结果

我们在图 C和 D中展示了我们模型的更多定性结果。可视化涵盖了各种任务，包括有关物体方向、特定物体的特征、场景中物体的数量以及基于常识推理的是非问题的查询。从这些结果中得出的一个关键观察是，在许多情况下，情境估计的绝对精度并非是我们模型准确推断所提出问题答案的先决条件。这一发现突出了该模型的鲁棒性和其有效处理各种查询类型的能力，即使在情境感知能力不佳的情况下也能做到。

D 困难情况下的性能

我们对易难样本案例研究的一个示例显示在图 A中。我们发现，数据集中的简单示例允许现有模型在没有任何 3D 情境理解的情况下猜测出正确答案。但是，我们的方法有效地改善了具有复杂和交织的问题和情境难题的示例。

E 失败案例分析

我们在图 E 中对我们的模型进行了失败案例分析。我们将三种类型的失败案例进行了分类和可视化。

准确的情境估计，错误的答案。这种情况表明，准确的情境理解并不一定能保证对查询的正确回答。此类中很大一部分失败案例归因于复杂的提问提示，这些提示需要多阶段推理或常识知识的整合。例如，第一个示例需要模型理解观看者视角和沙发之间的空间关系，然后进行额外的推理阶段，专注于沙发以准确地回答查询。随后的示例要求理解“奇数”和“偶数”的概念，以及将其应用于 3D 环境中对象的计数。

不准确的情境估计，正确的答案。这一类表明，当场景描述涉及微不足道或不太常见的物体时，情境估计错误的可能性更高。此外，观察到，该模型可能在没有完全理解复杂的情境和多模态语境的情况下，偶然得到正确答案，尤其是在问题涉及在两个或多个给定选项中选择的情况下。因此，定性和定量评估的结合对于全面评估模型的性能至关重要。

情境估计和答案都错误。这一组包含了数据集中最具挑战性的示例，通常包含前几类中识别出的多个复杂性。这些案例呈现了复合的难度级别，突出了模型在需要对情境语境和问题解释进行复杂理解的场景中的局限性。

F 局限性和未来工作

3D 场景的选择。 SQA3D [44] 和 ScanQA [5] 数据集均源于 ScanNet [13] 数据集，它们只包含室内家居环境。这些静态场景限制了模型在动态任务（如操作和探索）中的适用性。因此，我们当前的模型专门针对静态家居环境。这种可扩展性问题是所有现有 3D VL 推理工作 [44, 5, 25, 74] 的长期挑战。我们相信，通过更具可扩展性的视觉表示（例如。，场景图，稀疏可学习嵌入），我们可以扩展我们的模型，以在未来的工作中支持更大的 3D 环境。

更全面的视觉编码。在我们的方法中，利用基于体素的开放词汇 3D 编码器，可以实现更好的整体性能。然而，对于涉及计数或引用的特定查询，基于检测的编码器可能会产生更有优势的视觉符元集，因为它能够提供与问题相关的实例级信息。这表明了多方面视觉符元化系统的潜在优势，该系统融合了各种编码器类型的优势。