OpenSU3D：使用

基础模型理解开放世界 3D 场景

Rafay Mohiuddin^1∗, Sai Manoj Prakhya², Fiona Collins¹, Ziyuan Liu² and André Borrmann¹ ^∗ Corresponding author rafay.mohiuddin@tum.de¹ Chair of Computational Modeling & Simulation, Technical University of Munich, 80333 Arcisstraße 21, Germany² Intelligent Cloud Technologies Lab, Huawei Munich Research Center, 80992 Riesstraße 25, Germany

摘要

本文提出了一种新颖的可扩展方法，用于构建开放集、实例级 3D 场景表示，从而推动了对 3D 环境的开放世界理解。现有方法需要预先构建的 3D 场景，并且由于每个点的特征表示而面临可扩展性问题，此外在处理上下文查询方面也存在困难。我们的方法通过使用 2D 基础模型逐步构建实例级 3D 场景表示来克服这些局限性，并有效地聚合实例级细节，例如掩码、特征向量、名称和标题。我们引入了特征向量的融合方案，以增强其在复杂查询上的上下文知识和性能。此外，我们还探索了大型语言模型，用于强大的自动标注和空间推理任务。我们在来自 ScanNet [1] 和 Replica [2] 数据集的多个场景中评估了我们提出的方法，展示了零样本泛化能力，在开放世界 3D 场景理解方面超过了当前最先进的方法。项目页面： https://opensu3d.github.io/

Refer to caption — 图 1: 开放世界 3D 场景理解管道。我们的方法接收一系列 RGB-D 图像并构建一个 3D 场景表示，用于开放词汇表实例检索、开放集标注、分割和空间推理。

I 引言

人工智能的最新进展，特别是在开放集目标检测和对 2D 图像的上下文理解方面，在很大程度上得益于预训练的基础模型，例如 CLIP [3]、SAM [4] 以及将视觉与语言模型集成 [5, 6]。但是，将这些突破扩展到 3D 场景仍然是一个挑战。尽管具有创新性，但当前的 3D 方法 [7, 8, 9, 10, 11] 尚未达到在 2D 中看到的性能水平。解决这一差距对于机器人学至关重要，因为它可以改变机器人感知、交互和在三维世界中推理的方式。

最近的努力 [7, 8, 9, 10, 11] 在将二维基础模型用于开放世界三维场景理解方面取得了进展。然而，它们面临着关键的局限性。许多模型是为批处理或非增量任务而设计的，需要预先提供完整的 3D 场景数据——在许多现实世界的机器人应用中是不现实的。这些方法主要从 CLIP [3, 12] 等二维模型中提取每个点的 3D 特征向量，但缺乏一种从其他基础模型中推断二维信息的方法。此外，生成密集的、每个点的特征表示会带来内存和可扩展性挑战，同时也会使在场景中隔离不同实体的任务复杂化，这对机器人操作至关重要。最值得注意的是，现有方法似乎在处理简单查询时效果很好，但在处理更复杂的空间查询和推理任务时，缺乏所需的深度和语境理解。

I-A 贡献概述

我们提出了一种构建开放式 3D 场景表示的新方法，解决了开放词汇实例召回、分割、标注和空间推理。我们的方法利用二维基础模型，特别是 GroundedSAM [13] 和 GPT-4V [6]，从 RGB 图像中提取实例级信息。对于每个实例，CLIP [3] 特征向量在多个尺度上被提取并融合。为图像中的每个实例分配唯一的 ID；使用深度和姿态数据将相应的二维掩码反向投影，以构建一个分割的 3D 场景。我们的方法通过评估 3D 空间中的重叠区域来跟踪二维和三维掩码之间的关联，并使用来自二维图像的相应元信息更新三维掩码，从而实现高效、可扩展和增量的三维场景构建。此外，特征融合方案将本地上下文纳入其中，有助于区分同一类别中的实例，以进行关系查询。本研究为 3D 场景理解领域带来了以下关键贡献：

1. 我们提出了一种用于开放集 3D 场景理解和实例分割的增量式可扩展方法，将来自 2D 基础模型的实例级信息集成到统一的 3D 表示中。
2. 我们开发了一种创新的特征融合公式，包含上下文信息，通过上下文查询来改进实例识别。
3. 我们探索了将大型语言模型与我们的 3D 场景表示结合使用，以实现稳健的自动标注和复杂的空间推理任务。

I-B 文献综述

I-B1 基础模型和大型语言模型

基础模型在大型数据上进行训练，通过在各种任务中取得卓越的性能，改变了人工智能。 CLIP [3] 和 [14, 15] 将视觉和文本信息集成到一个统一的表示中，从而实现多模态任务，例如图像字幕、视觉问答和跨模态检索。在分割中， [16, 17] 提供可提示的开放词汇能力。基于 SAM [4] 的接地方法， [13, 18] 通过整合语义和情境信息来对输出进行语境化，从而提高了图像分割、字幕和目标检测等任务的解释准确性和相关性。语言模型 [19, 20] 在自然语言任务中表现出色，它们与视觉的整合 [21, 6] 进一步促进了开放世界的理解。本文探索了利用基础模型和大型语言模型的能力，提取和链接 2D 图像和 3D 空间之间信息的可概化方法。

I-B2 3D 场景分割

语义分割仍然是 3D 机器人感知中的一个关键挑战。尽管像 [22, 23, 24, 25] 这样的方法创建了 3D 度量语义地图，但它们受到封闭集范式的限制。近期工作 [26, 27] 采用简化的方法，通过从语义分割的 RGB 图像中重叠的 3D 点来识别 3D 实例。 [27] 生成非增量式开放集细粒度 3D 掩码，而 [26] 创建一个增量式、封闭集稀疏 3D 语义地图，具有固定的每次更新计算。我们提出了一种增量方法，利用 SAM 的 [4] 2D 掩码和区域重叠技术，以恒定的每次更新计算生成细粒度 3D 实例掩码。此外，我们的方法有效地跟踪了 2D-3D 掩码对应关系，促进从 2D 基础模型到 3D 场景的有效实例级信息传递。

I-B3 开放词汇表。 3D 场景理解

3D 场景理解的最新进展利用了 2D 视觉语言模型来实现开放词汇交互。虽然早期工作 [8, 11, 10, 28] 表明了潜力，但由于密集特征表示，它们面临着计算和可扩展性挑战。随后方法 [29, 30] 采用以实例为中心的策略来解决这些问题。但是，它们的非增量性质和对预构建 3D 场景的依赖限制了它们在机器人技术中的适用性。此外，[11, 29] 探索了特征工程来改进特征表示，融合了来自以对象为中心和更大图像部分的 CLIP [3] 向量，但仅在简单查询上展示了性能。尽管取得了进展，但在计算、可扩展性、增量处理和上下文查询处理方面仍然存在挑战，需要更有效和适应性更强的解决方案。

I-B4 3D 空间推理

在开放世界场景理解中，全局 3D 空间推理仍然是一个挑战。虽然传统的场景图方法 [24, 25] 显示出局限性，但最近的工作 [7, 9, 31] 利用 LLM 进行 3D 推理。但是，即使是像 GPT-4V 这样的高级模型 [6] 也难以进行准确的 2D 空间推理 [32]。我们通过战略性提示，将 Set of Mark Prompting 技术 [32] 适应 3D 环境，利用 LLM 对构建的场景进行 3D 空间推理。

I-B5 最近的相关工作

最近的工作 [33, 34, 35, 30, 36, 37, 38] 也涉及 3D 场景理解。与 [36] 和 [37] 不同，我们的方法通过 3D 点的几何重叠而不是 CLIP 特征向量来确保 3D 掩码中的语义一致性，如实验所示，取得了更好的性能。虽然 [35, 30] 是非增量的，但 [33, 34] 在处理上下文查询时遇到困难。 [36, 37, 38] 使用场景图和 LLM 来处理空间查询；相比之下，我们探索了上下文学习，利用 LLM 的大上下文长度和定制提示来完成复杂的空间推理任务。

II 方法

我们的方法处理具有对应姿势的 RGB-D 图像序列，以生成一个开放集 3D 场景表示，支持开放世界任务，如开放词汇表对象检索、3D 分割、标注和空间推理。如图1 所示，该管道包含两个关键模块：
1. 每图像特征提取：从每个图像中提取实例级掩码、嵌入和元信息，并为每个实例分配一个唯一的ID 以进行精确跟踪。
2. 2D 到 3D 的融合和跟踪：通过跟踪相应的 ID，将每个图像的 2D 掩码和相关的 2D 元信息从每个图像的 2D 掩码和相关的 2D 元信息创建 3D 语义地图。

II-A 每个图像的特征提取

特征提取过程从一系列 RGB 图像 $\mathcal{I}=\{I_{0},I_{1},I_{2},\ldots,I_{n}\}$ 开始。一个子集 $\mathcal{I^{\prime}}$ 以步幅 $s$ 进行采样，以最小化计算冗余，同时确保合理的重叠。对于每个图像 $I^{\prime}\in\mathcal{I^{\prime}}$ ，groundedSAM [13] 用于获取 2D 掩码 $M$ 、边界框 $B B$ 和预测分数 $S_{\text{pred}}$ 。基于 $bb\in BB$ 从图像中裁剪，传递给 GPT-4V [6]，并带有提示 “给出对象的名称和描述。输出例如“名称”：“描述” 以获得名称（标签） $N$ 和详细描述对象的字幕 $C$ 。每个实例都被分配一个唯一的 ID，并且掩码 $M$ 被更新为 $M^{\prime}$ ，这些 ID 作为每个像素的标签，包括每个掩码周围 $p x$ 个像素的边界，以描绘实体。特征向量使用 CLIP 编码器分两个阶段提取：

1.

从完整图像中提取全局特征向量 $f_{\text{G}}$ 。
2.

实例特定的特征向量 $F=\{f_{\text{MS}}\}$ 是通过首先根据缩放比例 $S_{r}=\{s_{r}\}_{k}$ 对图像进行多尺度裁剪，然后使用多尺度特征融合方案（如第 II-B2 节中所述）融合每个裁剪的特征向量 $\{f\}_{k}$ 来创建的。

更新后的掩码 $M^{\prime}$ 和实例级元数据（包括 ID、名称 $n\in N$ 、字幕 $c\in C$ 、预测分数 $s_{\text{pred}}\in S_{\text{pred}}$ 、融合的特征向量 $f_{\text{MS}}\in F$ 和全局特征向量 $f_{\text{G}}$ ）存储在每个图像的 $\mathcal{I^{\prime}}$ 中。

II-B 2D 到 3D 的融合与跟踪

我们通过初始化一个空的 3D 点云来启动融合和跟踪模块，该点云代表了整个 3D 场景，表示为 $\mathcal{P}_{\text{scene}}\in\mathbb{R}^{x,y,z,\text{ID}}$ ，以及一个用于跟踪唯一 ID 的全局哈希表 $\mathcal{Q}$ ，定义为： $\mathcal{Q}:\mathcal{Q}\mapsto\left\{\text{ID}\in\texttt{uniq}(\text{ID}\in% \mathcal{P}_{\text{scene}}):\{\text{ID}\in\{M^{\prime}\}\}\right\}$

对于图像 $I^{\prime}$ ，检索与之关联的元素，包括深度图 $D$ 、全局姿态 $T$ 、更新后的掩码 $M^{\prime}$ 和相机内参 $K$ 。使用深度数据将每个像素 $(u,v)\in I^{\prime}$ 反投影到 3D 空间中，并分配与掩码 $M^{\prime}$ 相对应的语义标签，从而生成单个图像的 3D 点云 $\mathcal{P}_{\text{frame}}$ 。

\mathcal{P}_{\text{frame}}=\left\{T\left(D(u,v)\cdot K^{-1}\begin{pmatrix}u\\ v\\ 1\end{pmatrix}\right),M^{\prime}(u,v)\right\}

(1)

使用 $\mathcal{P}_{\text{frame}}$ 的边界，我们从 $\mathcal{P}_{\text{scene}}$ 中采样 $\mathcal{P}^{\prime}_{\text{scene}}$ ，其中只包含 $\mathcal{P}_{\text{frame}}$ 边界内的点。进行 $K D T r e e$ 搜索，利用欧几里得距离函数 $d(\cdot,\cdot)$ 将点 $\mathbf{p}$ $\in$ $\mathcal{P}_{\text{frame}}$ 与点 $\mathbf{q}$ $\in$ $\mathcal{P^{\prime}}_{\text{scene}}$ 匹配。如果 $d(\mathbf{p},\mathbf{q})<\epsilon$ ，我们将与 $\mathbf{p}\in\mathcal{P}_{\text{frame}}$ 对应的索引分组到 $\mathbf{q}\in\mathcal{P}_{\text{scene}}$ 中，以获得所有重叠点的相应索引对 $\{(\mathbf{i}_{\text{frame}},\mathbf{i}_{\text{scene}})\}$ 。这种搜索策略将 $K D T r e e$ 的搜索空间限制在仅重叠区域，从而在每次更新时需要恒定的计算量（搜索空间）。

为了跟踪和更新匹配的 ID，类似于 SAM3D 的 [27] 方法，我们首先获取每个 3D 段的唯一 ID 列表 $\{\text{ID}_{f}\}$ ，以及一个表示 $\mathcal{P}_{\text{frame}}$ 中每个 3D 段的总点数 $\{c_{\mathcal{P}_{f}}\}$ 的对应列表。

对于 $\mathcal{P}_{\text{frame}}$ 中具有 $c_{\mathcal{P}_{f}}\in\{c_{\mathcal{P}_{f}}\}$ 的每个 3D 段，我们利用索引对 $\{(\mathbf{i}_{\text{frame}},\mathbf{i}_{\text{scene}})\}$ 来获取来自 $\mathcal{P}_{\text{scene}}$ 的与 $\mathcal{P}_{\text{frame}}$ 重叠的点集。从这些点中，我们得出唯一段 ID 列表 $\{\text{ID}_{s}\}$ 及其对应的总点数 $\{c_{\mathcal{P}_{s}}\}$ 。

\text{OverlapRatio}=\frac{\max(\{c_{\mathcal{P}_{s}}\})}{\min(c_{\mathcal{P}_{% f}},\max(\{c_{\mathcal{P}_{s}}\}))}

(2)

如果重叠率满足预定义阈值，即 $\text{OverlapRatio}\geq\rho$ ，则执行 ID 替换和更新操作。具体来说， $\mathcal{P}_{\text{frame}}$ 中的所有 $\text{ID}_{f}\in c_{\mathcal{P}_{f}}$ 都被替换为 $\text{ID}_{s}\in\max(\{c_{\mathcal{P}_{s}}\})$ ，得到 $\mathcal{P^{\prime}}_{\text{frame}}$ ，然后将其连接到 $\mathcal{P}_{\text{scene}}$ 。此外，还可以删除 $\mathcal{P^{\prime}}_{\text{scene}}$ 中的一组点以保持恒定的稀疏性，从而确保每次更新的计算需求固定。然后将更新的 ID 附加到 $\mathcal{Q}$ ；反之，如果重叠率不满足阈值要求，则在 $\mathcal{Q}$ 中添加新条目。

II-B1 后处理

将具有更新 ID 的点云 $\mathcal{P}_{\text{scene}}$ 、相应的跟踪重叠 ID $\mathcal{Q}$ 以及每个图像的元数据处理成以实例为中心的映射

$\mathcal{M}=\left\{\left(\mathcal{P},n,c,f_{\text{MV}},bb_{3D},(x_{c},y_{c})% \right)_{i}\middle|i\in\texttt{uniq}(\text{ID}\in\mathcal{P}_{\text{scene}})\right\}$ 。

对于每个不同的 3D 对象 $\mathcal{P}_{i}$ ，我们执行基于 DBSCAN 的聚类以减少噪声并实现细粒度的 3D 掩码。因此，计算 3D 边界框 $bb_{3D,i}$ 和质心 $(x_{c},y_{c})_{i}$ 。对于与 3D 对象 $\mathcal{P}{i}$ 对应的每个多视图图像，使用 $\mathcal{Q}$ 检索名称 $N^{\prime}$ 、标题 $C^{\prime}$ 、预测分数 $S^{\prime}_{\text{pred}}$ 和特征向量 $F^{\prime}$ 以进行聚合和融合。将对应于最高 $S^{\prime}_{\text{pred}}$ 的标签（名称） $n_{i}\in N^{\prime}$ 和标题 $c_{i}\in C^{\prime}$ 分配给 3D 实例 $\mathcal{P}_{i}$ 。或者，使用具有提示的 LLM [6] 对基于预测分数 $S^{\prime}_{\text{pred}}$ 的 $N^{\prime}$ 中的 top $m$ 个名称进行细化：“根据给定的名称列表为对象分配一个名称”，从而产生更准确的标签（名称） $n^{\prime}_{i}$ 。最后，通过基于分数 $S^{\prime}_{\text{pred}}$ 的 top $m$ 融合特征向量，通过多视图特征融合公式（在第 II-B2 节中描述）获得对应于多个视图 $f_{\text{MV}_{i}}$ 的特征向量。

II-B2 特征融合

给定一个来自图像中实例的多个尺度裁剪的特征向量列表 $\{f\}_{k}$ 以及与 3D 实例的多视图图像相对应的特征向量 $\{f_{MS}\}_{m}$ ，一个简单直接的融合方案将这些特征向量聚合在一起，如下所示：

f_{\text{MS}}=\frac{1}{k}\sum_{i=1}^{k}f_{i}

(3)

f_{\text{MV}}=\frac{1}{m}\sum_{i=1}^{m}f_{\text{MS}_{i}}

(4)

等式 3 和等式 4 中的融合方案缺乏上下文信息，导致上下文/相对查询的性能不佳（表 IV）。 [29] 和我们的消融研究（第 III-C1 节）表明，虽然多尺度裁剪（对于包含上下文信息很重要）提高了准确性，但更大的裁剪会降低整体对象召回率。为了缓解这些问题，我们提出了一种改进的多尺度特征融合方案，即等式 5。这种方法采用多尺度裁剪特征向量的加权聚合，其中 $f_{1}$ 代表最佳拟合裁剪的特征向量， $\varepsilon$ 是一个小数 $\approx$ 1e-8。

f_{\text{MS}}=\frac{1}{k}\sum_{i=1}^{k}\left(\frac{f_{1}\cdot f_{i}}{\max(\|f_% {1}\|_{2}\cdot\|f_{i}\|_{2},\varepsilon)}\right)\cdot f_{i}\

(5)

对于多视图特征集成，受 [11] 中逐像素特征表示的启发，我们建议在合成我们的逐实例特征表示时，加入来自整个图像的全局特征向量 $f_{\text{G}}$ ，定义如下：

f_{\text{MV}}=\frac{1}{m}\sum_{i=1}^{m}f_{\text{MS}_{i}}+\left(\frac{f_{\text{% MS}_{i}}\cdot f_{\text{G}_{i}}}{\max(\|f_{\text{MS}_{i}}\|_{2}\cdot\|f_{\text{% G}_{i}}\|_{2},\varepsilon)}\right)\cdot f_{\text{G}_{i}}

(6)

II-C 实例检索与分割

给定一个地图 $\mathcal{M}$ ，开放词汇 3D 对象搜索或 3D 实例检索和分割在两个阶段执行。首先，使用 CLIP [3] 文本编码器处理一个查询 $\mathcal{K}$ 以获得特征向量 $f_{\mathcal{K}}$ 。其次，计算所有 3D 实例的余弦相似度得分 $\{S_{\text{score}}\}$ 。检索具有最高相似度得分的 3D 实例的分割掩码作为对 $\mathcal{K}$ 最可能的响应。

II-D 空间推理

对于需要复杂空间推理的查询，我们的方法涉及上下文学习，利用 LLM [6] 的大上下文窗口，基于连贯的 3D 表示以及与之相关的元数据（如掩码标签、质心、边界框和为构建的场景 $\mathcal{M}$ 可用的详细标题）实现复杂的空间推理。 $\mathcal{M}^{\prime}:=\mathcal{M}\setminus\{\mathcal{P},f_{\text{MV}}\}$ 与系统提示一起提供给 LLM，该提示使用以下提示策略构建：

•

使用“名称”和“描述”来理解对象。
•

使用“ID”来引用对象。
•

使用“笛卡尔坐标”。
•

获取“质心”和“边界框”信息。
•

如有必要，计算“欧几里得距离”。
•

如有必要，假设“公差”。

III 实验

III-A 实现细节

III-A1 使用的模型

GroundedSAM [13]（一种基于 RAM++ [39]（ram_plus_swin_large_14m）、GroundingDINO [40]（groundingdino_swint_ogc）和 SAM [4]（sam_vit_h_4b8939）的方法）用于生成实例分割掩码和边界框。 GPT-4V [6]（gpt-4-vision-preview、gpt-4-1106-preview）用于详细的标题和名称以及空间推理。 CLIP 编码器 [3]（在 laion2b_s32b_b79k 数据集上预训练的 ViT-H-14）用于实例特征向量。

III-A2 超参数设置

超参数通过在 Replica [2]（第 III-C1 节）上的消融研究确定，在所有数据集上保持一致。我们设置 $m=5$ 以选择前 5 张图像，并使用 $k=3$ ，其中有 3 个裁剪级别和 0.2 的缩放比例增量 ( $S_{r}=[0.8,1,1.2]$ )。步长为 $s=40$ 可确保帧重叠。对于 GroundedSAM [13]，阈值如下：IoU-0.4、边界框-0.25 和文本-0.25。 $px=20$ 像素的填充界定了实例掩码的边界。重叠评估使用体素大小 $\epsilon=0.02$ 和阈值 $\rho=0.3$ 。 DBSCAN 使用 epsilon 0.1 和 20 个点的最小聚类大小。 GPT-4 [6] 设置为温度 0。

III-A3 过滤和后处理

排除大型背景物体（墙壁、地面、屋顶、天花板）和边界框 $>$ 占图像面积 95% 的物体，以防止它们的特征向量与前景物体表现出相似性，从而对召回率和评分分布产生不利影响。在 DBSCAN 后处理中，点数 $\geq$ 占最大聚类 80% 的聚类被视为具有唯一 ID 和属性的独立实例。在 GPT-4 [6] 无法检测到物体的情况下，实例被分配 RAM++ [39] 名称并给出简化的标题：“场景中的 {物体}”。

III-B 评估细节

III-B1 数据集

从半合成数据集 Replica [2] (room0, room1, room2, office0, office1, office2, office3, office4) 和真实世界数据集 ScanNet [1] (scene0000_00, scene0034_00, scene0164_03, scene0525_01, scene0549_00) 中的多個場景被用於全面的定性和定量評估。與之前的研究 [37, 11] 類似，由於需要大量的 manual human evaluation，我們只選取了少數場景。

III-B2 定量評估

我們使用標準指標來評估提出的方法：平均召回準確率 (mAcc)，頻率加權 IoU (F-mIoU) 和在 IoU 閾值 [0.5:0.05:0.95] 上的平均精確度 (AP)，包括來自 ScanNet [1] 的 AP50 和 AP25。對於開放詞彙性能，如 [29, 37] 中所示，我們使用帶有 ground truth 標籤和提示的 3D 遮罩進行檢索：“an {object} in a scene”。遮罩被下采樣到 0.25 厘米的 voxel 大小，然後使用最近鄰搜索查找相交點。我們將 Replica [2] 数据集上的结果与最先进的模型 [29, 35, 11, 37] 进行比较，使用相同的提示和基础模型以及简单的特征融合公式 (Eq. 4 和 Eq. 3)。

III-B3 定性評估

我們通過 manual human evaluation 對開放詞彙實例檢索、标注、分割和空間推理進行了廣泛的定性評估。對於開放詞彙實例檢索，我們提出了超過 1000 個關於實例（例如 “musical instrument”）、affordances（例如 “place to sit and work”）、屬性（例如 “green towel”）和相對查詢（例如 “green towel next to sink”）的查詢。基於 CLIP [3] 的實例檢索（見第 II-C 節）的性能評估結果如下，我們使用了四種特征融合方案：Scheme 1 代表了多尺度特征 (Eq. 3) 和多視角特征 (Eq. 4) 的直接聚合，Scheme 2 代表了更新后的多視角特征 (Eq. 6)，Scheme 3 代表了更新后的多尺度特征 (Eq. 5)，並增加了 crop 擴展比率 ( $S_{r}=[1,2,4]$ )，Scheme 4 代表了更新后的多視角特征 (Eq. 6) 和多尺度特征 (Eq. 5) 融合公式的組合。我們通過手動驗證標籤分配和遮罩合併來評估所提出方法的标注和分割能力。對於空間推理，我們使用大型語言模型（見第 II-D 節）在所有場景中對 70 個複雜的推理問題（例如 “I’m feeling cold what should I do?”）進行了評估，評估了所提出的空間推理提示策略的可行性。

III-C 结果与讨论

III-C1 消融研究

为了评估超参数的影响，使用 [29] 的实验设置；对作物级别 $k$ 、最佳图像 $m$ 和作物比例 $S_{r}$ 使用定量指标进行了消融研究。最佳图像 $m$ 影响多视图特征融合（公式 6），表示用于聚合的特征向量。作物比例 $S_{r}$ 和作物级别 $k$ 影响多尺度特征融合（公式 3），确定用于特征向量聚合的作物大小和数量。作物级别 $k$ 放大了作物比例 $S_{r}$ 的影响，因为在相同的 $S_{r}$ 下更高的 $k$ 会导致更大的作物。

与 [29] 类似，我们发现这些超参数的极端值会降低结果。较低的 $m$ 会减少冗余，而较高的 $m$ 可能会包含不良图像，如表 I 所示。较低的 $S_{r}$ 和 $k$ 值可能不会损害模型，但可能会引入冗余。较大的 $S_{r}$ 值会添加上下文，但可能会使相似度分数的分布饱和。

Parameter	Value	Replica [2]
Parameter	Value	mAcc	F-mIoU	AP	AP50	AP25
Top Images ( $m$ )	1.0	39.6	43.4	8.7	19.3	27.2
	5.0	40.8	44.7	8.9	19.6	27.7
	10.0	39.3	44.3	8.7	19.1	27.5
Crop Levels ( $k$ )	1.0	35.9	43.6	9.1	19.6	27.7
	3.0	40.8	44.7	8.9	19.6	27.7
	5.0	39.4	44.3	8.8	19.4	26.9
Crop Ratio ( $S_{r}$ )	[0.1,1,1.1]	39.9	44.4	8.9	19.4	28.1
	[0.8,1,1.2]	40.8	44.7	8.9	19.6	27.7
	[0.7,1,1.3]	39.9	44.8	8.9	19.4	27.3

表 I: 超参数消融研究。关于最佳预测分数 (

s_{pred}

) 的总图像

m

，用于多视图特征融合。用于缩放作物边和总作物数量

k

的比例

S_{r}

的增量，用于多尺度特征融合。

III-C2 与基线方法的定量比较

如表 II 和 III 所示，该方法在定量指标上表现出与基线方法相当或更好的性能。这些表格比较了针对开放词汇查询的分割掩码准确率和精度与真实掩码的比较。为了进行公平评估，我们遵循了原始的 ConceptGraph [37] 和 OpenMask3D [29] 设置。总体而言，我们的方法在所有指标和数据集上表现出相当或更好的性能。

Method	Replica [2]
Method	mAcc	F-mIoU
ConceptFusion [11]	24.2	31.3
ConceptFsuion+SAM [11]	31.5	38.7
ConceptGraph [37]	40.6	36.0
ConceptGraph-Detector [37]	38.7	35.4
OpenSU3D (Ours)	42.6	40.9

表 II：开放词汇分割结果比较使用 ConceptGraph [37] 设置。

Method	Replica [2]
Method	AP	AP50	AP25
OpenMask3D [29]	13.0	18.4	24.2
OpenMask3D+Segment3D [35]	-	18.7	-
OpenSU3D (Ours)	8.9	19.6	27.7

表 III：开放词汇分割结果比较使用 OpenMask3D [29] 设置。

III-C3 与基线方法的定性比较

定量评估主要针对封闭词汇评估而设计，依赖于召回准确率，该准确率不能反映开放词汇查询的实际需求。此外，这些评估依赖于掩码建议的数量 [35]，可能无法准确地反映针对封闭集真实掩码的真实性能。

为了解决这些局限性，我们在图 4 中提供了与基线工作的全面定性比较。目标是评估模型在开放词汇查询中回忆正确分割掩码的能力，为相关对象分配高相似度分数，为不相关对象分配低相似度分数。具体而言，我们提出的方法通过提出的多尺度和多视角特征融合公式（公式 5 和公式 6）展现了更好的二维到三维关联和相似度分数的分布。如图 4 所示，对于查询 “墙上的画” 和 “空花瓶”，两种基线方法都回忆了不正确的对象，而我们的方法运作完美。

III-C4 特征融合方案评估

我们对第 III-B3 节中定义的特征融合方案进行了定性评估。结果汇总在表 IV 中。

例如，对于属性和功能查询，所有方案的性能都相似。然而，对于相对查询，方案 2 和 方案 3 以及我们提出的多尺度和多视角融合公式（等式。 6 和 5）的性能优于 方案 1。 方案 4 结合了这两个提出的公式，实现了最佳的召回精度。此外，如图 5 所示的相似度得分热图显示，方案 1 通常会错误地将最高得分分配给最大的实例。相反，方案 2、3 和 4 中更新的融合公式提高了实例掩码的召回率和相似度得分分布，其中 方案 4 的整体性能最佳。

Feature Fusion	Replica [2]				ScanNet [1]
Feature Fusion	Inst.	Aff.	Prop.	Rel.	Inst.	Aff.	Prop.	Rel.
Scheme 1	0.8	0.7	0.7	0.3	0.8	0.8	0.7	0.4
Scheme 2	0.8	0.7	0.9	0.5	0.9	0.7	0.8	0.6
Scheme 3	0.9	0.9	0.9	0.6	0.9	0.8	0.7	0.6
Scheme 4	0.8	0.9	0.9	0.6	0.9	0.7	0.7	0.7

表 IV：特征融合方案评估 . 使用“Inst.”（实例）、“Aff.”（功能）、“Prop.”（属性）和“Rel.”（相对）文本查询的检索融合方案的准确性，由人类评估者评估。

III-C5 开集标注和分割

对于直接分配的标签 $n$ 使用最大预测分数 $S^{\prime}_{\text{pred}}$ 和标签 $n^{\prime}$ ，其中基于 $S^{\prime}_{\text{pred}}$ 的前 $m$ 个标签通过 LLM（见第 II-B1 节）进行细化，已对所有 Replica [2] 和 ScanNet [1] 场景进行了手动验证。为了评估开集分割，掩码合并准确率是通过计算和分类不足合并和过度合并作为错误来确定的。表 V 中的评估结果表明，LLM 标签 $n^{\prime}$ 比直接标签 $n$ 更准确。此外，这有助于过滤掉不需要的大实例（见第 III-A3 节），从而使掩码合并准确率略有提高。此外，我们发现 LLM 标签 $n^{\prime}$ 比直接标签 $n$ 更简洁。

Labels	Replica [2]		ScanNet [1]
Labels	Label Acc.	Merge Acc.	Label Acc.	Merge Acc.
Direct Label ( $n$ )	0.83	0.87	0.75	0.85
LLM Label ( $n^{\prime}$ )	0.87	0.88	0.84	0.87

表 V: 细粒度分割和标注准确性的定性评估 . 对于直接标签 (

n

) 和 LLM 标签 (

n^{\prime}

)，分割掩码的标注和合并准确率，由人工评估员评估。

III-C6 复杂的空间推理

为了评估空间推理能力，如第 III-B3 节所述，我们在所有场景中提出了复杂的空间推理问题（例如，图 1 “哪个水槽离床更近”）。手动评估表明，通过我们的方法（见 II-D），LLM [6] 在构建的表示上展示了有效的 3D 空间推理能力。 LLM 在来自 Replica [2] 的场景中表现出更高的准确性（0.83），而 ScanNet [1] 场景的准确性为 0.68。性能下降的原因可以归因于较大的 ScanNet [1] 场景中合并和标签分配错误的发生率较高。

III-D 局限性

该方法的有效性受到其底层基础模型的能力和合并错误发生的限制。利用 CLIP [3] 进行图像文本关联，以及 [13] 进行 2D 掩码生成，性能与这些模型的鲁棒性相关。此外，标注准确性和空间推理取决于 LLM [6] 的能力和上下文长度，并容易受到偶尔合并错误的影响。

IV 结论

总之，本研究提出了一种可扩展的增量框架，用于构建开放集 3D 场景表示，用于开放世界 3D 场景理解任务，解决了当前方法的局限性。通过利用 2D 基础模型，我们的方法构建了详细的实例级 3D 场景表示，有效地跟踪和关联实例特定的信息，例如特征向量、名称和标题。所提出的特征融合方案包含上下文信息，提高了相对查询的性能。此外，大型语言模型的使用促进了鲁棒的自动标注，并能够在 3D 场景中进行复杂的空间推理。全面的评估表明，与最先进的解决方案相比，我们的方法在零样本泛化方面取得了优异的性能。未来，我们计划探索 3D 动态场景中的时空推理，并将该方法从室内扩展到大型室外环境。

参考文献

[1] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Niessner, “Scannet: Richly-annotated 3d reconstructions of indoor scenes,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
[2] J. Straub, T. Whelan, L. Ma, Y. Chen, E. Wijmans, S. Green, et al., “The replica dataset: A digital replica of indoor spaces.” https://arxiv.org/abs/1906.05797, 2019.
[3] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, et al., “Learning transferable visual models from natural language supervision,” in Proceedings of the 38th International Conference on Machine Learning, vol. 139, pp. 8748–8763, PMLR, 2021.
[4] A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, Gustafson, et al., “Segment anything,” in Proceedings of International Conference on Computer Vision, 2023.
[5] H. Liu, C. Li, Q. Wu, and Y. J. Lee, “Visual instruction tuning,” in Proceedings of the Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023.
[6] OpenAI, “Gpt-4 technical report.” arXiv preprint arXiv:2303.08774, 2023.
[7] Y. Hong, C. Lin, Y. Du, Z. Chen, J. B. Tenenbaum, and C. Gan, “3d concept learning and reasoning from multi-view images,” in Proceedings of Computer Vision and Pattern Recognition, 2023.
[8] S. Peng, K. Genova, C. Jiang, A. Tagliasacchi, M. Pollefeys, and T. e. a. Funkhouser, “Openscene: 3d scene understanding with open vocabularies,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 815–824, 2023.
[9] Y. Hong, H. Zhen, P. Chen, S. Zheng, Y. Du, Z. Chen, and C. Gan, “3d-llm: Injecting the 3d world into large language models,” in Neural Information Processing Systems, 2023.
[10] R. Ding, J. Yang, C. Xue, W. Zhang, S. Bai, and X. Qi, “Pla: Language-driven open vocabulary 3d scene understanding,” in Proceedings of Computer Vision and Pattern Recognition, 2023.
[11] K. M. Jatavallabhula, A. Kuwajerwala, Q. Gu, M. Omama, G. Iyer, S. Saryazdi, et al., “Conceptfusion: Open-set multimodal 3d mapping,” in Robotics: Science and Systems, 2023.
[12] T. Luddecke and A. Ecker, “Image segmentation using text and image prompts,” in 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2022.
[13] T. Ren, S. Liu, A. Zeng, J. Lin, K. Li, H. Cao, et al., “Grounded sam: Assembling open-world models for diverse visual tasks.” http://arxiv.org/abs/2401.14159, Jan. 2024.
[14] J. Li, D. Li, C. Xiong, and S. Hoi, “Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation,” in Proceedings of the 39th International Conference on Machine Learning, vol. 162, PMLR, 2022.
[15] J. Li, D. Li, S. Savarese, and S. Hoi, “Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models,” in Proceedings of the 40th International Conference on Machine Learning, vol. 202, PMLR, 2023.
[16] B. Li, K. Q. Weinberger, S. Belongie, V. Koltun, and R. Ranftl, “Language-driven semantic segmentation,” in International Conference on Learning Representations (ICLR), 2022.
[17] F. Liang, B. Wu, X. Dai, K. Li, Y. Zhao, H. Zhang, et al., “Open-vocabulary semantic segmentation with mask-adapted clip,” in Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
[18] X. Zou, J. Yang, H. Zhang, F. Li, L. Li, J. Wang, L. Wang, J. Gao, and Y. J. Lee, “Segment everything everywhere all at once,” in Advances in Neural Information Processing Systems (A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, eds.), vol. 36, pp. 19769–19782, Curran Associates, Inc., 2023.
[19] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, et al., “Language models are few-shot learners,” in Advances in Neural Information Processing Systems (H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin, eds.), vol. 33, pp. 1877–1901, Curran Associates, Inc., 2020.
[20] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, et al., “Llama: Open and efficient foundation language models,” ArXiv, vol. abs/2302.13971, 2023.
[21] H. Liu, C. Li, Y. Li, and Y. J. Lee, “Improved baselines with visual instruction tuning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 26296–26306, June 2024.
[22] M. Grinvald, F. Furrer, T. Novkovic, J. J. Chung, C. Cadena, R. Siegwart, and J. Nieto, “Volumetric instance-aware semantic mapping and 3d object discovery,” IEEE Robotics and Automation Letters, 2019.
[23] A. Rosinol, M. Abate, Y. Chang, and L. Carlone, “Kimera: An open-source library for real-time metric-semantic localization and mapping,” in ICRA, 2020.
[24] N. Hughes, Y. Chang, and L. Carlone, “Hydra: A real-time spatial perception system for 3D scene graph construction and optimization,” in Robotics: Science and Systems (RSS), 2022.
[25] S.-C. Wu, J. Wald, K. Tateno, N. Navab, and F. Tombari, “Scenegraphfusion: Incremental 3d scene graph prediction from rgb-d sequences,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7515–7525, 2021.
[26] S.-C. Wu, K. Tateno, N. Navab, and F. Tombari, “Incremental 3d semantic scene graph prediction from rgb sequences,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.
[27] Y. Yang, X. Wu, T. He, H. Zhao, and X. Liu, “Sam3d: Segment anything in 3d scenes.” https://arxiv.org/abs/2306.03908v1, 2023.
[28] J. Kerr, C. M. Kim, K. Goldberg, A. Kanazawa, and M. Tancik, “Lerf: Language embedded radiance fields,” in International Conference on Computer Vision (ICCV), 2023.
[29] A. Takmaz, E. Fedele, R. Sumner, M. Pollefeys, F. Tombari, and F. Engelmann, “Openmask3d: Open-vocabulary 3d instance segmentation,” in Advances in Neural Information Processing Systems (A. Oh, T. Neumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, eds.), vol. 36, pp. 68367–68390, Curran Associates, Inc., 2023.
[30] Z. Huang, X. Wu, X. Chen, H. Zhao, L. Zhu, and J. Lasenby, “Openins3d: Snap and lookup for 3d open-vocabulary instance segmentation,” European Conference on Computer Vision, 2024.
[31] J. Yang, X. Chen, S. Qian, N. Madaan, M. Iyengar, D. F. Fouhey, and J. Chai, “Llm-grounder: Open-vocabulary 3d visual grounding with large language model as an agent,” in 2024 IEEE International Conference on Robotics and Automation (ICRA), pp. 7694–7701, 2024.
[32] J. Yang, H. Zhang, F. Li, X. Zou, C. Li, and J. Gao, “Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v,” 2023.
[33] Y. Bhalgat, I. Laina, J. F. Henriques, A. Zisserman, and A. Vedaldi, “N2f2: Hierarchical scene understanding with nested neural feature fields,” arXiv preprint arXiv:2403.10997, 2024.
[34] C. M. Kim, M. Wu, J. Kerr, K. Goldberg, M. Tancik, and A. Kanazawa, “Garfield: Group anything with radiance fields,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 21530–21539, June 2024.
[35] R. Huang, S. Peng, A. Takmaz, F. Tombari, M. Pollefeys, S. Song, G. Huang, and F. Engelmann, “Segment3d: Learning fine-grained class-agnostic 3d segmentation without manual labels,” 2023.
[36] H. Chang, K. Boyalakuntla, S. Lu, S. Cai, E. P. Jing, S. Keskar, S. Geng, A. Abbas, L. Zhou, K. Bekris, et al., “Context-aware entity grounding with open-vocabulary 3d scene graphs,” in 7th Annual Conference on Robot Learning, 2023.
[37] Q. Gu, A. Kuwajerwala, S. Morin, K. M. Jatavallabhula, B. Sen, A. Agarwal, C. Rivera, W. Paul, K. Ellis, R. Chellappa, C. Gan, C. M. de Melo, J. B. Tenenbaum, A. Torralba, F. Shkurti, and L. Paull, “Conceptgraphs: Open-vocabulary 3d scene graphs for perception and planning,” in 2024 IEEE International Conference on Robotics and Automation (ICRA), pp. 5021–5028, 2024.
[38] D. Maggio, Y. Chang, N. Hughes, M. Trang, D. Griffith, C. Dougherty, E. Cristofalo, L. Schmid, and L. Carlone, “Clio: Real-time task-driven open-set 3d scene graphs,” IEEE Robotics and Automation Letters, vol. 9, no. 10, pp. 8921–8928, 2024.
[39] Y. Zhang, X. Huang, J. Ma, Z. Li, Z. Luo, Y. Xie, Y. Qin, T. Luo, Y. Li, S. Liu, Y. Guo, and L. Zhang, “Recognize anything: A strong image tagging model,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, pp. 1724–1732, June 2024.
[40] S. Liu, Z. Zeng, T. Ren, F. Li, H. Zhang, J. Yang, et al., “Grounding dino: Marrying dino with grounded pre-training for open-set object detection.” arXiv preprint arXiv:2303.05499, 2023.

OpenSU3D：使用 基础模型理解开放世界 3D 场景

摘要