VideoGrounding-DINO: 面向开放词汇时空视频定位

Syed Talal Wasim¹ Muzammal Naseer¹
Salman Khan^1,2 Ming-Hsuan Yang^3,4 Fahad Shahbaz Khan^1,5
¹Mohamed bin Zayed University of AI ²Australian National University
³University of California, Merced ⁴Google Research ⁵Linköping University

摘要

视频定位旨在将视频中与输入文本查询相对应的时空片段定位出来。本文通过引入开放词汇时空视频定位任务，解决了当前视频定位方法中的一个关键局限性。与由于有限的训练数据和预定义词汇表而在开放词汇场景中苦苦挣扎的流行封闭集方法不同，我们的模型利用了来自基础空间定位模型的预训练表示。这使它能够有效地弥合自然语言和多样化视觉内容之间的语义差距，在封闭集和开放词汇设置中取得了强大的性能。我们的贡献包括一个新颖的时空视频定位模型，在多个数据集上的封闭集评估中超越了最先进的结果，并在开放词汇场景中展示了优异的性能。值得注意的是，所提出的模型在 VidSTG（陈述性和疑问句）和 HC-STVG（V1 和 V2）数据集上封闭集设置中的表现优于最先进的方法。此外，在 HC-STVG V1 和 YouCook-Interactions 上的开放词汇评估中，我们的模型超过了最近表现最佳的模型，分别提高了 4.88 m_vIoU 和 1.83% 的准确率，证明了它在处理多样化的语言和视觉概念以改善视频理解方面的有效性。我们的代码将公开发布。

1 介绍

Refer to caption — 图 1: 性能比较在传统的封闭集和开放词汇设置中进行视频定位任务。我们在监督设置下将我们的方法与 TubeDETR [28] 和 STCAT [9] 进行了比较，用于 VidSTG [32] 陈述性/疑问句和 HC-STVG V1 [24]，以及在 HC-STVG V1 和 YouCook-Interactions [23] 数据集上的开放词汇评估。

时空视频定位对于将视觉内容与自然语言描述联系起来至关重要，因此有助于促进视觉数据中的语义解释。目前视频定位的主流方法，如 TubeDETR [28]、STCAT [9] 和 STVGFormer [11]，主要集中在监督式封闭集设置上，其中模型是在特定数据集 [32, 24] 上训练的，这些数据集具有预定义的词汇表和精心标注的数据。虽然这些当前最先进的方法在 VidSTG [32] 和 HC-STVG [24] 等数据集的封闭集设置中表现出色，但它们在训练数据集分布之外的泛化能力有限，这带来了重大挑战。现有视频数据集规模相对较小，样本种类有限，阻碍了模型有效地适应未见过的场景。

受监督式封闭集方法在词汇限制方面的固有局限性的驱动，本文研究了开放词汇时空视频定位。与传统方法不同，这种范式解决了现实世界中语言和视觉概念不受限制的多样性带来的挑战。目标是在一组基础类别上进行训练，并根据主干模型的开放词汇性质泛化到未见过的物体/动作。本文探讨了开放词汇视频定位中固有的挑战和机遇，为更强大、更通用的视频理解奠定了基础。

然而，训练一个有效的开放词汇视频定位模型需要一个足够大的数据集，该数据集包含丰富的自然语言表达和相应的时空定位。如此庞大的数据集可以使模型学习到通用的视觉和文本表示，并处理分布外样本。然而，视频定位数据集 [32, 24] 的规模相当有限，例如，VidSTG 只有 5.4k 个训练视频，包含 80.6k 个不同的句子。相比之下，图像定位模型 GLIP [10] 是用 $\sim$ 26.5M 个图像-文本对进行训练的。因此，我们的研究探讨了以下基本问题： 时空视频定位模型如何在不需要大规模视频标注的情况下，在封闭集和开放词汇场景中都实现稳健的性能，从而确保在训练数据集之外有效地泛化？

在解决这个问题时，我们从专门从事空间定位的基础模型的成就中获得了灵感 [8, 14, 4, 29, 12]。这些模型在大量图像-文本数据上进行训练，能够有效地泛化到来自给定目标分布的样本。我们旨在利用这种预训练的表示来增强我们的视频定位模型。我们提出的解决方案是一种时空视频接地模型，采用类似 DETR 的架构，并通过时间聚合模块进行增强。空间模块使用基础图像模型 [12] 的预训练表示进行初始化。同时，图像和文本特征提取器保持冻结，而视频特定的时空自适应则通过可学习的适配器块进行建模。这种方法旨在保留基础模型的细微表示，增强模型有效地推广到新样本的能力。

我们在 Fig. 1 中总结了封闭集和开放词汇结果，其中提出的方法在这两种情况下都明显优于其他方法。我们的主要贡献总结如下：

•

我们首次在 HC-STVG V1 [24] 和 YouCook-Interactions [23] 基准测试中以零样本的方式评估了开放词汇环境下的时空视频接地模型。我们在 m_vIoU 和准确度方面分别超过了最先进的方法 TubeDETR [28] 和 STCAT [9] $4.26$ $1.83\%$ 。
•

通过将空间接地模型的优势与互补的视频特定适配器相结合，我们的方法在四个基准测试中始终优于以前的最先进方法，即 VidSTG (Declarative) [32]、VidSTG (Interrogative) [32]、HC-STVG V1 [24] 和 HC-STVG V2 [24]。

2 相关工作

空间接地基础模型：近期文献介绍了一些显著的空间接地模型。 GLIP [10] 通过语言-图像预训练模型统一了目标检测和短语接地，利用大量的图像-文本对来生成语义丰富的表示。 Grounding DINO [12] 将语言与基于 Transformer 的检测器集成，以实现开放集检测器，在 COCO 和 ODinW 等基准测试中表现出色。 Kosmos-1 [8] 和 Kosmos-2 [14] 为多模态大型语言模型 (MLLM) 做出了贡献，具有零样本和少样本学习、语言理解和多模态任务等功能。 Kosmos-2 [14] 特别将接地集成到下游应用中，引入了 GrIT，这是一个大型的接地图像-文本对数据集。 Shikra [4] 通过处理输入和输出中的空间坐标来解决 MLLM 中的指代能力问题，在各种视觉语言任务中展现出令人鼓舞的性能。 Ferret [29] 将 LLM 范式中的指代和接地统一起来，在经典的指代和接地任务中取得了优异的性能，在基于区域的多模态聊天和图像描述方面表现出色。最近，GLaMM [16] 允许使用 LLM 进行像素级接地对话，展示了其在多个字幕和指代分割任务中的泛化能力。然而，空间方法无法用于将物体接地到视频中，这项工作弥补了这一差距。

时空视频接地：许多方法解决了根据查询句子在未剪辑的视频中定位物体的挑战。 STVGBert [21] 提出了一种用于同时进行空间和时间定位的一阶段视觉语言转换器。 TubeDETR [28] 引入了一种基于转换器的架构，以有效地建模时间、空间和多模态交互。增强的 2D-TAN [22] 采用两阶段方法，使用时间上下文感知双向 LSTM 聚合模块来增强 2D-TAN。 OMRN [33] 解决了时空视频接地中数据未对齐和句子形式多样性的挑战，提出了一种面向对象的多分支关系网络，以有效地发现关系。 MMN [26] 引入了一种互匹配网络，作为时间接地的度量学习框架，取得了有竞争力的性能。 STCAT [9] 是一个端到端的一阶段框架，解决了特征对齐和预测不一致的问题。最后，STVGFormer [11] 提出了一种有效的框架，该框架具有静态和动态分支，用于跨模态理解。虽然上述方法促进了视频接地，但由于视频数据集的限制 [32, 24]，它们对分布外和开放词汇样本的泛化能力有限。为了解决这个问题，我们利用了在大量图像文本数据上训练的空间接地基础模型的泛化表示 [8, 14, 4, 29, 12, 10]，这些模型可以在闭集和开放词汇评估中表现良好。

3 方法

如上所述，目前最先进的时空视频定位方法 [33, 9, 11, 21, 28, 22, 24, 26, 30, 32] 主要在 VidSTG [32] 和 HC-STVG [24] 数据集上的监督环境中进行评估。但是，这些方法缺乏在非分布样本 [2] 上表现良好的多模态时空理解能力。因此，这项工作旨在在保持强大的 封闭集 视频定位性能的同时，实现改进的 开放词汇 性能。

我们从最近用于空间定位的基础模型 [8, 14, 29, 4, 10, 12] 中汲取灵感。这些模型在大量的视觉文本数据上进行训练，因此可以很好地泛化到看不见的样本。我们旨在利用这些基础模型的强大泛化能力来实现强大的开放集时空视频定位性能。我们提出的时空视频定位方法使用类似 DETR 的 [1] 设计，其中包含时间聚合和自适应模块，用于学习特定于视频的表示。

下面，我们将解释我们提出的方法。我们在 Sec. 3.1 中正式定义了时空视频定位问题。然后，我们在 Sec. 3.2 中解释了我们的体系结构细节。最后，我们在 Sec. 3.3 中解释了用于训练模型的损失公式和模型初始化。

3.1 问题定义

时空视频定位任务涉及通过整合空间和时间信息来定位和识别视频序列中的物体和动作。与专注于识别和定位单个帧内物体的空间定位不同，时空定位将此概念扩展到包含时间维度。这意味着要理解物体或动作在每一帧中的位置，以及它们随时间的演变和移动方式。

考虑一个视频 $V\in\mathbb{R}^{T\times H\times W\times C}$ ，它具有 $T$ 帧， $H\times W$ 空间分辨率，和 $C$ 通道，以及一个文本提示 $P$ 。空间定位问题可以定义为使用边界框 $B_{i}^{t}=(x_{i}^{t},y_{i}^{t},w_{i}^{t},h_{i}^{t})$ 在帧 $V_{t},t\in\{1,...,T\}$ 中定位与提示 $P$ 相关联的一个或多个物体，其中 $x_{i}^{t}$ 和 $y_{i}^{t}$ 是左上角的坐标， $w_{i}^{t}$ 和 $h_{i}^{t}$ 是边界框的宽度和高度， $i\in\{1,...,N\}$ 是帧 $t$ 的物体编号。另一方面，时间定位问题涉及理解物体或动作如何随着时间的推移而演变。它旨在定位时间间隔 $(t_{s},t_{e})$ ，其中特定动作/交互发生在整个时间段内，其中间隔 $(t_{s},t_{e})$ 指示对象在总帧数 $T$ 内出现的开始和结束帧 ( $1\leq t_{s}<t_{e}\leq T$ )。因此，与提示 $P$ 关联的对象 $i$ 的时空接地问题可以概括为一组与对象存在的帧子集相关联的时空坐标： $(x_{i}^{t},y_{i}^{t},w_{i}^{t},h_{i}^{t},t)$ 和 $t\in\{t_{s},...,t_{e}\}$ 。间隔 $(t_{s},t_{e})|\{1\leq t_{s}<t_{e}\leq T\}$ 是总帧数 $T$ 的子集。

3.2 时空视频接地

在这里，我们在 Fig. 2 中解释我们的视频接地模型。如前所述，我们的目标是设计一个时空视频接地模型，该模型可以在闭集和开放词汇环境中表现良好。强大的开放词汇性能需要学习丰富的视觉/文本表示，而这反过来又需要大量的训练数据。不幸的是，时空视频接地数据集的规模相当有限 [32, 24]，导致当前的视频接地方法在泛化到分布外样本时效果不佳，因为它们缺乏必要的强大视觉/文本表示。

为了解决这个问题，我们的方法借鉴了最近的空间接地方法 [8, 14, 4, 29, 12]，这些方法由于它们在训练中使用的图像-文本语料库庞大，因此具有强大的开放词汇性能。我们可以利用这些模型的广义表示来丰富从有限的训练样本中获得的视频接地方法的较弱表示。我们的方法旨在利用空间接地方法的强大预训练表示，以实现强大的闭集监督和开放词汇视频接地性能。我们的时空视频接地方法基于最新的基于 DETR 的 [1] 对象检测框架 DINO [31]，并且还借鉴了来自接地语言-图像预训练 (GLIP) [10] 和接地 DINO [12] 的图像-文本对齐和接地概念。我们从主干视觉和文本编码器 $\theta_{v}$ 和 $\theta_{p}$ 中提取初始特征。之后，我们对帧间和帧内特征进行建模，并在跨模态时空编码器 (Sec. 3.2.1) 中学习跨模态视觉/文本关系。经过增强的跨模态特征用于初始化每帧的查询 (Sec. 3.2.2)。然后，这些查询被解码以预测每帧的边界框以及时间接地开始/结束帧，方法是聚合跨空间/时间维度的信息，并通过来自增强视觉/文本上下文的交叉注意力注入信息 (Sec. 3.2.3)。

给定如上所述的视频 $V$ 和文本提示 $P$ ，我们分别从视觉和文本编码器 $\theta_{v}$ 和 $\theta_{p}$ 中获得每帧特征 $F^{0}_{v}$ 和文本特征 $F^{0}_{p}$ 。视觉编码器基于 Swin Transformer [13]，文本编码器被定义为 BERT [6] 模型。与其他基于 DETR 的检测器 [35, 31] 一样，图像特征是从不同视觉编码器块的多尺度提取的。然后将这些特征传递给跨模态时空编码器。

3.2.1 跨模态时空编码器

初始视觉和文本特征 $F^{0}_{v}$ 和 $F^{0}_{p}$ 既不包含任何跨模态信息，也不对跨帧的时序关系进行建模。因此，我们通过跨模态时空编码器进一步对初始特征进行编码，以对跨帧的时序信息进行建模，并学习跨模态特征。

$M$ 层编码器的每一层首先将多头自注意力 ( $\mathrm{MHSA}$ ) [25] 应用于视觉特征 $F_{v}$ 沿着时序维度，然后沿着空间维度应用可变形注意力 ( $\mathrm{DA}$ ) [35]。这样做是为了对帧内和跨帧的时序关系进行建模。同样，我们对文本特征 $F_{p}$ 应用 $\mathrm{MHSA}$ 。这在 Eq. 1 中进行了说明。

	$\displaystyle F^{m\prime}_{v}$	$\displaystyle=\mathrm{DA}^{m}_{spatial}(\mathrm{MHSA}^{m}_{temporal}(F^{m-1}_{% v})),$		(1)
	$\displaystyle F^{m\prime}_{p}$	$\displaystyle=\mathrm{MHSA}^{m}_{p}(F^{m-1}_{p}),$		(1)

其中 $F^{m-1}_{v}$ 和 $F^{m-1}_{p}$ 是视觉和文本输入特征到层 $m$ ， $F^{m\prime}_{v}$ 和 $F^{m\prime}_{p}$ 是中间视觉和文本特征表示， $\mathrm{DA}^{m}_{spatial}$ ， $\mathrm{MHSA}^{m}_{temporal}$ 和 $\mathrm{MHSA}^{m}_{p}$ 分别是层 $m\in\{1,...,M\}$ 的空间可变形、时序和文本注意力。在初始空间、时序和文本注意力之后，我们融合了跨视觉和文本模态的特征，如 GLIP [10] 中所做的那样。

更具体地说，我们使用投影的中间特征 $F^{m\prime}_{v}$ 和 $F^{m\prime}_{p}$ 计算联合视觉文本注意力 $\mathrm{Attn^{m}_{joint}}$ 。然后将这种注意力与中间特征 $F^{m\prime}_{v}$ 和 $F^{m\prime}_{p}$ 一起使用，以计算图像到文本和文本到图像的跨注意力，如 Eq. 2 和 Eq. 3 中所示。

\mathrm{Attn^{m}_{joint}}=\left(\frac{proj^{m}_{q,v}(F^{m\prime}_{v})proj^{m}_% {q,p}(F^{m\prime}_{p})^{T}}{\sqrt{d^{k}}}\right),

(2)

其中 $proj^{m}_{q,v}$ 和 $proj^{m}_{q,p}$ 分别是层 $m$ 的视觉和文本特征的查询投影。

	$\displaystyle F^{m}_{v}$	$\displaystyle=\mathrm{FFN}^{m}_{v}(\mathrm{softmax}(\mathrm{Attn^{m}_{joint}})% proj^{m}_{p}(F^{m\prime}_{p}))),$		(3)
	$\displaystyle F^{m}_{p}$	$\displaystyle=\mathrm{FFN}^{m}_{p}(\mathrm{softmax}(\mathrm{Attn^{m}_{joint}}^% {T})proj^{m}_{v}(F^{m\prime}_{v}))),$		(3)

其中 $F^{m}_{v}$ 和 $F^{m}_{p}$ 是编码器第 $m$ 层的最终输出特征， $\mathrm{FFN}^{m}_{v}$ 和 $\mathrm{FFN}^{m}_{v}$ 是视觉和文本前馈网络 (FFN)， $proj^{m}_{v}$ 和 $proj^{m}_{p}$ 是将视觉和文本特征投影到线性层的线性层。然后，第 $m=M$ 层的最终编码特征被用于初始化跨模态查询。

3.2.2 语言引导的查询选择

该模块旨在选择与输入文本更相关的特征作为解码器查询，以实现有效的语言-视觉融合。我们将 DETR/DINO [1, 31] 风格的查询与正弦时间位置编码组合到查询的位置部分。添加到查询位置部分的正弦位置编码增加了关于帧序列的重要上下文信息，从而允许改进时间相关性和接地 [28]。查询选择模块将编码器的视觉和文本特征作为输入，并输出 $num\_query$ 索引，这些索引对应于每帧对象检测的最相关特征， $\{Q^{0}_{t}\}_{t=1}^{T}$ ，其中 $Q^{0}_{t}$ 是帧 $t$ 的初始查询。该模块使用所选索引和动态锚框的组合来初始化解码器查询。查询的内容部分被设置为在训练期间可学习，而位置部分使用使用编码器输出初始化的动态锚框计算。我们还将正弦时间位置编码添加到查询的位置部分。

3.2.3 跨模态时空解码器

为了将上述查询解码为边界框位置和时间开始/结束管，我们需要将它们转换为输出嵌入，然后可以将其馈送到预测头。解码器允许查询在帧内和跨帧与其他查询全局交互，同时利用整个视觉和文本特征作为上下文。正式地说，之前产生的查询被馈送到 $N$ 层解码器。每层都从时间自注意开始，然后是空间自注意，然后是视觉交叉注意和文本交叉注意，最后是 FFN。这在 Eq. 4 中表示。

	$\displaystyle Q^{n\prime}_{t}$	$\displaystyle=\mathrm{MHSA}_{spatial}^{n}(\mathrm{MHSA}_{temporal}^{n}(Q^{n-1}% _{t})),$		(4)
	$\displaystyle Q^{n}_{t}$	$\displaystyle=\mathrm{FFN}^{n}(\mathrm{CA}^{n}_{p}(\mathrm{CA}^{n}_{v}(Q^{n% \prime}_{t},F^{M}_{v}),F^{M}_{p})),$		(4)

其中 $Q^{n-1}_{t}$ 是第 $n\in\{1,...,N\}$ 层的输入查询， $Q^{n\prime}_{t}$ 是第 $n$ 层在空间和时间注意后的中间查询， $Q^{n\prime}_{t}$ 是第 $n$ 层的输出查询， $\mathrm{CA}^{n}_{v}$ 和 $\mathrm{CA}^{n}_{p}$ 是第 $n$ 层的视觉和文本交叉注意。交叉注意在 Eq. 5 中进一步阐述。

	$\displaystyle\mathrm{CA}^{n}_{v}(Q^{n\prime}_{t},F^{M}_{v})$	$\displaystyle=\left(\frac{proj^{n}_{q,v}(Q^{n\prime}_{t})proj^{n}_{k,v}(F^{M}_% {v})^{T}}{\sqrt{d^{k}}}proj^{n}_{v}(F^{M}_{v})^{T}\right),$		(5)
	$\displaystyle\mathrm{CA}^{n}_{p}(\mathrm{CA}^{n}_{v},F^{M}_{p})$	$\displaystyle=\left(\frac{proj^{n}_{q,p}(\mathrm{CA}^{n}_{v})proj^{n}_{k,p}(F^% {M}_{p})^{T}}{\sqrt{d^{k}}}proj^{n}_{p}(F^{M}_{p})^{T}\right),$		(5)

其中 $proj^{n}_{q,v}$ 、 $proj^{n}_{k,v}$ 和 $proj^{n}_{v}$ 分别是第 $n$ 层和 $proj^{n}_{q,p}$ 层的视觉查询、键和值投影，而 $proj^{n}_{k,p}$ 和 $proj^{n}_{p}$ 分别是文本查询、键和值投影。然后，将来自第 $N$ 层解码器的最终查询 $\{Q^{N}_{t}\}_{t=1}^{T}$ 用于预测。

3.2.4 预测头

解码器输出每帧 $\{Q^{N}_{t}\}_{t=1}^{T}$ 的细化查询。我们遵循标准的类似 DETR 的边界框回归头，该头实现为多层感知器 (MLP)，用于预测每帧的边界框 $B_{i}^{t}=(x_{i}^{t},y_{i}^{t},w_{i}^{t},h_{i}^{t})$ 。为了预测时间间隔 $(t_{s},t_{e})|\{1\leq t_{s}<t_{e}\leq T\}$ ，我们在边界框回归头旁边添加了一个时间接地头，该头实现为一个 MLP，类似于 [28, 9] 等现有作品。新的头预测间隔开始 $\tau_{s}\in[0,1]^{T}$ 和结束 $\tau_{e}\in[0,1]^{T}$ 的概率。在推理期间，通过获取 $(\tau_{s},\tau_{e})$ 的联合分布的最大值来计算开始和结束间隔 $(t_{s},t_{e})|\{1\leq t_{s}<t_{e}\leq T\}$ 。任何具有 $t_{e}\leq t_{s}$ 的无效组合都被屏蔽。

3.3 损失函数

为了利用来自空间接地基础模型的广义预训练表示，我们从 Grounding DINO [12] 空间接地模型初始化所有空间模块和交叉注意力。为了在确保有效建模下游任务的同时保留这种广义表示，我们冻结视觉和文本编码器 $\theta_{v}$ 和 $\theta_{p}$ ，并微调其余组件。

在训练期间，模型接收一批带有文本提示 $P$ 的视频 $V$ 。真实标注包含边界框序列 $\{B_{i}^{t}\}_{t=t_{s}}^{t_{e}}$ 以及相应的开始和结束时间戳 $(t_{s},t_{e})$ 。对于空间接地，我们遵循类似 DETR 的 [1, 35, 31] 中使用的标准损失公式，即 $L_{1}$ 损失、 $\mathcal{L}_{L_{1}}$ 和广义交并比 (GIoU) [17] 损失、 $\mathcal{L}_{GIoU}$ 。正式地，空间接地损失 $\mathcal{L}_{spatial}$ 在 Eq. 6 中定义。

\mathcal{L}_{spatial}=\lambda_{L_{1}}\mathcal{L}_{L_{1}}(\hat{B},B)+\lambda_{% GIoU}\mathcal{L}_{GIoU}(\hat{B},B).

(6)

对于时间接地，我们遵循 [18, 21, 28] 并生成两个 $1$ 维高斯热图 $\pi_{s},\pi_{e}\in\mathcal{R}^{T}$ ，用于开始和结束位置。因此，时间接地损失在 Eq. 7 中定义为：

\mathcal{L}_{temporal}=\mathcal{L}_{KL}^{s}(\hat{\pi_{s}},\pi_{s})+\mathcal{L}% _{KL}^{e}(\hat{\pi_{e}},\pi_{e}),

(7)

其中 $\mathcal{L}_{KL}^{s}$ 和 $\mathcal{L}_{KL}^{e}$ 分别是起始和结束分布的 KL 散度损失。

请注意，模型在推理期间输出边界框和起始/结束分布。我们通过获取具有最大联合起始和结束概率的段来确定时间接地段 $(t_{s},t_{e})$ 。然后，我们仅考虑该管内的边界框以进行空间接地。

4 结果

表 1：在开放词汇设置下，HC-STVG V1 [24] 和 YouCook-Interactions [23] 上最先进技术的性能比较。

Method	Pre-training	HC-STVG V1			YouCook-Interactions
Method	Pre-training	m_vIoU	vIoU@0.3	vIoU@0.5	Accuracy
TubeDETR (CVPR’22) [28]	VidSTG	16.84	22.32	9.22	51.63
STCAT (NeurIPS’22) [9]	VidSTG	22.58	32.14	20.83	55.90
VideoGrounding-DINO	VidSTG	27.46	40.13	29.92	57.73

4.1 实验设置和协议

以下，我们首先简要解释实现细节 (Sec. 4.1.1)，然后介绍评估设置 (Sec. 4.1.2) 和我们工作中使用的数据集 (Sec. 4.1.3)。

4.1.1 实现细节

正如方法论 (Sec. 3) 中所述，我们从 Grounding DINO [12] 空间接地模型初始化模型中的空间模块，并保持视觉和文本编码器冻结。我们针对空间和时间预测的预测头都设置为 3 层多层感知器 (MLP)。我们在训练和推理期间采样 128 帧，调整为较短边为 $448$ 的分辨率。我们将 $M$ 和 $N$ 都设置为 $6$ ，并使用 $8$ 的批次大小和 $1e^{-4}$ 的学习率训练模型，以及 $10^{-4}$ 的权重衰减。 VidSTG 的迭代次数设置为 $10$ ，而 HC-STVG V1/V2 的迭代次数设置为 $90$ 。

4.1.2 评估设置

我们在两种设置下评估我们的视频定位模型，开放词汇 和 封闭集监督。

开放词汇评估：在开放词汇设置中，我们在 VidSTG [32] 数据集上训练我们的模型，然后在两个不同的数据集上进行评估，HC-STVG V1 [24] 和 YouCook-Interactions [23]，以了解模型对新分布的泛化能力。选择这两个数据集的原因是，前者提供了相对较小的分布偏移，因为与训练数据集 VidSTG 相比，视频中的视角/物体相似。相反，后者提供了较大的分布偏移，视角和标注的物体/交互发生了变化。

封闭集监督评估：在监督评估设置中，我们在训练集上进行训练，并评估每个数据集各自的验证/测试集。此评估针对时空视频定位中常用的三个数据集进行，即 VidSTG [32]、HC-STVG V1 [24] 和 HC-STVG V2 [24]。

表 2: 在封闭集监督设置下，VidSTG [32] 测试集上最先进技术的性能比较。

Method	Declarative Sentences				Interrogative Sentences
Method	m_tIoU	m_vIoU	vIoU@0.3	vIoU@0.5	m_tIoU	m_vIoU	vIoU@0.3	vIoU@0.5
Factorized:
GroundeR (ECCV’16) [19]+TALL (ICCV’17) [7]	34.63	9.78	11.04	4.09	33.73	9.32	11.39	3.24
STPR (ICCV’17) [27]+TALL (ICCV’17) [7]		10.40	12.38	4.27		9.98	11.74	4.36
WSSTG (arXiv’19) [5]+TALL (ICCV’17) [7]		11.36	14.63	5.91		10.65	13.90	5.32
GroundeR (ECCV’16) [19]+L-Net (AAAI’19) [3]	40.86	11.89	15.32	5.45	39.79	11.05	14.28	5.11
STPR (ICCV’17) [27]+L-Net (AAAI’19) [3]		12.93	16.27	5.68		11.94	14.73	5.27
WSSTG (arXiv’19) [5]+L-Net (AAAI’19) [3]		14.45	18.00	7.89		13.36	17.39	7.06
Two-Stage:
STGRN (CVPR’20) [32]	48.47	19.75	25.77	14.60	46.98	18.32	21.10	12.83
STGVT (TCSVT’21) [24]	-	21.62	29.80	18.94	-	-	-	-
OMRN (IJCAI’21) [33]	50.73	23.11	32.61	16.42	49.19	20.63	28.35	14.11
One-Stage:
STVGBert (ICCV’21) [21]	-	23.97	30.91	18.39	-	22.51	25.97	15.95
TubeDETR (CVPR’22) [28]	48.10	30.40	42.50	28.20	46.90	25.70	35.70	23.20
STCAT (NeurIPS’22) [9]	50.82	33.14	46.20	32.58	49.67	28.22	39.24	26.63
STVGFormer (CVPR’23) [11]	-	33.70	47.20	32.80	-	28.50	39.90	26.20
VideoGrounding-DINO	51.97	34.67	48.11	33.96	50.83	29.89	41.03	27.58

4.1.3 数据集

我们评估了我们的方法，并在两种设置中与最先进的技术进行了比较：开放词汇 和 封闭集监督，涵盖了四个定位数据集，即：VidSTG [32]、HCSTVG V1 [24]、HCSTVG V2 [24] 和 YouCook-Interactions [23]。

表 3: 在封闭集监督设置下，HC-STVG V1 [24] 测试集上最先进技术的性能比较。

Methods	m_vIoU	vIoU@0.3	vIoU@0.5
STGVT (TCSVT’21) [24]	18.15	26.81	9.48
STVGBert (ICCV’21) [21]	20.42	29.37	11.31
TubeDETR (CVPR’22) [28]	32.40	49.80	23.50
STCAT (NeurIPS’22) [9]	35.09	57.67	30.09
STVGFormer (CVPR’23) [11]	36.90	62.20	34.80
VideoGrounding-DINO	38.25	62.47	36.14

表 4: 在封闭式监督设置下，HC-STVG V2 [24] 验证集上最先进技术的性能比较。

Methods	m_vIoU	vIoU@0.3	vIoU@0.5
Yu et al (arXiv’21) [30]	30.00	-	-
Aug. 2D-TAN (arXiv’21) [22]	30.40	50.40	18.80
TubeDETR (CVPR’22) [28]	36.40	58.80	30.60
STVGFormer (CVPR’23) [11]	38.70	65.50	33.80
VideoGrounding-DINO	39.88	67.13	34.49

VidSTG: VidSTG [32] 数据集源自 VidOR [20] 数据集，包含了对象关系标注。它包含 99,943 个视频文本对，涵盖了 44,808 个陈述句查询和 55,135 个疑问句查询。训练集、验证集和测试集分别包含 80,684、8,956 和 10,303 个句子，以及 5,436、602 和 732 个视频。 VidSTG 的文本查询仅限于描述 VidOR [20] 中预定义的对象/关系类别。

HC-STVG V1/V2： HC-STVG 数据集源于电影场景，每个视频片段大约 20 秒。由于视频片段包含多个参与类似动作的个人，这些数据集在时空定位方面提出了挑战。 HC-STVG V1 包含 4,500 个训练视频文本对和 1,160 个测试视频文本对。 HC-STVG V2 扩展了 HC-STVG V1，通过 10,131、2,000 和 4,413 个样本分别增强了训练、验证和测试的标注质量。由于 HC-STVG V2 的测试集标注无法公开获得，因此结果是在验证集上报告的。

表 5: 在封闭式监督设置下，VidSTG [32] 测试集上对我们方法中各种设计选择的消融研究。

Method	Declarative Sentences				Interrogative Sentences
Method	m_tIoU	m_vIoU	vIoU@0.3	vIoU@0.5	m_tIoU	m_vIoU	vIoU@0.3	vIoU@0.5
Naive Solution (Frozen Grounding DINO [12])	39.78	18.07	22.31	13.75	39.79	9.66	10.42	3.84
+ Decoder Temporal Aggregation	42.81	20.74	26.53	15.41	43.81	12.38	16.71	8.62
+ Encoder Temporal Aggregation	46.29	23.19	32.38	18.95	47.17	16.19	23.28	13.04
+ Finetuned Spatial Modules in Decoder	48.06	28.97	41.60	26.06	49.58	24.27	32.85	20.11
+ Finetuned Spatial Modules in Encoder	51.97	34.67	48.11	33.96	50.83	29.89	41.03	27.58

YouCook-Interactions: YouCook-Interactions [23] 数据集是 YouCook2 [34] 数据集的扩展，专注于烹饪指令。此扩展包括 6,000 个精心挑选的帧的边界框，通常包含与相应句子级标注中指定的“手”和“工具”相对应。我们的评估围绕使用此数据集检查模型的空间定位能力展开。

4.2 实验结果与分析

本节介绍我们在上述评估设置（Sec. 4.1.2）和数据集（Sec. 4.1.3）中的结果。我们从 Sec. 4.2.2 中的闭集评估开始，然后是 Sec. 4.2.1 中的 开放词汇 评估。

4.2.1 开放词汇评估

对于开放词汇评估，我们在 VidSTG [32] 上进行训练，并在 HC-STVG V1 [24] 和 YouCook-Interactions [23] 上展示结果。结果在 Tab. 1 中联合报告。

HC-STVG V1 上的结果：我们报告了关于 m_vIoU、vIoU@0.3 和 vIoU@0.5 的开放词汇评估。我们在 TubeDETR [28] 和 STCAT [9] 上都取得了最先进的性能。我们将这种强大的性能归因于我们的设计，它利用了空间接地基础模型强大的预训练泛化特征。

YouCook-Interactions 上的结果：我们在 YouCook-Interactions [23] 数据集上进一步评估了我们的方法，报告了空间接地的指向游戏准确率。我们的方法在准确率方面比 STCAT [9] 提高了近 $2\%$ ，比 TubeDETR [28] 提高了超过 $6\%$ 。这进一步表明了我们在开放词汇设置中的强大泛化能力。

4.2.2 封闭集监督评估

我们在三个数据集上展示了封闭集评估：VidSTG [32]、HC-STVG V1 [24] 和 HC-STVG V2 [24]。

VidSTG 上的结果：我们在 Tab. 2 中展示了 VidSTG 测试集在封闭集设置中的结果，报告了 m_tIoU、m_vIoU、vIoU@0.3 和 vIoU@0.5。结果表明，我们的方法在与 两阶段 和 单阶段 方法的比较中，实现了最先进的性能。特别是，我们在时间定位方面比之前最好的方法 OMRN [33]（单阶段）和 STVGFormer [11]（两阶段）获得了超过 $1t\_IoU$ 的增益，这两种方法都适用于陈述句和疑问句。同样，对于 m_vIoU、vIoU@0.3 和 vIoU@0.5，我们获得了超过 $1$ 个单位的增益，比最先进的方法 STVGFormer [11] 和 STCAT [9] 还要高。请注意，我们的方法使用的是冻结的视觉和文本编码器。相反，上面提到的那些先前最先进的方法都训练了整个编码器。

HC-STVG V1 上的结果：我们在 Tab. 3 中展示了 HC-STVG V1 数据集的结果，报告了 m_vIoU、vIoU@0.3 和 vIoU@0.5。我们在 m_vIoU 和 vIoU@0.5 上获得了近 $1.5$ 个单位的增益，在 vIoU@0.3 上获得了 $1$ 个单位的增益，超过了之前最好的方法 STVGFormer [11]。这表明了我们的方法在这个数据集上的稳定性能。

HC-STVG V2 上的结果：我们在 Tab. 4中展示了 HC-STVG V2 数据集的结果，报告了 m_vIoU、vIoU@0.3 和 vIoU@0.5。我们在 HC-STVG V1 上的性能提升也反映在这里，与 SoTA [11, 28] 相比，在 HC-STVG V2 上实现了持续的性能提升。

4.3 消融分析

我们对模型的各种设计选择进行了消融分析。特别地，我们首先评估了一个简单的基线，其中没有添加额外的时序聚合器，并且编码器和解码器中的所有预训练空间模块都被冻结。这个基线在时序和空间定位方面都比较弱。接下来，我们首先在解码器中添加时序模块，随后在编码器中添加。我们发现它在时序定位方面取得了显著的改进，并且还改善了空间定位。最后，我们在解码器和编码器中微调了预训练的空间模块，这在空间定位方面提供了显著的改进，同时在时序定位方面也获得了持续的改进。

4.4 局限性

虽然我们的视频定位模型在闭集和开放词汇场景中表现出色，但它利用了像 Grounding DINO [12] 这样的图像-文本预训练模型。为了增强对开放词汇场景的理解，可以扩展到像 CLIP [15] 一样的更大、更多样化的数据集上的视频-语言预训练，这将有助于进一步提高性能。鉴于 VidSTG [32] 和 HC-STVG [24] 等数据集的限制，构建一个具有多样化自然语言表达和时空定位的视频-语言预训练数据集是必不可少的。

5 结论

本文介绍了一种开放词汇时空视频定位任务，通过使用来自空间定位模型的预训练表示，增强了当前的闭集方法。提出的模型在闭集和开放词汇场景中表现出色，在 VidSTG 和 HC-STVG 数据集的有监督设置中超越了最先进的结果，并且在 HC-STVG V1 和 YouCook-Interactions 的开放词汇场景中也优于最近的模型。其架构包括可学习的适配器块，用于视频特异性适配，弥合自然语言查询和视觉内容之间的语义差距。本研究解决开放词汇挑战，探索如何在没有大量视频标注的情况下实现鲁棒性能，为开放词汇视频接地铺平道路。

参考文献

Carion et al. [2020] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.
Chen et al. [2023a] Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Daniel Kondermann, Samuel Thomas, Shih-Fu Chang, Rogerio Feris, James Glass, and Hilde Kuehne. What, when, and where? – self-supervised spatio-temporal grounding in untrimmed multi-action videos from narrated instructions. arXiv preprint arXiv:2303.16990, 2023a.
Chen et al. [2019a] Jingyuan Chen, Lin Ma, Xinpeng Chen, Zequn Jie, , and Jiebo Luo. Localizing natural language in videos. In AAAI, 2019a.
Chen et al. [2023b] Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, and Rui Zhao. Shikra: Unleashing multimodal llm’s referential dialogue magic. arXiv preprint arXiv:2306.15195, 2023b.
Chen et al. [2019b] Zhenfang Chen, Lin Ma, Wenhan Luo, , and Kwan-Yee K Wong. Weakly-supervised spatio-temporally grounding natural sentence in video. arXiv preprint arXiv:1906.02549, 2019b.
Devlin et al. [2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2019.
Gao et al. [2017] Jiyang Gao, Chen Sun, Zhenheng Yang, , and Ram Nevatia. Tall: Temporal activity localization via language query. In ICCV, 2017.
Huang et al. [2023] Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, and Furu Wei. Language is not all you need: Aligning perception with language models. arXiv preprint arXiv:2302.14045, 2023.
Jin et al. [2022] Yang Jin, Yongzhi Li, Zehuan Yuan, and Yadong Mu. Embracing consistency: A one-stage approach for spatio-temporal video grounding. In NeurIPS, 2022.
Li* et al. [2022] Liunian Harold Li*, Pengchuan Zhang*, Haotian Zhang*, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, and Jianfeng Gao. Grounded language-image pre-training. In CVPR, 2022.
Lin et al. [2023] Zihang Lin, Chaolei Tan, Jian-Fang Hu, Zhi Jin, Tiancai Ye, and Wei-Shi Zheng. Collaborative static and dynamic vision-language streams for spatio-temporal video grounding. In CVPR, 2023.
Liu et al. [2023] Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, et al. Grounding dino: Marrying dino with grounded pre-training for open-set object detection. arXiv preprint arXiv:2303.05499, 2023.
Liu et al. [2021] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV, 2021.
Peng et al. [2023] Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, and Furu Wei. Kosmos-2: Grounding multimodal large language models to the world. arXiv preprint arXiv:2306.14824, 2023.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
Rasheeda et al. [2023] Hanoona Rasheeda, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Eric Xing, Ming-Hsuan Yang, and Fahad S. Khan. Glamm: Pixel grounding large multimodal model. arXiv preprint arXiv:2311.03356, 2023.
Rezatofighi et al. [2019] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union. In CVPR, 2019.
Rodriguez et al. [2020] Cristian Rodriguez, Edison Marrese-Taylor, Fatemeh Sadat Saleh, Hongdong Li, and Stephen Gould. Proposal-free temporal moment localization of a natural-language query in video using guided attention. In WACV, 2020.
Rohrbach et al. [2016] Anna Rohrbach, Marcus Rohrbach, Ronghang Hu, Trevor Darrell, , and Bernt Schiele. Grounding of textual phrases in images by reconstruction. In ECCV, 2016.
Shang et al. [2019] Xindi Shang, Donglin Di, Junbin Xiao, Yu Cao, Xun Yang, and Tat-Seng Chua. Annotating objects and relations in user-generated videos. In ICMR, 2019.
Su et al. [2021] Rui Su, Qian Yu, , and Dong Xu. Stvgbert: A visual- linguistic transformer based framework for spatio-temporal video grounding. In ICCV, 2021.
Tan et al. [2021a] Chaolei Tan, Zihang Lin, Jian-Fang Hu, Xiang Li, and Wei-Shi Zheng. Augmented 2d-tan: A two-stage approach for human-centric spatio-temporal video grounding. arXiv preprint arXiv:2106.10634, 2021a.
Tan et al. [2021b] Reuben Tan, Bryan A. Plummer, Kate Saenko, Hailin Jin, and Bryan Russell. Look at what i’m doing: Self-supervised spatial grounding of narrations in instructional videos, 2021b.
Tang et al. [2021] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. IEEE Transactions on Circuits and Systems for Video Technology, 2021.
Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017.
Wang et al. [2022] Zhenzhi Wang, Tao Wu, Tianhao Li, and Gangshan Wu. Negative sample matters: A renaissance of metric learning for temporal grounding. In AAAI, 2022.
Yamaguchi et al. [2017] Masataka Yamaguchi, Kuniaki Saito, Yoshitaka Ushiku, , and Tatsuya Harada. Spatio-temporal person retrieval via natural language queries. In ICCV, 2017.
Yang et al. [2022] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, and Cordelia Schmid. Tubedetr: Spatio-temporal video grounding with transformers. In CVPR, 2022.
You et al. [2023] Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, and Yinfei Yang. Ferret: Refer and ground anything anywhere at any granularity. arXiv preprint arXiv:2310.07704, 2023.
Yu et al. [2021] Yi Yu, Xinying Wang, Wei Hu, Xun Luo, and Cheng Li. 2rd place solutions in the hc-stvg track of person in context challenge 2021. arXiv preprint arXiv:2106.07166, 2021.
Zhang et al. [2022] Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, and Heung-Yeung Shum. Dino: Detr with improved denoising anchor boxes for end-to-end object detection. arXiv preprint arXiv:2203.03605, 2022.
Zhang et al. [2020] Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu, and Lianli Gao. Where does it exist: Spatio-temporal video grounding for multi-form sentences. In CVPR, 2020.
Zhang et al. [2021] Zhu Zhang, Zhou Zhao, Zhijie Lin, Baoxing Huai, and Jing Yuan. Object-aware multi-branch relation networks for spatio-temporal video grounding. In IJCAI, 2021.
Zhou et al. [2018] Luowei Zhou, Nathan Louis, and Jason J Corso. Weakly-supervised video object grounding from text by loss weighting and object interaction. In BMVC, 2018.
Zhu et al. [2021] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2021.