人类利用多种感官来理解环境。 视觉和语言是我们最重要的两种感官,因为它们使我们能够轻松地表达我们的思想和感知周围的世界。 由于视频语言对可以模仿我们的语言媒介和具有时间动态的视觉环境,因此人们对创建具有类人感官的视频语言理解系统产生了浓厚的兴趣。 在这篇综述中,我们回顾了这些系统的关键任务,并强调了相关的挑战。 基于这些挑战,我们从模型架构、模型训练和数据角度总结了它们的方法。 我们还对这些方法进行了性能比较,并讨论了未来研究的有希望的方向。

1 引言

视觉和语言构成了我们感知的基本组成部分:视觉使我们能够感知物理世界,而语言使我们能够描述和谈论它。 然而,世界不仅仅是一幅静态的图像,而是表现出动态性,其中物体随时间移动和相互作用。 随着时间维度的出现,视频能够捕捉到表征物理世界的这种时间动态。 因此,为了赋予人工智能以类人的感知能力,研究人员一直在开发能够解释视频的时空动态和语言语义的视频语言理解模型,这可以追溯到 1970 年代 (Lazarus, 1973; McGurk and MacDonald, 1976) 这些模型与图像语言理解模型不同,因为它们表现出额外的解释时间动态的能力 (Li et al., 2020)

它们在各种视频语言理解任务中表现出了令人印象深刻的性能。 这些任务从粗粒度到细粒度理解能力评估视频语言模型。 例如,对于粗粒度的理解,文本-视频检索任务评估模型将语言查询与整个视频整体关联的能力 (Han 等人,2023) 为了更细粒度的理解能力,视频字幕模型需要理解整个视频内容和细节内容,然后用简洁的语言描述内容 (Abdar 等人,2023) 视频问答中的细粒度理解仍然是一项困难的任务,其中模型需要识别细微的视觉对象或动作,并推断其语义、空间、时间和因果关系 (Xiao 等人,2021)

为了有效地执行此类视频-语言理解任务,视频-语言理解工作必须探索三个挑战。 第一个挑战在于设计一种适当的神经架构来模拟视频和语言模态之间的交互。 第二个挑战是设计一种有效的策略来训练视频-语言理解模型,以便有效地适应多个目标任务和领域。 第三个挑战是准备高质量的视频-语言数据,为这些模型的训练提供燃料。

理解任务 [ 文本-视频检索 [ 例如 (Jiang 等人,2022a;Jin 等人,2023;Dong 等人,2022;Pei 等人,2023;Lin 等人,2022;Zhang 等人,2023a), text width=33em, fill=hidden-blue!90 ] ] [ 视频字幕 [ 例如 (Seo 等人,2022;Wu 等人,2021;Zhang 等人,2020;Pan 等人,2020;Xu 等人,2020;Lin 等人,2020), text width=33em, fill=hidden-blue!90 ] ] [ 视频问答 [ 例如 (Xiao 等人,2023b, 2022b;Park 等人,2021;Li 等人,2023e;Guo 等人,2021;Peng 等人,2021;Zhao 等人,2017b), text width=33em, fill=hidden-blue!90 ] ] [ 其他任务 [ 例如 (Liu 等人,2022;Zeng 等人,2022;Yang 等人,2021;Li 等人,2023c;Lin 等人,2023;Hwang 等人,2023), text width=33em, fill=hidden-blue!90 ] ] ] [ 视频-语言

理解方法 [ 模型架构 [ 预Transformer, text width=5em [ 例如 (Ye 等人,2017;Feichtenhofer 等人,2016;Yang 等人,2017;Zhao 等人,2017a), text width=26.4em, fill=hidden-blue!90 ] ] [ 基于Transformer, text width=5em [ 例如 (Akbari 等人,2021;Tang 等人,2021;Li 等人,2023b;Luo 等人,2022;Xue 等人,2022b), text width=26.4em, fill=hidden-blue!90 ] ] [ LLM增强, text width=5em [ 例如 (Zhang 等人,2023b;Li 等人,2023a;Chen 等人,2023;Li 等人,2023d;Pan 等人,2023), text width=26.4em, fill=hidden-blue!90 ] ] ] [ 模型训练 [ 预训练, text width=5em [ 例如 (Cheng 等人,2023;Lei 等人,2021c;Fu 等人,2023;Gao 等人,2021;Bain 等人,2021), text width=26.4em, fill=hidden-blue!90 ] ] [ 微调, text width=5em [ 例如 (Xu 等人,2019;Anne Hendricks 等人,2017;Pan 等人,2022;Yang 等人,2022a), text width=26.4em, fill=hidden-blue!90 ] ] ] [ 数据视角 [ 数据整理, text width=5em [ 手动收集, text width=5.6em [ 例如 (Xue 等人,2022a;Zellers 等人,2021;Castro 等人,2022b), fill=hidden-blue!90, text width=19.2em, ] ] [ 数据增强, text width=5.6em [ 例如 (Xing 等人,2023;Jiang 等人,2022c;Wang 等人,2021b), fill=hidden-blue!90, text width=19.2em, ] ] ] [ 标签标注, text width=5em [ 手动标注, text width=5.6em [ 例如 (Li 等人,2022a;Xiao 等人,2021;Castro 等人,2022a), fill=hidden-blue!90, text width=19.2em ] ] [ 自动生成, text width=5.6em [ 例如 (Zhao 等人,2023;Yang 等人,2023a;Ventura 等人,2023), fill=hidden-blue!90, text width=19.2em ] ] ] ] ] ]

图 1: 视频-语言理解分类

尽管最近有一些工作试图回顾视频-语言理解,但它们主要侧重于一个挑战,例如基于Transformer (Ruan 和 Jin,2022) 和LLM增强架构 (Tang 等人,2023b)(第一个挑战),自监督学习 (Schiappa 等人,2023) 和预训练 (Cheng 等人,2023)(第二个挑战),以及数据增强 (Zhou 等人,2024)(第三个挑战)。 此外,其他工作也仅仅关注一个视频-语言理解任务,例如 视频问答 (Zhong 等人,2022),文本-视频检索 (Zhu 等人,2023) 和视频字幕 (Abdar 等人,2023) 这种狭隘的关注与日益增长的共识相矛盾,该共识倡导开发能够适应各种任务和领域的人工通用智能。 考虑一个人机交互场景,其中一个人反复提出关于视频的问题,搜索相关时刻,并请求摘要。 此类用例需要广泛的能力来理解视频和语言内容,而不受特定任务的限制。 此外,视频-语言理解系统的开发通常涉及一个多步骤过程,包括设计模型架构、制定训练方法和准备数据,而不是一个单一步骤的努力。 因此,本文旨在提供一个全面而有意义的综述,以连接视频语言理解的各个方面。 我们的贡献如下:

  • 我们总结了视频语言理解的关键任务,并讨论了它们的共同挑战:模内和跨模交互、跨域自适应和数据准备。

  • 我们从三个方面,根据上述三个挑战,对视频语言理解工作进行了清晰的分类:(1) 模型架构视角: 我们将现有工作分为预Transformer、基于Transformer和LLM增强的架构,以对视频语言关系进行建模。 在后一类别中,我们讨论了最近利用LLM的优势来增强视频语言理解的努力。 (2) 模型训练视角: 我们将训练方法分为预训练和微调,以使视频语言表示适应目标下游任务。 (3) 数据视角: 我们总结了现有的方法,这些方法用于整理视频语言数据并对其进行标注,以促进视频语言理解模型的训练。

  • 最后,我们提供了我们的展望,并提出了未来研究的潜在方向。

2 视频语言任务

Refer to caption
图 2: 视频语言理解任务的层次结构。

文本-视频检索。 文本-视频检索的任务是根据语言查询(文本到视频)搜索相应的视频,或者相反地根据视频搜索语言描述(视频到文本)。 在实际应用中,返回整个视频可能并不理想。 因此,视频片段检索 (VMR) 应运而生,其目标是根据用户查询准确地定位视频中的相关片段。 VMR 考察了更细致入微的理解,以捕捉视频中不同的概念和事件,从而准确地定位特定片段,而不是像标准文本-视频检索那样捕捉整体主题。

视频字幕。 视频字幕的任务是为视频生成简明的语言描述。 视频字幕模型以视频作为输入,并可选地接受从视频音频中转录的语言文本。 通常,模型会为整个视频生成一个句子级的字幕,或者也可能生成一个段落作为更详细的摘要。

视频问答 (videoQA)。 视频问答的任务是根据问题 q 和视频 v 预测正确答案。 视频QA 主要分为两种类型: 多项选择 视频QA 和 开放式 视频QA。 在多项选择视频QA 中,模型会提供一定数量的候选答案,模型会从中选择正确的答案。 开放式视频QA 可以被表述为一个分类问题、一个生成问题或一个回归问题。 基于分类的视频QA 将视频-问题对与来自预定义词汇集的答案相关联。 基于生成的视频QA 不限于词汇集,模型可以生成代表问题答案的符元序列。 基于回归的视频问答通常用于计数问题,例如计算动作的重复次数或视频中某个物体的数量。

视频语言理解任务之间的联系。 这些任务构成了视频语言理解能力的三个基本测试平台(参见附录A以获取它们的示例)。 在图2中,我们提供了一个层次结构来描述其视频语言理解程度的升级。 在基本层面上,文本-视频检索将整个视频与文本内容全局关联起来。 在中等层面上,视频字幕比检索任务更难,因为它需要选择性地将视频中的实体和事件映射到语言模式。 在最高层面上,视频问答探索视频和语言内容的关系以产生适当的输出。 每个级别的视频语言理解任务都与一个相应的版本相关联,该版本需要更推断或更细粒度的理解,例如推理视频问答(Xiao et al., 2021; Li et al., 2022a) 与视频问答,密集视频字幕(Zhou et al., 2018b) 或视频章节生成(Yang et al., 2023b) 与视频字幕,以及视频片段检索(时间定位)与文本-视频检索。 这些更推断或更细粒度的任务带来了更多挑战,并在当前研究中发挥着越来越重要的作用,朝着人类智能的核心发展(Fei-Fei and Krishna, 2022)

Refer to caption
图 3: 已建立的视频语言理解方法的时间线(TVR:文本-视频检索,VC:视频字幕,VQA:视频问答,TF:Transformer,LLM:大型语言模型)。 从左到右,我们的图例表遵循以下顺序:预 Transformer(Pre-TF)、特定于任务的 Transformer、多任务 Transformer 和 LLM 增强的架构。

3 视频语言理解的挑战

与图像语言理解相比,所讨论的视频语言理解任务提出了独特的挑战,因为视频包含一个额外的时态通道。 我们总结了它们的重大挑战,如下:

模内和跨模交互。 虽然语言内模态交互建模可以直接从图像-语言理解中借鉴,但视频内模态交互建模有所不同,因为它同时包含空间交互和时间交互。 空间交互深入研究单个帧内像素、补丁、区域或对象之间的关系,而时间交互捕获视频帧或视频片段之间的顺序依赖关系。 更长的视频时长通过需要在更多视频帧中识别更多对象和事件 (Yu et al., 2020; Lin et al., 2022),以及推理它们的长期依赖关系 Zhao et al. (2018),从而加剧了时间建模的复杂性。 特定的视频领域,如自我中心视频,也使时间交互建模变得复杂,因为对象会随着时间的推移经历剧烈的出现和消失动态,这对捕捉它们之间的关系提出了挑战 (Bansal et al., 2022; Tang et al., 2023a)

鉴于视频-语言与图像-语言相比存在更大的语义差距,跨模态交互在视频-语言理解中起着至关重要的作用。 视觉和语言特征之间的交互对于对齐视频和文本查询的语义至关重要,以将它们关联以进行文本-视频检索,或识别相关部分以分别回答问题和撰写视频QA和视频字幕中的字幕。 此外,结合运动和语言特征的交互可以减轻从视频中提取噪声信息的提取 (Ding et al., 2022) Lin et al. (2022) 还发现音频和语言特征之间的交互可以紧凑地捕获与对象、动作和复杂事件相关的信息,弥补了稀疏提取的视频帧。

跨领域适应。 鉴于在线视频的无限性,我们的视频-语言理解模型会遇到与我们的训练数据相同分布的测试场景是一个不切实际的假设。 此外,随着可以处理各种视频-语言理解任务的 LLM 增强型模型的出现 (Li et al., 2023a, d),目前更建议训练一个可以有效适应多个任务和领域的模型,而不是获得专门针对特定理解任务的模型。 此外,由于视频可以被视为图像序列,因此在视频-文本数据上训练模型比在图像-文本数据上训练模型的计算成本更高。 结合最近视频-语言理解模型的大规模 (Jiang et al., 2022a; Yang et al., 2022a),还需要设计一种有效的微调策略来节省微调这些模型的计算成本。

数据准备。 虽然 Lei et al. (2021c) 只使用图像-文本数据来训练用于视频-语言理解任务的模型,但本质上,视频-文本数据对于这些模型的有效性至关重要。 特别是,与静态图像相比,视频提供了更丰富的信息,具有与一致的时间动态相一致的多样空间语义 (Zhuang et al., 2023) 因此,Cheng 等人 (2023) 发现使用视频进行训练优于使用图像进行训练,但同时在这两种数据上进行训练可以获得最佳性能。 作为额外证据,Yuan 等人 (2023) 表明视频预训练模型在对运动丰富的视频进行分类时优于图像预训练模型。 然而,视频文本数据比图像文本数据占用更多存储成本,因为视频包含多个图像作为视频帧。 此外,对视频进行标注比对图像进行标注更加耗时和劳动力密集 (Xing 等人,2023) 因此,视频语言理解模型受到干净配对视频文本语料库规模小的限制,而图像文本数据集却有数十亿规模 (Zhao 等人,2023) 各种努力 (Zhao 等人,2023; Xing 等人,2023) 投入到设计有效和经济的方法来整理和标记视频文本数据。

解决挑战。 这些已识别的挑战涵盖了视频语言理解领域的三种关键视角:模型架构、模型训练和数据准备。 一般来说,这些组件之间应该存在协同关系。 具体来说,模型架构应该被设计为有效地捕捉视频语言交互。 同时,模型训练应该针对使架构能够适应目标领域及其捕获的视频语言交互而定制。 最后,数据准备在塑造模型训练中发挥着至关重要的作用,这反过来又会极大地影响有效模型架构的开发。

4 视频语言理解的模型架构

Refer to caption
图 4: 基于 Transformer 的视频语言理解架构的说明。

解决模态内和跨模态交互的挑战是设计视频语言理解模型架构的关键目标,这可以分为 预 Transformer基于 Transformer 的架构 大语言模型 (LLM) 在解决多种任务方面表现出非凡的零样本能力,这导致了 LLM增强型架构 的设计,这些架构展现出跨领域适应各种视频语言理解任务的能力。

4.1 变压器前架构


单模态编码器。 视频编码器通常通过提取帧外观和剪辑运动特征来对原始视频进行编码,分别作为空间和时间表示。 由于每个视频帧可以被视为单张图像,因此各种工作已经利用 CNN 来提取空间表示(Simonyan 和 Zisserman,2014;Feichtenhofer 等人,2016;Zhao 等人,2017b) 对于时间表示,RNN 的顺序性质使其在变压器前架构中成为一个受欢迎的选择(Yang 等人,2017;Zhao 等人,2017a;Venugopalan 等人,2015;Wang 等人,2019a) 此外,在 2D CNN 中插入一个额外的时态通道的 3D CNN 也在提取时空表示方面展示了有效性(Tran 等人,2017;Carreira 和 Zisserman,2017) 除了 CNN 和 RNN,Chen 等人 (2018)Gay 等人 (2019) 以及 Wei 等人 (2017) 也构建了图来整合视频实体(例如视频片段或视觉对象)之间的模态内关系。 这些图结构化工作强调了模型架构的推理能力。

语言编码器的一个常见框架是提取预训练词嵌入,例如 word2vec(Kaufman 等人,2016;Yu 等人,2017) 或 GloVe(Torabi 等人,2016;Kiros 等人,2014),然后继续使用基于 RNN 的模块,例如 LSTM 或 GRU。 这种框架源于变压器时代之前的语言模型架构。

跨模态编码器。 Gao 等人 (2017)Zeng 等人 (2017) 应用逐元素乘法来融合全局视频和问题表示,用于视频问答。 这表明了简单操作在视频语言融合中的优势。 注意力也被用于对视频语言关系进行建模,以便识别视频和语言句子中的突出部分(Yuan 等人,2019),或根据语言问题来细化视频的表示(Xu 等人,2017) 在 Transformer 出现之前,视频语言领域的研究也结合了注意力机制与多种技术,包括分层学习 (Baraldi 等人,2017)、记忆网络 (Fan 等人,2019) 以及图网络 (Xiao 等人,2022a; Wei 等人,2023)

4.2 基于 Transformer 的架构

基于自注意力机制,该机制将所有输入符元对 exhaustively 相互关联,基于 Transformer 的架构能够捕捉长期依赖关系并从网络规模数据中学习。 它在许多视频语言任务中表现出非凡的性能。 与 Transformer 之前的架构类似,基于 Transformer 的框架也包括单模编码器和跨模编码器,分别用于建模模态内和跨模态交互。 对于单模编码器,一些研究发现,用于视频编码的视觉 Transformer 和用于语言编码的 BERT 编码器,比基于 RNN 和 CNN 的编码器表现更好 (Fu 等人,2021; Bain 等人,2021; Seo 等人,2022) 然后,我们总结了基于 Transformer 的架构的基本类型,并在图 4 中说明。

共享 Transformer。 受 Transformer 在语言建模方面成功的启发 (Devlin 等人,2018)Akbari 等人 (2021)Wang 等人 (2023a) 为视频语言理解构建了共享 Transformer 编码器。 它们的编码器架构接收视觉块和语言符元的串联,然后以基于 BERT 的方式共同计算它们之间的交互。 Akbari 等人 (2021) 额外引入了模态嵌入,它包含三个值来表示三种输入模态, (视频、音频、文本)。

堆叠 Transformer。 Li 等人 (2020) 指出,共享 Transformer 编码器在建模视频和文本之间的时序关系方面较弱。 为了解决这个问题,他们引入了一个堆叠 Transformer 架构,它包含一个分层的堆叠,由单模编码器分别对视频和语言输入进行编码,然后由跨模 Transformer 计算视频语言交互。 大量视频语言理解工作遵循这种设计,在单模编码器之上堆叠一个基于跨模 Transformer 的编码器 (Fu 等人,2023; Li 等人,2023b; Lei 等人,2021c; Wei 等人,2022; Luo 等人,2022; Nie 等人,2022; Wei 等人,2024) 为了进行视频字幕生成,Seo 等人 (2022)Luo 等人 (2020) 进一步插入了一个因果 Transformer 基解码器,该解码器基于编码的跨模态表示生成语言符元。

双重Transformer。 双重Transformer架构一直是文本-视频检索的热门选择 (Luo et al., 2022; Bain et al., 2021, 2022; Lin et al., 2022; Xue et al., 2022b) 这些架构使用两个Transformer编码器分别对视频和语言进行编码,从而为每种输入模态生成全局表示,然后应用余弦相似度等简单操作来计算跨模态交互。 这种单独的编码方案使它们能够降低计算每对视频和语言输入之间的成对交互的计算成本。 它们不仅在文本-视频检索问题中实现了效率,而且也实现了有效性。

4.3 LLM增强架构

大型语言模型 (LLM) 在同时处理多个NLP任务方面取得了令人瞩目的成果。 最近的努力旨在将LLM应用于视频-语言理解,以将其跨域适应能力扩展到视频-语言环境 (Chen et al., 2023; Li et al., 2023a) 这些努力可以分为两种方法。 第一种方法将LLM用作控制器,将视频-语言理解模型用作辅助工具。 控制器将根据语言输入指令调用特定工具。 第二种方法将LLM用作输出生成器,并试图将视频预训练模型与LLM对齐。 对于视频-语言理解,由于第二种方法在众多最近的研究工作中占据主导地位 (Chen et al., 2023; Li et al., 2023a; Chen et al., 2023; Li et al., 2023d; Zhang et al., 2023b; Maaz et al., 2023),我们将在下面对其进行回顾:

LLM作为输出生成器。 该框架包括一个视觉编码器、一个语义翻译器和一个LLM作为输出生成器。 关于视觉编码器,LLM增强架构通常使用预Transformer和基于Transformer的架构的视觉Transformer和CNN模型 (Chen et al., 2023) 由于 LLM 在训练期间从未见过视频,因此需要一个语义翻译器将视频的视觉语义翻译成 LLM 的语义。 对于翻译器,Video-LLaMA (Zhang et al., 2023b) 和 VideoChat (Li et al., 2023a) 实现了一个 Q-Former 作为基于 Transformer 的模块,该模块使用一系列查询嵌入与视频的视觉特征交互以提取信息丰富的视频信息。 与 Q-Former 不同,VideoLLM (Chen et al., 2023)、Video-ChatGPT (Maaz et al., 2023) 和 LLaMA-Vid (Li et al., 2023d) 发现简单的线性投影可以将视觉特征投影到 LLM 的输入维度,从而实现有效的性能。 随后,这些基于视觉的查询嵌入或投影的视觉特征与语言指令相结合,成为输入到 LLM 中以生成最终输出。

4.4 架构分析

在图 3 中,我们展示了视频语言理解方法的时间线,根据我们定义的架构分类法及其关联的下游任务进行分类。 预 Transformer 模型的演变与我们视频语言理解级别的层次结构一致,i.e. 用于视频字幕的模型通常出现在用于文本视频检索的模型之后,然后是视频问答模型的开发。 由于其强大的能力,能够处理多个任务的基于 Transformer 的模型已经与特定于任务的 Transformer 框架同时推出。 最近,大型语言模型 (LLM) 因其卓越的上下文学习能力而备受关注,使它们能够在无需微调的情况下处理各种任务。 因此,新的 LLM 增强型架构应运而生,以利用这种能力来解决多个理解任务。

在基于 Transformer 的架构中,双 Transformer 作为文本视频检索最有效的方法脱颖而出,熟练地关联视频和语言模态的全局语义。 另一方面,堆叠 Transformer 架构通过其专门的单模态和跨模态编码器,在促进模态内和跨模态交互方面表现出色。 这些编码器在将视频内容与视频问答中的问题相关联方面特别有效。 此外,对于视频字幕,跨模态编码器在将视频内容翻译成文本描述方面起着至关重要的作用。 最近,LLM 增强型模型在视频问答中开始超越基于 Transformer 的架构,表明它们有潜力成为视频语言理解研究的下一前沿。 我们分别在表 123 中提供了文本视频检索、视频字幕和视频问答任务中性能的完整细节。

5 视频语言理解模型训练

模型训练旨在解决视频语言理解模型的跨领域自适应能力。 为了实现这一目标,人们设计了预训练策略来获取跨多个场景泛化的世界知识,然后进行特定于任务的微调,以专门提高下游任务的性能。

5.1 视频语言理解的预训练


基于语言的预训练。 最流行的基于语言的预训练任务是掩码语言建模 (MLM) (Lei 等人,2021c;Sun 等人,2019;Cheng 等人,2023),它随机掩盖语言输入中的一部分词语,并训练模型根据未掩盖的语言词语和视频实体来预测掩盖的词语。 UniVL (Luo 等人,2020) 和 VICTOR (Lei 等人,2021a) 发现,掩盖整个语言模态有利于视频字幕任务,而不是掩盖一部分词语。 MLM 可以与其他基于语言的预训练任务相结合,例如 掩码句子顺序建模,其目的是对随机打乱的语言句子的原始顺序进行分类 (Lei 等人,2021a)

基于视频的预训练。 基于视频的预训练任务帮助视频语言模型捕捉视频模态中的上下文信息。 作为 MLM 的对应物,掩码视频建模 (MVM) 训练模型根据未掩盖的实体和语言词语来预测掩盖的视频实体部分。 视频的连续性导致了视频实体的不同选择,例如帧块 (Li 等人,2020) 或视频帧 (Fu 等人,2021) 在训练目标方面,Li 等人 (2020) 使用 L2 回归损失来训练模型,以预测由 ResNet 和 SlowFast 模型提取的掩盖视频帧的预训练特征,而 Fu 等人 (2021) 使用交叉熵损失来训练模型,以预测掩盖的视觉符元,这些符元是通过变分自动编码器从视觉帧块中量化的。

视频文本预训练。 视频文本预训练对于模型捕捉视频语言关系至关重要。 Xue 等人 (2022b)Gao 等人 (2021)Bain 等人 (2021) 利用视频文本对比学习框架来生成语义相似视频和语言输入的紧密表示。 这些工作集中于创建一个将视频和语言的独立表示对齐的联合语义空间。 Tang 等人 (2021)Fu 等人 (2021)Li 等人 (2023b) 则让视频和文本表示相互作用,并使用单个符元来表示跨模态输入,然后将其转发以预测视频文本对是否匹配。 在这两个预训练框架中,除了视频文本数据外,图像文本数据也在预训练过程中被使用,其中图像被视为具有单帧的视频。

对比学习已展现出令人鼓舞的结果 (Lin 等人,2022; Gao 等人,2021; Xue 等人,2022b; Nguyen 等人,2022; Nguyen 和 Luu,2021; Nguyen 等人,2024c, a, 2023a; Wu 等人,2023a, 2024, 2022) MLM 有助于增强 VideoQA,因为该任务类似于 MLM,它根据视频语言对(问题是视频QA中的语言输入)来预测语言词。 与这些预训练策略相比,MVM 确实为视频语言理解提供了性能提升,但其提升幅度并不显著。 有关预训练的更多详细信息,请参阅 (Cheng 等人,2023)

5.2 微调以进行视频语言理解

预 Transformer 架构通常使用特定任务的微调从头开始训练,因为这些模型没有足够的参数容量来通过预训练学习可泛化的特征。 它也被基于 Transformer 的架构广泛采用,以提高特定下游任务的性能。 此外,LLM 增强的架构还利用指令调优作为微调的变体,以从视觉和音频空间适应到 LLM 语言空间。

微调策略。 通常,所有模型参数在微调过程中都会更新 (Gao 等人,2017; Xu 等人,2019; Anne Hendricks 等人,2017; Nguyen 等人,2023b; Wu 等人,2023b) 但是,在计算资源或训练数据有限的情况下,只会微调自适应层,例如低秩适配器 (Pan 等人,2022; Yang 等人,2022a; Nguyen 等人,2024b) 或可学习提示向量 (Ju 等人,2022),以降低训练成本或防止过拟合。 这些风险也适用于第 4.3 节中讨论的 LLM 增强的架构,因为 LLM 的参数规模达到数十亿,因此如果进行完全微调,将产生过高的成本。 对于此类模型,Zhang 等人 (2023b)Li 等人 (2023d) 设计了一种两阶段指令调优策略,该策略仅对语义翻译器进行微调。 第一阶段训练模型根据视频和语言指令的组合来生成文本描述,以将视觉编码器提取的视觉表示与 LLM 的语言空间对齐。 第二阶段通常在作者手动收集的小规模视频-文本对上进行,以进一步调整翻译器的输出特征以适应目标领域。

6 视频-语言理解的数据视角

本节分析视频-语言理解模型的数据准备方法,并在附录 B 中详细介绍数据集。

6.1 数据整理

手动收集。 为了整理视频-语言数据,多项研究都搜索了公开可用的在线视频,这些视频展现了多种多样的内容。 具有在线视频的视频-语言数据集主要用于预训练模型以学习可推广的知识,例如 HowTo100M (Miech 等人,2019) 和 YT-Temporal-180M (Zellers 等人,2021),或者它们也可以用于微调,例如 MSRVTT (Xu 等人,2016) 和 YouCook2 (Zhou 等人,2018a) 为了满足某些要求,可以从现有的数据集中继承与在线视频不同的视频,例如 Xiao 等人 (2021) 利用了 VidOR 数据集中的 6,000 个视频,(Li 等人,2022a) 继承了 Kinetics-700 中的 546,882 个视频,因为它们分别描述了日常生活和现实世界的场景。 除了利用现有数据集和在线视频之外,还可以由人工标注人员录制视频,以实现质量控制 (Goyal 等人,2017; Damen 等人,2022)

数据增强。 而不是从外部来源手动收集视频,Xing 等人 (2023)Jiang 等人 (2022c) 探索了专门针对视频设计的数据增强技术。 具体来说,他们的 TubeTokenMix 混合了两个视频,其中混合系数在时间维度上定义,而他们的时间偏移则在时间维度上随机向前或向后移动视频帧特征。 这些技术优于图像数据的标准增强方法,例如 CutMix (Yun 等人,2019)、Mixup (Zhang 等人,2017) 和 PixMix (Hendrycks 等人,2022)

6.2 标签标注

手动标注。 由于人工标注人员能够提供高质量的标签,因此有几项工作 (Li et al., 2022a; Lei et al., 2021b; Xiao et al., 2021) 使用人工标注人员。 但是,这种方法成本很高,特别是在处理视频数据时。 例如,标注 QVHighlights 数据集 (Lei et al., 2021b) 需要约 16,000 美元,10,000 个视频,并且需要 3 个月才能完成。 同样,NExT-QA (Xiao et al., 2021) 需要 100 名本科生和 1 年的时间才能仅标注 5,000 个视频。

自动生成。 直接将 YouTube 视频的语言转录作为文本标签可以降低标注成本 (Miech et al., 2019; Xue et al., 2022a; Zellers et al., 2021) 但是,这些标签已被证明在语法上不正确,并且在时间上与视频内容不一致 (Tang et al., 2021) 受大型语言模型成功的启发,Zhao et al. (2023) 训练了一个系统,该系统由 TimeSformer-L 视觉编码器和 GPT-2XL 解码器组成,用于为视频编写密集字幕。 此外,Li et al. (2023a) 使用 GPT-4 为电影梗概生成摘要。

7 未来方向

细粒度理解。 现有方法擅长于粗粒度级别的视频语言理解,能够有效地响应诸如“什么是”之类的提问,或者在没有明显困难的情况下识别全局事件 (Xiao et al., 2021) 然而,将理解限制在这一粗略级别可能会阻碍现有系统的实际应用。 在现实世界场景中,用户可能需要视频中某个对象的精确时间戳和位置 (Jiang et al., 2022b),或者要求人工智能代理预测可能的替代事件,这是预测分析中的常见需求 (Xiao et al., 2021; Li et al., 2022a) 这些任务需要对视频中存在的因果和时间关系进行高级理解和推理能力。 目前,模型在进行时间推理方面表现出有限的视觉语言能力,将它们归类为图像-序列-语言模型,而不是视频-语言模型 (Kesen 等人,2023) 因此,未来在这一方向上的研究值得更多关注和探索。

长篇视频-语言理解。 当前的理解系统在时长几秒的短视频片段上已展现出非凡的性能。 然而,当切换到持续数分钟或数小时的长篇视频时,它们往往会遇到困难。 为了提高这些系统的适用性,增强它们理解长篇视频的能力至关重要。 当前的方法主要特点是通过比基于 Transformer 的架构更有效的架构(例如状态空间模型 (Yang 等人,2024; Li 等人,2024),可以被视为具有专门设计的固定权重的线性 RNN)来降低计算成本,或通过额外信息 (Lin 等人,2022) 来弥补稀疏提取的视频帧。 总体而言,如何有效地对长篇视频进行建模,并将其与语言的联合语境相适应,值得更多关注。

视频-语言理解模型的可信度。 尽管现代视频-语言理解系统已展现出非凡的性能,但其黑盒性质削弱了我们对其部署的信任。 具体来说,我们仍然不完全理解视频 QA 模型查看了视频的哪一部分来回答问题 (Li 等人,2022b),或者视频和语言语义信息如何流入视频检索模型的公共表示空间 (Jia 等人,2022) 此外,视频-语言理解模型的对抗性噪声敏感性或幻觉也是开放问题。 面向实用系统的未来可信度基准,例如 (Xiao 等人,2023a; Wang 等人,2021a),对于视频-语言理解具有重要意义。

8 结论

在本文中,我们对视频-语言理解这一广阔的研究领域进行了综述。 特别地,我们对相关的视频-语言理解任务进行了分类,并从模型架构、模型训练和数据角度探讨了有意义的见解。 我们对每个角度进行了深入分析,最后得出了有希望的未来方向。 我们希望我们的综述能够促进更多研究,以构建能够全面理解动态视觉世界并与人类有意义地交互的有效人工智能系统。

9 局限性

尽管我们努力全面分析视频语言理解文献,但我们可能无法涵盖所有任务、模型架构、模型训练和数据视角。 因此,我们通过一个仓库 https://github.com/nguyentthong/video-language-understanding 来补充这项综述。 该仓库包含最新的论文、数据集及其开源实现。 我们将定期更新仓库以跟踪最新研究的进展。

10 致谢

本项研究/项目得到了新加坡国家研究基金会人工智能新加坡计划的支持 (AISG 奖项编号:AISG2-TC-2022-005)。


附录 A 视频语言理解任务示例

在本附录中,我们在图 56 中提供了视频语言理解任务的示例。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 5: 文本-视频检索、视频字幕和视频问答 (videoQA) 任务的说明。
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 6: 更多关于视频时刻检索、动作识别、动作分割、密集视频字幕、视频章节生成和多模态摘要任务的说明。

附录 B 视频语言理解数据集分析

由于篇幅限制,视频语言理解任务的数据集详情列于表 4 中。 我们根据数据集支持的任务对其进行分类。 虽然针对下游任务和微调的数据集一直在不断发展,但针对预训练的数据集是在 Transformer 架构出现后才出现的。 尽管预训练和下游视频语言理解数据集追求不同的目标,但它们主要来源于互联网。 关于下游数据集,最近的一些数据集旨在提出新的技术挑战,例如评估推理和推断能力 (Xiao 等人,2021;Li 等人,2022a),或检验视频语言理解模型的长篇建模能力 (Mangalam 等人,2023)

Methods Model architecture Video Text R@1 R@5 R@10
VSE-LSTM (Kiros et al., 2014) Pre-TF ConvNet/OxfordNet GloVe-LSTM 3.8 12.7 17.1
C+LSTM+SA-FC7 (Torabi et al., 2016) VGG GloVe-LSTM 4.2 12.9 19.9
EITanque (Kaufman et al., 2016) VGG word2vec-LSTM 4.7 16.6 24.1
SA-G+SA-FC7 (Torabi et al., 2016) VGG GloVe 3.1 9.0 13.4
CT-SAN (Yu et al., 2017) RN word2vec-LSTM 4.4 16.6 22.3
JSFusion (Yu et al., 2018) RN GloVe-LSTM 10.2 31.2 43.2
All-in-one (Wang et al., 2023a) Shared TF Linear BT 37.9 68.1 77.1
VLM (Xu et al., 2021) Shared TF S3D BT 28.1 55.5 67.4
DeCEMBERT (Tang et al., 2021) Shared TF RN BT 17.5 44.3 58.6
ActBERT (Zhu and Yang, 2020) Stacked TF Faster-RCNN BT 16.3 42.8 56.9
VIOLET (Fu et al., 2023) Stacked TF VS-TF BT 37.2 64.8 75.8
VindLU (Cheng et al., 2023) Stacked TF ViT BT 48.8 72.4 82.2
HERO (Li et al., 2020) Stacked TF RN+SlowFast BT 16.8 43.4 57.7
MV-GPT (Seo et al., 2022) Stacked TF ViViT BT 37.3 65.5 75.1
CLIP2TV (Gao et al., 2021) Dual TF ViT CLIP-text 32.4 58.2 68.6
CLIP-ViP (Xue et al., 2022a) Dual TF ViT CLIP-text 49.6 74.5 84.8
CLIP4Clip (Luo et al., 2022) Dual TF ViT CLIP-text 44.5 71.4 81.6
表 1: 文本-视频检索性能。 (预训练-Transformer:预训练 Transformer,共享 Transformer:共享 Transformer,堆叠 Transformer:堆叠 Transformer,双 Transformer:双 Transformer,RN:ResNet/ResNeXt (He 等人,2016;Xie 等人,2017),ViT:视觉 Transformer (Dosovitskiy 等人,2020),BT:BERT (Devlin 等人,2018),ViViT:视频视觉 Transformer (Arnab 等人,2021))。 我们报告排名第 1 (R@1)、5 (R@5) 和 10 (R@10) 的召回率。 我们选择 MSRVTT 作为最流行的文本-视频检索数据集之一。
Methods Model architecture Video BLEU-4 METEOR CIDEr
TA (Yao et al., 2015) Pre-TF Video: 3D-CNN 36.5 25.7 -
h-RNN (Yu et al., 2016) Video: VGG 36.8 25.9 -
MFATT (Long et al., 2018) Video: RN+C3D 39.1 26.7 -
CAT-TM (Long et al., 2018) Video: RN+C3D 36.6 25.6 -
NFS-TM (Long et al., 2018) Video: RN+C3D 37.0 25.9 -
Fuse-TM (Long et al., 2018) Video: RN+C3D 37.5 25.9 -
MARN (Pei et al., 2019) Video: RN - - 46.8
Res-ATT (Li et al., 2019) Video: RN 37.0 26.9 40.7
DenseLSTM (Zhu and Jiang, 2019) Video: VGG 38.1 27.2 42.8
VIOLET (Fu et al., 2023) Stacked TF VS-TF - - 58.0
LAVENDER (Li et al., 2023b) VS-TF - - 57.4
VLAB (He et al., 2023) EVA-G 54.6 33.4 74.9
UniVL (Luo et al., 2020) S3D 41.8 28.9 50.0
MV-GPT (Seo et al., 2022) ViViT 48.9 38.7 60.0
CLIP-DCD (Yang et al., 2022b) ViT 48.2 30.9 64.8
DeCEMBERT (Tang et al., 2021) RN 45.2 29.7 52.3
mPLUG-2 (Xu et al., 2023) ViT 57.8 34.9 80.3
表 2: 视频字幕性能。 (预训练-Transformer:预训练 Transformer,堆叠 Transformer:堆叠 Transformer,RN:ResNet/ResNeXt (He 等人,2016;Xie 等人,2017),ViViT:视频视觉 Transformer (Arnab 等人,2021),EVA-G:Fang 等人 (2023))。 我们报告 BLEU-4 和 METEOR,它们是两种流行的语言生成指标。 我们选择 MSRVTT 作为最流行的视频字幕数据集之一。
Methods Architecture Video Text Dataset
E-MN (Xu et al., 2017) Pre-TF VGG + C3D GloVe-LSTM 30.4 26.7
QueST (Jiang et al., 2020) RN + C3D GloVe-LSTM 40.0 -
HME (Fan et al., 2019) RN/VGG + C3D GloVe-GRU 34.6 36.1
HGA (Jiang and Han, 2020) RN/VGG + C3D GloVe-GRU 33.0 33.7
ST-VQA (Jang et al., 2019) RN+C3D GloVe-LSTM 35.5 34.7
PGAT (Peng et al., 2021) Faster-RCNN GloVe-LSTM 38.1 39.0
HCRN (Le et al., 2020) RN GloVe-LSTM 35.6 36.1
HQGA (Xiao et al., 2022a) Faster-RCNN BERT-LSTM 38.6 41.2
All in one (Wang et al., 2023a) Shared TF Linear BT 44.3 47.9
LAVENDER (Li et al., 2023b) Stacked TF VS-TF BT 45.0 56.6
DeCEMBERT (Tang et al., 2021) Stacked TF RN BT 37.4 -
VindLU (Cheng et al., 2023) Stacked TF ViT BT 44.6 -
VIOLET (Fu et al., 2023) Stacked TF VS-TF BT 44.5 54.7
ClipBERT (Lei et al., 2021c) Stacked TF CLIP-text BT 37.4 -
VGT (Xiao et al., 2022b) Dual TF Faster-RCNN BT 39.7 -
CoVGT (Xiao et al., 2023b) Dual TF Faster-RCNN BT 40.0 -
LLaMA-Vid (Li et al., 2023d) LLM-Augmented EVA-G Vicuna 58.9 70.0
表 3: 视频问答性能。 (预训练 Transformer:预训练 Transformer,双 Transformer:双 Transformer,RN:ResNet/ResNeXt (He 等人,2016;Xie 等人,2017),BT:BERT (Devlin 等人,2018),VS-TF:视频 Swin Transformer (Liu 等人,2021),EVA-G:Fang 等人 (2023))。 我们报告了这些方法的准确性。 我们选择 MSRVTT 和 MSVD 作为两个最流行的视频问答数据集。
Dataset Video source Annotation Tasks #Videos/#Routes
MSVD (Chen and Dolan, 2011) YouTube videos Manual TVR, VC, VideoQA 1.9K
MSRVTT (Xu et al., 2016) Web videos Manual TVR, VC, VideoQA 7.2K
ActivityNet (Yu et al., 2019) YouTube videos Manual AL, TVR, VC, VMR 5.8K
FIBER (Castro et al., 2022b) VaTeX (Wang et al., 2019b) Manual VC, VideoQA 28K
WildQA (Castro et al., 2022a) YouTube videos Manual VideoQA 0.4K
NExT-QA (Xiao et al., 2021) VidOR Shang et al. (2019) Manual VideoQA 5.4K
CausalVid-QA (Li et al., 2022a) Kinetics-700 (Carreira et al., 2019) Manual VideoQA 26K
HowTo100M (Miech et al., 2019) YouTube videos Auto PT 1.2M
HD-VILA-100M (Xue et al., 2022a) YouTube videos Auto PT 3.3M
YT-Temporal-180M (Zellers et al., 2021) YouTube videos Auto PT 6M
TGIF-QA (Jang et al., 2017) Animated GIFs Manual VideoQA 71K
TGIF-QA-R (Peng et al., 2021) TGIF-QA (Jang et al., 2017) Manual, Auto VideoQA 71K
DiDeMo (Anne Hendricks et al., 2017) YFCC100M (Thomee et al., 2016) Manual TVR 11K
YouCook2 (Zhou et al., 2018a) YouTube videos Manual TVR, VC 2K
HMDB-51 (Kuehne et al., 2011) Web videos Manual TVR, AR 6.8K
Kinetics-400 (Kay et al., 2017) YouTube videos Manual AR 306K
Kinetics-600 (Carreira et al., 2018) Kinetics-400 (Kay et al., 2017) Manual AR, VG 480K
Kinetics-700 (Carreira et al., 2019) Kinetics-600 (Carreira et al., 2018) Manual AR 650K
VaTeX (Wang et al., 2019b) Kinetics-600 (Carreira et al., 2018) Manual TVR, VC 41K
TVR (Lei et al., 2020) TVQA (Lei et al., 2018) Manual VMR 22K
How2R (Li et al., 2020) HowTo100M (Miech et al., 2019) Manual VMR 22K
How2QA (Li et al., 2020) HowTo100M (Miech et al., 2019) Manual VideoQA 22K
YouTube Highlights (Sun et al., 2014) YouTube videos Manual VMR 0.6K
TACoS (Regneri et al., 2013) MPII Composites (Rohrbach et al., 2012) Manual VMR 0.1K
QVHighlights (Lei et al., 2021b) YouTube vlogs Manual VMR 10K
TVSum (Song et al., 2015) YouTube videos Manual VMR 50
ViTT (Huang et al., 2020) YouTube-8M (Abu-El-Haija et al., 2016) Manual VMR 5.8K
VidChapters-7M (Yang et al., 2023a) YT-Temporal-180M (Zellers et al., 2021) Auto VC, VMR 817K
VideoCC3M (Nagrani et al., 2022) Web videos Auto PT 6.3M
WebVid-10M (Bain et al., 2021) Web videos Auto PT 10.7M
COIN (Tang et al., 2019) YouTube videos Manual AS 12K
CrossTask (Zhukov et al., 2019) YouTube videos Manual AR 4.7K
Alivol-10M (Lei et al., 2021a) E-commerce videos Auto PT 10M
LSMDC (Rohrbach et al., 2015) British movies Manual TVR 72
EK-100 (Damen et al., 2022) Manual Manual AR, AL 7K
SSV1 (Goyal et al., 2017) Manual Manual AR 108K
SSV2 (Goyal et al., 2017) Manual Manual AR 221K
Moments in Time (Monfort et al., 2019) Web videos Manual AR 1M
InternVid (Wang et al., 2023b) YouTube videos Auto PT 7.1M
How2 (Sanabria et al., 2018) YouTube videos Auto VC 13.2K
WTS70M (Stroud et al., 2020) YouTube videos Auto PT 70M
Charades (Gao et al., 2017) Manual Manual AR, VMR, VideoQA 10K
表 4: 文献中的视频理解数据集。 (VMR:视频片段检索,TVR:文本视频检索,VC:视频字幕,AL:动作定位,AR:动作识别,AS:动作分割,VG:视频生成,PT:预训练)。