基本信息

文件基本信息

名称

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

首页

https://yiyibooks.cn/arxiv/2303.16727v2/index.html

原始地址

https://arxiv.org/pdf/2303.16727

描述

规模是构建强大的基础模型的主要因素，该模型可以很好地推广到各种下游任务。然而，训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明，视频掩码自动编码器（VideoMAE）是一种可扩展的通用自监督预训练器，用于构建视频基础模型。我们通过核心设计在模型和数据方面扩展了 VideoMAE。具体来说，我们提出了一种用于高效预训练的双重掩码策略，其中编码器对视频 Token 的子集进行操作，解码器对视频 Token 的另一个子集进行处理。尽管VideoMAE由于编码器中的高掩蔽比而非常高效，但掩蔽解码器仍然可以进一步降低总体计算成本。这使得视频中十亿级模型的高效预训练成为可能。我们还使用渐进式训练范例，其中涉及对不同的多源未标记数据集进行初始预训练，然后对混合标记数据集进行后预训练。最后，我们成功训练了具有十亿个参数的视频 ViT 模型，该模型在 Kinetics（K400 上为 90.0%，K600 上为 89.9%）和 Something-Something（V1 上为 68.7%，V2 上为 77.0%）数据集上实现了新的最先进性能。此外，我们在各种下游任务上广泛验证了预训练的视频 ViT 模型，证明了其作为通用视频表示学习器的有效性。代码和模型可在 \url{此 https URL} 中找到 ...