arxiv VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

/documents/73332/

基本信息

文件基本信息

名称
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
描述
规模是构建强大的基础模型的主要因素,该模型可以很好地推广到各种下游任务。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自动编码器(VideoMAE)是一种可扩展的通用自监督预训练器,用于构建视频基础模型。我们通过核心设计在模型和数据方面扩展了 VideoMAE。具体来说,我们提出了一种用于高效预训练的双重掩码策略,其中编码器对视频 Token 的子集进行操作,解码器对视频 Token 的另一个子集进行处理。尽管VideoMAE由于编码器中的高掩蔽比而非常高效,但掩蔽解码器仍然可以进一步降低总体计算成本。这使得视频中十亿级模型的高效预训练成为可能。我们还使用渐进式训练范例,其中涉及对不同的多源未标记数据集进行初始预训练,然后对混合标记数据集进行后预训练。最后,我们成功训练了具有十亿个参数的视频 ViT 模型,该模型在 Kinetics(K400 上为 90.0%,K600 上为 89.9%)和 Something-Something(V1 上为 68.7%,V2 上为 77.0%)数据集上实现了新的最先进性能。此外,我们在各种下游任务上广泛验证了预训练的视频 ViT 模型,证明了其作为通用视频表示学习器的有效性。代码和模型可在 \url{此 https URL} 中找到 ...