文本视频检索是一项关键的多模式任务,旨在找到与文本查询最相关的视频。尽管像 CLIP 这样的预训练模型在这一领域表现出了令人印象深刻的潜力,但由于模型尺寸的增加,完全微调这些模型的成本不断上升,这仍然是一个问题。为了应对这一挑战,即时调整作为一种替代方案应运而生。然而,现有的工作在将预训练的图像文本模型应用于下游视频文本任务时仍然面临两个问题:(1)视觉编码器只能编码帧级特征,无法提取全局级通用视频信息。 (2) 为视觉和文本编码器配备单独的提示未能缩小视觉-文本模态差距。为此,我们提出了 DGL,一种具有全局-局部视频注意力的跨模态动态提示调整方法。与之前的提示调整方法相比,我们利用共享潜在空间来生成鼓励跨模式交互的本地级别文本和框架提示。此外,我们提出在全局局部注意力机制中对视频进行建模,以从提示调整的角度捕获全局视频信息。大量实验表明,当仅调整 0.67% 的参数时,我们的跨模态提示调整策略 DGL 在 MSR-VTT、VATEX、LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。代码将在此 https URL 中提供 ...
大多数文本视频检索方法都利用文本图像预训练 CLIP 作为骨干,结合了复杂的模块,导致较高的计算开销。因此,许多研究都集中在有效的微调上。有效适应的主要挑战来自图像和视频模式之间的固有差异 ...
视频文本检索的图像文本预处理模型剪辑的参数效率改编是一个重要的研究领域。尽管剪辑专注于图像级视觉语言匹配,但视频文本检索要求在视频层面上进行全面了解。从图像级到视频级别的转移:视觉,语言和对齐方式都出现了三个关键差异 ...
学习视觉语义相似性是弥合图像和文本之间差距的关键挑战。但是,视觉和语言数据(例如信息密度)之间存在固有的变化,即 ...
使视觉语义模型有效地处理多视图描述匹配是一个长期的挑战。现有方法通常学习一组嵌入式,以找到每个视图文本的最佳匹配并计算相似性。但是,通过这些方法学到的视觉和文本嵌入具有有限的信息能力,并且容易受到当地类似的负面样本的干扰 ...
在大规模的对比性视觉语言预先训练的模型(例如剪辑)的驱动下,图像文本匹配任务的最新进步在表示学习方面取得了巨大的成功。由于图像级的视觉语言对齐,剪辑在理解细粒细节(例如对象属性和对象之间的空间关系)方面缺乏。最近的努力试图通过引入迅速学习以实现对象级别的对准来强迫剪辑来获取结构化的视觉表示 ...
本文旨在应对多模式大语言模型(MLLM)中幻觉的挑战,尤其是用于密集的图像字幕任务。为了应对挑战,我们确定当前缺乏一个可以很好地衡量概念级别标题质量的度量。我们在此引入HalfScore,这是一种基于语言图的新颖指标,旨在评估颗粒层的密集字幕的准确性和完整性 ...
随着基于 Transformer 的模型的大小不断增长,对这些新任务的这些大规模预处理的视觉模型进行了微调已变得越来越大。已经开发了参数效率学习,以减少微调参数的数量。尽管这些方法显示出令人鼓舞的结果,但与完整的微调相比,仍然存在显着的性能差距 ...
对地理空间图像进行分类仍然是诸如灾难响应和土地利用监测诸如稀缺或无法使用的区域的主要瓶颈。现有工具(例如 ...
遥感的视觉语言模型得益于其广泛的预处理显示出了有希望的用途。但是,它们在零摄像场景分类方法中的常规用法仍然涉及将大图像分为补丁并做出独立的预测,即 ...