现有方法通过合并辅助一对多的分配来增强检测 Transformer 的训练。在这项工作中,我们将模型视为一个多任务框架,同时执行一对一和一对一的预测。我们研究了在这两个训练目标中,每个组件在 Transformer 解码器中的作用,包括自我注意力,交叉注意力和前馈网络 ...
可以检测到图像中不可见但在相机附近不可见的对象吗?这项研究介绍了2D,2.5D和3D未观察到的对象检测的新任务,以预测附近物体的位置被遮挡或位于图像框架之外。我们调整了几个最先进的预训练的生成模型来解决此任务,包括2D和3D扩散模型和视觉模型,并证明它们可用于推断未直接观察到的对象的存在 ...
弱监督的密集视频字幕(WSDVC)旨在本地化和描述视频中所有感兴趣的事件,而无需对事件界限进行注释。由于无法获得相关的监督,因此该设置在准确定位事件的时间位置方面构成了巨大的挑战。现有方法依赖于事件位置和字幕之间的明确一致性约束,这涉及培训和推理期间复杂的事件建议程序 ...
我们日常生活中有丰富的同步音频和视觉事件。在事件中,音频场景与相应的视觉对象相关联;同时,发声对象可以指示并帮助在音轨中分离其单个声音。基于这一观察结果,在本文中,我们提出了一个循环共学习(CCOL)范式,该范式可以在统一的框架中共同学习声音的视觉接地和视听声音分离 ...
密集的视频字幕是从未修剪视频中本地化有趣事件的任务,并为每个本地化事件制作文本描述(字幕)。密集的视频字幕上的大多数作品仅基于视觉信息,并且完全忽略了音轨。但是,尤其是音频和言语是人类观察者在理解环境方面的重要提示 ...
尽管在各种任务中取得了大型语言模型(视频)的进步,但它们在诸如密集的视频字幕(DVC)之类的详细时间理解中挣扎。 DVC是描述视频中的所有事件的一项复杂的任务,同时还将其定位,该任务集成了多个细粒度的任务,包括视频细分,视频字幕和时间视频接地。以前的Videolms尝试单个步骤求解DVC,但未能利用其推理能力 ...
我们提出CAT-V(视频中的标题上的任何内容),这是一个无训练的框架,用于以细粒度为中心的视频字幕,可以详细描述用户选择的对象。 CAT-V集成了三个关键组件:基于武士的细分器,用于跨帧的精确对象分割,由Trace-Uni供电的临时分析仪用于准确的事件边界检测和时间分析,以及使用Internvl-2.5的字幕仪,用于生成详细的对象以对象为中心的描述 ...
可控的图像字幕是一个新兴的多模式主题,旨在用人类目的以自然语言描述图像,$ \ textit {e.g。} $,查看指定区域或以特定的文本样式讲述 ...
在本文中,我们利用涉及视觉和语言互动的人类感知过程来生成对未修剪视频的连贯段落描述。我们提出了视觉语言(VL)特征,这些特征由两种模式组成,即 ...
密集的视频字幕旨在检测和描述未修剪视频中的所有事件。本文提出了一个称为多概念循环学习(MCCL)的密集的视频字幕网络,该网络的目的是:(1)使用这些概念来增强视频功能并提供时间事件提示; (2)在字幕网络中设计循环学习,以促进语义感知和事件定位。具体而言,我们对每个帧执行弱监督的概念检测,并且将检测到的概念嵌入集成到视频功能中以提供事件提示 ...