视频时间接地 (VTG) 致力于使用语言查询准确定位特定视频中的事件时间戳,从而显着影响视频浏览和编辑等下游任务。与传统的特定任务模型不同,视频大语言模型(视频 LLM)可以以零样本的方式同时处理多个任务。因此,探索视频 LLM 在 VTG 任务中的应用已成为一个新兴的研究领域 ...
时间基础,即定位与自然语言查询相关的视频时刻,是视觉语言学习和视频理解的核心问题。为了对不同长度的视频时刻进行编码,最近的方法采用了称为特征金字塔的多级结构。在这种结构中,较低级别专注于短距离视频时刻,而较高级别则处理长距离时刻 ...
大多数自然视频包含大量事件。例如,在“男人弹钢琴”的视频中,视频还可能包含“另一个男人在跳舞”或“人群鼓掌”。我们介绍了密集字幕事件的任务,其中涉及检测和描述视频中的事件 ...
在这项工作中,我们研究了弱监督时空视频接地(WSTVG),这是一项具有挑战性的任务,仅使用文本查询而不使用边界框监督来在视频中时空定位主题。受视觉语言基础模型最新进展的启发,我们研究了它们在 WSTVG 中的实用性,利用其零样本接地功能。然而,我们发现简单的适应缺乏必要的时空基础能力 ...
密集视频字幕旨在暂时定位视频中的事件并为每个事件生成字幕。虽然最近的工作提出了端到端模型,但它们受到两个限制:(1)仅对文本应用时间戳监督,同时平等对待所有视频帧;(2)从固定大小的视频块中检索字幕,忽略场景转换。为了解决这些问题,我们提出了 Sali4Vid,一个简单而有效的显着性感知框架 ...
视频时间基础(VTG)是视频理解模型的关键能力,并且在视频浏览和编辑等下游任务中起着至关重要的作用。为了同时有效处理各种任务并实现零拍的预测,使用视频LLM进行VTG任务的趋势越来越趋势。但是,当前的基于视频LLM的方法仅依赖于自然语言的生成,缺乏对视频中固有的清晰结构进行建模的能力,从而限制了它们在解决VTG任务中的有效性 ...
信息有多种形式。多模式原生人工智能模型对于整合现实世界信息和提供全面理解至关重要。尽管存在专有的多模式原生模型,但它们缺乏开放性,给采用带来了障碍,更不用说适应了 ...
视频时间基础(VTG)旨在精确识别响应文本查询的视频事件段。 VTG任务的输出表现为事件序列,每个序列由精确的时间戳,显着性得分和文本描述定义。尽管有最近的进步,但现有的视频大语模型(视频llms)仍存在基本限制:他们通过相同和静态的途径处理所有任务 Token ,未能认识到时间定位,显着性评估和文本生成代表了基本上不同的任务,这些任务从根本上代表了需要专业处理的 ...
大型语言模型(LLM)在从冗长的文本中检索信息方面表现出色,但是他们的视觉语言对应(VLMS)面临着长时间的视频的困难,尤其是对于时间基础。具体而言,这些VLM受框架限制的约束,通常会失去在扩展视频内容中准确的事件定位所需的基本时间细节。我们建议修订版,这是一个递归视觉语言模型,旨在在长时间的视频中定位事件 ...
长时间的视频时间基础(LVTG)旨在根据用户提供的文本查询来识别冗长视频中的特定时刻,以进行有效的内容检索。现有方法将视频分为剪辑和通过全尺度专家编码器处理每个剪辑的方法采取的方法是挑战,这是由于在长视频中处理大量剪辑的计算成本而导致的规模。为了解决这个问题,我们介绍了Decafnet,这是一种采用``委托和纠纷''策略来达到计算效率而无需牺牲接地绩效的方法 ...