我们提出CAT-V(视频中的标题上的任何内容),这是一个无训练的框架,用于以细粒度为中心的视频字幕,可以详细描述用户选择的对象。 CAT-V集成了三个关键组件:基于武士的细分器,用于跨帧的精确对象分割,由Trace-Uni供电的临时分析仪用于准确的事件边界检测和时间分析,以及使用Internvl-2.5的字幕仪,用于生成详细的对象以对象为中心的描述 ...
可控的图像字幕是一个新兴的多模式主题,旨在用人类目的以自然语言描述图像,$ \ textit {e.g。} $,查看指定区域或以特定的文本样式讲述 ...
在本文中,我们利用涉及视觉和语言互动的人类感知过程来生成对未修剪视频的连贯段落描述。我们提出了视觉语言(VL)特征,这些特征由两种模式组成,即 ...
密集的视频字幕旨在检测和描述未修剪视频中的所有事件。本文提出了一个称为多概念循环学习(MCCL)的密集的视频字幕网络,该网络的目的是:(1)使用这些概念来增强视频功能并提供时间事件提示; (2)在字幕网络中设计循环学习,以促进语义感知和事件定位。具体而言,我们对每个帧执行弱监督的概念检测,并且将检测到的概念嵌入集成到视频功能中以提供事件提示 ...
随着对现实世界视频挑战的解决方案的需求不断增长,对密集的视频字幕(DVC)的兴趣一直在上升。 DVC涉及未修剪视频的自动字幕和本地化。几项研究突出了DVC的挑战,并利用先验知识(例如训练和外部记忆)引入了改进的方法 ...
一个通信视频字幕的理想模型 - 预测视频中暂时性的字幕 - 应该能够处理长输入视频,预测丰富的,详细的文本描述,并在处理整个视频之前产生输出。但是,当前的最新模型会处理固定数量的下采样框架,并在观看整个视频后做出一个完整的预测。我们提出了一个由两个新颖组成部分组成的流式密集的视频字幕模型:首先,我们根据聚类传入 Token 提出了一个新的内存模块,该模块可以处理任意长的视频,因为内存的尺寸为固定尺寸 ...
密集的视频字幕旨在确定输入视频中感兴趣的事件,并为每个事件生成描述性字幕。以前的方法通常遵循两个阶段的生成过程,该过程首先提出了每个事件的段,然后为每个已确定的细分市场提供标题。大规模序列产生预处理的最新进展在统一各种任务的任务制定方面取得了巨大的成功,但是到目前为止,更复杂的任务(例如密集的视频字幕)无法完全利用这种强大的范式 ...
密集的视频字幕旨在与视频中的时间位置生成多个相关的字幕。以前的方法遵循一个复杂的“本地化”方案,该方案在很大程度上依赖于许多手工制作的组件。在本文中,我们提出了一个简单而有效的框架,用于通过将密集的字幕生成作为设定的预测任务,对并行解码(PDVC)进行端到端密集的视频字幕(PDVC) ...
视频段落字幕旨在生成一个未修剪视频的多句子描述,其中有几个时间事件位置在连贯的讲故事中。遵循人类的感知过程,通过将场景分解为视觉,可以有效地理解场景(例如 ...