引用视频对象细分旨在使用自然语言提示在视频中细分和跟踪目标对象。现有方法通常以高度纠缠的方式将视觉和文本功能融合在一起,将多模式信息处理在一起以生成人均掩模。但是,这种方法通常在模棱两可的目标标识中挣扎,尤其是在具有多个相似对象的场景中,并且无法确保跨帧的蒙版持续传播 ...
参考表达理解(REC)旨在根据自然语言描述将指定的实体或区域定位。尽管现有方法处理单一本地化,但他们通常会忽略多种现场中复杂的实体关系,从而限制了它们的准确性和可靠性。此外,缺乏具有细粒度的,成对的图像文本连接注释的高质量数据集阻碍了进一步的进展 ...
视频大语言模型(视频学)最近在一般视频理解中表现出了很大的进步。但是,现有模型主要集中于高级理解,仅限于仅文本响应,从而限制了以对象为中心的,多环形交互的灵活性。在本文中,我们做出了三个贡献:(i)我们通过引入视频模型来解决这些限制,该模型能够执行对象参考输入和接地视频推理任务中的输出,即 ...
参考表达式分割(RES)旨在分割通过引用表达式指定的图像区域,并随着多模式大型模型(MLLM)的兴起而流行。尽管MLLM在语义理解中表现出色,但他们的 Token 代范式与像素级密集的预测斗争。现有的RES方法将MLLM与参数较重的细分段(SAM)具有632m网络参数(SAM),或采用牺牲准确性的无SAM轻量级管道 ...
视觉接地任务,例如引用图像分割(RIS)和引用表达理解(REC),旨在根据给定的文本描述本地定位目标对象。图像中的目标对象可以多种方式描述,反映了诸如颜色,位置等的多样性属性。但是,大多数现有的方法都依赖于单个文本输入,该输入仅捕获视觉域中可用的丰富信息的一小部分 ...
视频语言(VIDL)建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行,先前的作品倾向于“幻想”视频输入,即 ...
主流视频语言预训练模型\ cite {actbert,clipbert,紫罗兰}由三个部分,视频编码器,文本编码器和视频文本融合 Transformer 组成。他们通过利用较重的单形编码器或多模式融合 Transformer 来追求更好的性能,从而增加参数,而在下游任务中效率较低。在这项工作中,我们首次引入端到端的视频语言模型,即\ textit {All-In-In-In-One Transformer},该模型将原始视频和文本信号嵌入使用统一的骨干架构中 ...
引用视频对象细分(RVO)的目的是基于文本描述整个视频中的目标对象。尽管近年来取得了显着的进展,但由于视频语言的理解有限,当前的RVOS模型仍在努力处理复杂的对象描述。为了解决此限制,我们提出\ textbf {refledino},这是一种端到端的RVOS模型,从预算的视觉接地基础模型中继承了强烈的视觉理解,并进一步赋予了有效的时间理解和对象细分功能 ...
我们提出XMEM,这是一种由Atkinson-Shiffrin内存模型启发的统一功能存储器存储的长视频的视频对象分割体系结构。视频对象分割的先前工作通常仅使用一种类型的功能内存。对于超过一分钟的视频,单个功能内存模型紧密地链接了内存消耗和准确性 ...
在本文中,我们介绍了运动座的视频推理,这是一项新的运动理解任务,需要根据输入问题生成视觉答案(视频分割掩码),因此需要隐含的时空推理和接地。这项任务通过通过问题启用隐性推理,将重点放在明确的动作/运动接地上的现有时空接地工作扩展到了更通用的格式。为了促进新任务的开发,我们收集了一个名为GroundMore的大规模数据集,该数据集包括1,715个视频剪辑,249k对象蒙版,这些镜头是故意设计的,具有4种问题类型(因果关系,顺序,反事实和描述性),用于基于深度和全面的运动推理能力 ...