我们提出XMEM,这是一种由Atkinson-Shiffrin内存模型启发的统一功能存储器存储的长视频的视频对象分割体系结构。视频对象分割的先前工作通常仅使用一种类型的功能内存。对于超过一分钟的视频,单个功能内存模型紧密地链接了内存消耗和准确性 ...
在本文中,我们介绍了运动座的视频推理,这是一项新的运动理解任务,需要根据输入问题生成视觉答案(视频分割掩码),因此需要隐含的时空推理和接地。这项任务通过通过问题启用隐性推理,将重点放在明确的动作/运动接地上的现有时空接地工作扩展到了更通用的格式。为了促进新任务的开发,我们收集了一个名为GroundMore的大规模数据集,该数据集包括1,715个视频剪辑,249k对象蒙版,这些镜头是故意设计的,具有4种问题类型(因果关系,顺序,反事实和描述性),用于基于深度和全面的运动推理能力 ...
引用视频对象细分(RVO)的目的是基于文本描述整个视频中的目标对象。由于其在视频编辑和人类代理互动中的有希望的应用,该任务引起了计算机视觉领域的越来越多的关注。最近,推荐通过从验证的基础图像模型中调整对象级视力语言知识,在这项任务中表现出了令人鼓舞的表现 ...
引用视频对象细分(RVO)需要根据给定的自然语言表达式在视频中跟踪和分割对象,要求复杂的运动理解和视觉表示与语言描述的对齐。鉴于这些挑战,最近提出的任何模型2(SAM2)成为潜在候选者,因为它能够在视频框架上生成相干分割掩码轨道,并在其对象 Token 表示中提供固有的时空暂时性对象。在本文中,我们介绍了Sola(按对象语言对齐方式选择),这是一个利用SAM2对象 Token 作为紧凑的视频级对象表示的新颖框架,通过轻量级轨道选择模块与语言功能一致 ...
引用视频对象细分旨在将对象与给定自然语言表达式相对应的视频中进行分割。虽然先前的工作探索了各种参考方案,包括以运动为中心或多命名表达式,但大多数方法仍然专注于隔离定位单个目标对象。但是,在全面的视频理解中,对象的角色通常取决于其与其他实体的相互作用,这些实体在现有数据集和模型中很大程度上被忽略了 ...
对象计数已从特定于类的模型(仅计数已知类别)发展为概括为看不见类别的类别模型。下一个挑战是转介表达计数(REC),其中的目标是基于细粒属性和上下文差异对象进行计数。现有方法与区分属于同一类别但对应于不同的参考表达式相对应的视觉上相似对象而努力 ...
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...
直到最近,视频实例细分(VIS)社区一直以这样的信念运行,即离线方法通常比在线处理框架优于框架。但是,在线方法的最新成功质疑这种信念,尤其是对挑战性和长期视频序列的质疑。我们将这项工作理解为对这些最近观察的反驳,并呼吁社区专注于近乎对方的VIS方法 ...
视频实例细分(VIS)是具有不同应用程序的关键任务,包括自动驾驶和视频编辑。现有方法通常在现实世界中的复杂和长视频上表现不佳,这主要是由于两个因素。首先,离线方法受到紧密耦合的建模范式的限制,该模型范式均等对待所有帧并无视相邻帧之间的相互依赖性 ...
我们介绍\ textbf {d} ecoupled \ textbf {vi} deo \ textbf {s} ementementation(dvis)框架,这是一种具有挑战性的通用视频细分任务的新方法,包括视频实例段(VIS),视频语义分割(VISE Semantic Sementation(VIS),视频语义序列(VSS),和视频panoptict(视频panoptict)。与以前以端到端进行视频分割建模的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割,跟踪和改进。这种去耦设计可实现对物体时空表示的更简单,更有效的建模,尤其是在复杂的场景和长视频中 ...