近年来,视频实例分割(VIS)在很大程度上是由离线模型推动的,而在线模型可能由于性能较差而逐渐受到关注。然而,在线方法在处理长视频序列和持续视频方面有其固有的优势,而离线模型由于计算资源的限制而失败。因此,如果在线模型能够达到与离线模型相当甚至更好的性能,那将是非常可取的。通过剖析当前的在线模型和离线模型,我们证明了性能差距的主要原因是由于特征空间中不同实例之间的相似外观而导致的帧之间容易出错的关联。观察到这一点,我们提出了一种基于对比学习的在线框架,该框架能够学习更具区分性的实例嵌入以进行关联,并充分利用历史信息来实现稳定性。尽管很简单,但我们的方法在三个基准测试中优于所有在线和离线方法。具体来说,我们在 YouTube-VIS 2019 上获得了 49.5 AP,分别比之前的在线和离线艺术显着提高了 13.2 AP 和 2.1 AP。此外,我们在 OVIS 上实现了 30.2 AP,这是一个更具挑战性的数据集,具有明显的拥挤和遮挡,超过了现有技术 14.8 AP。该方法在第四届大规模视频对象分割挑战赛(CVPR2022)的视频实例分割赛道中获得第一名。我们希望我们的方法的简单性和有效性,以及我们对当前方法的洞察,能够为 VIS 模型的探索带来启发 ...
在这项工作中,我们提出了用于视频实例分割的 SeqFormer。 SeqFormer 遵循视觉转换器的原理,对视频帧之间的实例关系进行建模。尽管如此,我们观察到独立的实例查询足以捕获视频中实例的时间序列,但注意机制应独立地对每个帧进行。为了实现这一目标,SeqFormer 在每个帧中定位一个实例并聚合时间信息以学习视频级实例的强大表示,该表示用于动态预测每个帧上的掩码序列。实例跟踪是自然实现的,无需跟踪分支或后处理。在 YouTube-VIS 上,SeqFormer 在 ResNet-50 主干上实现了 47.4 AP,在 ResNet-101 主干上实现了 49.0 AP,没有任何附加功能。这一成果分别显着超出了之前的最先进性能 4.6 和 4.4。此外,与最近提出的 Swin Transformer 集成,SeqFormer 实现了更高的 AP 59.3。我们希望 SeqFormer 能够成为一个强有力的基线,促进视频实例分割的未来研究,同时以更强大、更准确、更简洁的模型推动这一领域的发展。该代码可从此 https URL 获取 ...
我们提出了 MinVIS,一种最小的视频实例分割 (VIS) 框架,无需基于视频的架构或训练程序即可实现最先进的 VIS 性能。通过仅训练基于查询的图像实例分割模型,MinVIS 在具有挑战性的 Occlusion VIS 数据集上的表现比之前的最佳结果高出超过 10% AP。由于 MinVIS 将训练视频中的帧视为独立图像,因此我们可以对训练视频中带注释的帧进行大幅子采样,而无需任何修改。 MinVIS 仅使用 1% 的标记帧,其性能优于或堪比 YouTube-VIS 2019/2021 上完全监督的最先进方法。我们的主要观察结果是,经过训练以区分帧内对象实例的查询在时间上是一致的,并且可以用于跟踪实例,而无需任何手动设计的启发式方法。因此,MinVIS 具有以下推理流程:我们首先将经过训练的基于查询的图像实例分割独立地应用于视频帧。然后通过相应查询的二分匹配来跟踪分段实例。这种推理是以在线方式完成的,不需要立即处理整个视频。因此,MinVIS 具有降低标签成本和内存需求的实际优势,同时不会牺牲 VIS 性能。代码位于:此 https URL ...
参考视频对象分割(RVOS)需要在自然语言描述的指导下分割视频中的特定对象。 RVOS 的核心挑战是将抽象语言概念锚定到一组特定的像素上,并通过视频的复杂动态不断对它们进行分割。面对这一困难,先前的工作通常将任务分解为务实的“定位然后分段”管道。然而,这种级联设计通过将语义简化为粗略的几何提示(例如点)而产生了信息瓶颈,并且由于分段过程通常与初始语言基础脱钩而难以保持时间一致性。为了克服这些基本限制,我们提出了 FlowRVS,这是一种新颖的框架,它将 RVOS 重新概念化为条件连续流问题。这使我们能够利用预训练 T2V 模型、细粒度像素控制、文本视频语义对齐和时间一致性的固有优势。我们不是传统地从噪声生成掩模或直接预测掩模,而是通过学习从视频的整体表示到目标掩模的直接的、语言引导的变形来重新制定任务。我们的一阶段生成方法在所有主要 RVOS 基准测试中均取得了最先进的结果。具体来说,在 MeViS 中实现 $\mathcal{J}\&\mathcal{F}$ 为 51.1(比之前的 SOTA +1.6),在零样本 Ref-DAVIS17 中达到 73.3(+2.7),展示了将视频理解任务建模为连续变形过程的巨大潜力 ...
参考视频分割(RVOS)旨在根据给定的语言表达来分割视频中的对象。解决RVOS的关键是从表情和视频的交互中提取长程时间上下文信息,以描述每个对象的动态属性。以前的作品要么在所有帧上采用注意力,要么堆叠密集的局部注意力以实现时间上下文的全局视图。然而,它们未能在局部性和全局性之间取得良好的平衡,并且计算复杂度随着视频长度的增加而显着增加。在本文中,我们提出了一种有效的远程时间上下文注意(LTCA)机制,将全局上下文信息聚合为对象特征。具体来说,我们从两个方面聚合全局上下文信息。首先,我们堆叠稀疏的局部注意力来平衡局部性和全局性。我们设计了跨帧的扩张窗口注意力来聚合局部上下文信息,并在堆栈中执行这种注意力以实现全局视图。此外,我们使每个查询能够关注从全局池中随机选择的一小组键,以增强全局性。其次,我们设计一个全局查询来与所有其他查询交互,以直接编码全局上下文信息。实验表明,我们的方法在四个参考视频分割基准上实现了新的最先进技术。值得注意的是,我们的方法在 MeViS value 和 val 数据集上分别显示出 11.3% 和 8.3% 的改进 ...
视频推理分割(VRS)致力于在封装人类意图和时间逻辑的隐式指令的指导下描绘视频中的参考对象。以前的方法利用大型视觉语言模型 (LVLM) 将对象语义编码到 <SEG> 标记中以进行掩模预测。然而,这种范式在推理过程中的可解释性有限,并且由于时空推理不足而导致性能不佳。从强化学习的开创性突破中汲取灵感,我们推出了 Veason-R1,这是一种用于 VRS 的专用 LVLM,强调分割中的结构化推理。 Veason-R1 通过组相对策略优化 (GRPO) 进行训练,并通过思想链 (CoT) 初始化进行增强。首先,我们策划高质量的 CoT 训练数据来灌输结构化推理轨迹,桥接视频级语义和帧级空间基础,产生监督微调模型 Veason-SFT。随后,GRPO 微调通过优化推理链来鼓励对推理空间的有效探索。为此,我们采用了整体奖励机制,可以协同增强空间对齐和时间一致性,支持关键帧定位和细粒度基础。综合实证评估表明,Veason-R1 在多个基准上实现了最先进的性能,显着超越了现有技术(例如,ReVOS 中的 +1.3 J &F 和 ReasonVOS 中的 +10.0 J &F),同时表现出对幻觉的鲁棒性(+8.8 R)。我们的代码和模型权重将在 Veason-R1 上提供 ...
引用视频对象细分(RVO)需要以自然语言表达式进行的视频中进行细分和跟踪对象,这需要对外观和运动的细粒度了解。我们以SA2VA为基础,该基础将多式联运大语言模型(MLLM)与视频分割模型SAM2结合在一起,我们确定了两个限制分割性能的关键瓶颈:稀疏的框架采样和对单个[seg]标记的依赖,用于整个视频。我们建议分段增强和选择性平均SA2VA SASA2VA来解决这些问题 ...
最近,基于查询的方法通过使用文本静态对象查询来驱动跨模式对齐,在引用视频对象细分(RVO)方面取得了出色的性能。但是,这些静态查询很容易被外观或运动相似的干扰物误导,从而导致\ emph {query选择偏见}。为了解决这个问题,我们提出了三重查询以前(TQF),该查询将参考查询分解为三个专用组件:静态属性的外观查询,空间关系的框架内相互作用查询以及时间关联的框架间运动查询 ...
多任务视觉接地(MTVG)包括两个子任务,即引用表达理解(REC)和参考表达分割(RES) ...
引用视频对象细分(RVO)旨在根据语言描述整个视频中的关注对象。突出的挑战在于将静态文本与动态视觉内容保持一致,尤其是当对象表现出类似的外观和不一致的运动和姿势时。但是,当前的方法通常依赖于与复杂的,构图描述斗争的整体视觉融合 ...