视频推理分割(VRS)致力于在封装人类意图和时间逻辑的隐式指令的指导下描绘视频中的参考对象。以前的方法利用大型视觉语言模型 (LVLM) 将对象语义编码到 <SEG> 标记中以进行掩模预测。然而,这种范式在推理过程中的可解释性有限,并且由于时空推理不足而导致性能不佳。从强化学习的开创性突破中汲取灵感,我们推出了 Veason-R1,这是一种用于 VRS 的专用 LVLM,强调分割中的结构化推理。 Veason-R1 通过组相对策略优化 (GRPO) 进行训练,并通过思想链 (CoT) 初始化进行增强。首先,我们策划高质量的 CoT 训练数据来灌输结构化推理轨迹,桥接视频级语义和帧级空间基础,产生监督微调模型 Veason-SFT。随后,GRPO 微调通过优化推理链来鼓励对推理空间的有效探索。为此,我们采用了整体奖励机制,可以协同增强空间对齐和时间一致性,支持关键帧定位和细粒度基础。综合实证评估表明,Veason-R1 在多个基准上实现了最先进的性能,显着超越了现有技术(例如,ReVOS 中的 +1.3 J &F 和 ReasonVOS 中的 +10.0 J &F),同时表现出对幻觉的鲁棒性(+8.8 R)。我们的代码和模型权重将在 Veason-R1 上提供 ...
引用视频对象细分(RVO)需要以自然语言表达式进行的视频中进行细分和跟踪对象,这需要对外观和运动的细粒度了解。我们以SA2VA为基础,该基础将多式联运大语言模型(MLLM)与视频分割模型SAM2结合在一起,我们确定了两个限制分割性能的关键瓶颈:稀疏的框架采样和对单个[seg]标记的依赖,用于整个视频。我们建议分段增强和选择性平均SA2VA SASA2VA来解决这些问题 ...
最近,基于查询的方法通过使用文本静态对象查询来驱动跨模式对齐,在引用视频对象细分(RVO)方面取得了出色的性能。但是,这些静态查询很容易被外观或运动相似的干扰物误导,从而导致\ emph {query选择偏见}。为了解决这个问题,我们提出了三重查询以前(TQF),该查询将参考查询分解为三个专用组件:静态属性的外观查询,空间关系的框架内相互作用查询以及时间关联的框架间运动查询 ...
多任务视觉接地(MTVG)包括两个子任务,即引用表达理解(REC)和参考表达分割(RES) ...
引用视频对象细分(RVO)旨在根据语言描述整个视频中的关注对象。突出的挑战在于将静态文本与动态视觉内容保持一致,尤其是当对象表现出类似的外观和不一致的运动和姿势时。但是,当前的方法通常依赖于与复杂的,构图描述斗争的整体视觉融合 ...
引用视频对象细分(RVO)旨在在表达式引用的视频中分割对象。当前的RVO方法将表达式视为非结构化序列,忽略了其对参考推理必不可少的至关重要的语义结构。此外,与图像引用的表达式相反,其语义仅关注对象属性和对象对象关系,视频引用表达式还涵盖事件属性和事件事件 - 事件的时间关系 ...
学习长期时空特征对于许多视频分析任务至关重要。但是,现有的视频分割方法主要依赖于静态图像分割技术,并且捕获分割时间依赖的方法必须取决于预审预定的光流模型,从而导致该问题的次优溶液。探索视频分割的时空特征的端到端顺序学习在很大程度上受到可用视频分割数据集的规模限制 ...
引用视频对象细分(RVO)旨在根据自然语言表达式在视频中进行细分和跟踪对象,需要在视觉内容和文本查询之间进行精确的对齐。但是,现有方法通常会遭受语义不对对准,这在很大程度上是由于训练过程中所有可见对象的偶然框架采样和监督 - 无论它们与表达式的实际相关性如何。为了解决这个问题,我们介绍了一个名为Samdwich的Moment-Mountawane RVOS框架,以及一个新注释的数据集MEVIS-M建立在具有挑战性的MEVIS基准的基础上 ...
引用视频对象细分旨在使用自然语言提示在视频中细分和跟踪目标对象。现有方法通常以高度纠缠的方式将视觉和文本功能融合在一起,将多模式信息处理在一起以生成人均掩模。但是,这种方法通常在模棱两可的目标标识中挣扎,尤其是在具有多个相似对象的场景中,并且无法确保跨帧的蒙版持续传播 ...
参考表达理解(REC)旨在根据自然语言描述将指定的实体或区域定位。尽管现有方法处理单一本地化,但他们通常会忽略多种现场中复杂的实体关系,从而限制了它们的准确性和可靠性。此外,缺乏具有细粒度的,成对的图像文本连接注释的高质量数据集阻碍了进一步的进展 ...