引用视频对象细分(RVO)需要以自然语言表达式进行的视频中进行细分和跟踪对象,这需要对外观和运动的细粒度了解。我们以SA2VA为基础,该基础将多式联运大语言模型(MLLM)与视频分割模型SAM2结合在一起,我们确定了两个限制分割性能的关键瓶颈:稀疏的框架采样和对单个[seg]标记的依赖,用于整个视频。我们建议分段增强和选择性平均SA2VA SASA2VA来解决这些问题 ...
最近,基于查询的方法通过使用文本静态对象查询来驱动跨模式对齐,在引用视频对象细分(RVO)方面取得了出色的性能。但是,这些静态查询很容易被外观或运动相似的干扰物误导,从而导致\ emph {query选择偏见}。为了解决这个问题,我们提出了三重查询以前(TQF),该查询将参考查询分解为三个专用组件:静态属性的外观查询,空间关系的框架内相互作用查询以及时间关联的框架间运动查询 ...
多任务视觉接地(MTVG)包括两个子任务,即引用表达理解(REC)和参考表达分割(RES) ...
引用视频对象细分(RVO)旨在根据语言描述整个视频中的关注对象。突出的挑战在于将静态文本与动态视觉内容保持一致,尤其是当对象表现出类似的外观和不一致的运动和姿势时。但是,当前的方法通常依赖于与复杂的,构图描述斗争的整体视觉融合 ...
引用视频对象细分(RVO)旨在在表达式引用的视频中分割对象。当前的RVO方法将表达式视为非结构化序列,忽略了其对参考推理必不可少的至关重要的语义结构。此外,与图像引用的表达式相反,其语义仅关注对象属性和对象对象关系,视频引用表达式还涵盖事件属性和事件事件 - 事件的时间关系 ...
学习长期时空特征对于许多视频分析任务至关重要。但是,现有的视频分割方法主要依赖于静态图像分割技术,并且捕获分割时间依赖的方法必须取决于预审预定的光流模型,从而导致该问题的次优溶液。探索视频分割的时空特征的端到端顺序学习在很大程度上受到可用视频分割数据集的规模限制 ...
引用视频对象细分(RVO)旨在根据自然语言表达式在视频中进行细分和跟踪对象,需要在视觉内容和文本查询之间进行精确的对齐。但是,现有方法通常会遭受语义不对对准,这在很大程度上是由于训练过程中所有可见对象的偶然框架采样和监督 - 无论它们与表达式的实际相关性如何。为了解决这个问题,我们介绍了一个名为Samdwich的Moment-Mountawane RVOS框架,以及一个新注释的数据集MEVIS-M建立在具有挑战性的MEVIS基准的基础上 ...
引用视频对象细分旨在使用自然语言提示在视频中细分和跟踪目标对象。现有方法通常以高度纠缠的方式将视觉和文本功能融合在一起,将多模式信息处理在一起以生成人均掩模。但是,这种方法通常在模棱两可的目标标识中挣扎,尤其是在具有多个相似对象的场景中,并且无法确保跨帧的蒙版持续传播 ...
参考表达理解(REC)旨在根据自然语言描述将指定的实体或区域定位。尽管现有方法处理单一本地化,但他们通常会忽略多种现场中复杂的实体关系,从而限制了它们的准确性和可靠性。此外,缺乏具有细粒度的,成对的图像文本连接注释的高质量数据集阻碍了进一步的进展 ...
视频大语言模型(视频学)最近在一般视频理解中表现出了很大的进步。但是,现有模型主要集中于高级理解,仅限于仅文本响应,从而限制了以对象为中心的,多环形交互的灵活性。在本文中,我们做出了三个贡献:(i)我们通过引入视频模型来解决这些限制,该模型能够执行对象参考输入和接地视频推理任务中的输出,即 ...