引用视频对象细分(RVO)旨在根据语言描述整个视频中的关注对象。突出的挑战在于将静态文本与动态视觉内容保持一致,尤其是当对象表现出类似的外观和不一致的运动和姿势时。但是,当前的方法通常依赖于与复杂的,构图描述斗争的整体视觉融合 ...
引用视频对象细分(RVO)旨在在表达式引用的视频中分割对象。当前的RVO方法将表达式视为非结构化序列,忽略了其对参考推理必不可少的至关重要的语义结构。此外,与图像引用的表达式相反,其语义仅关注对象属性和对象对象关系,视频引用表达式还涵盖事件属性和事件事件 - 事件的时间关系 ...
学习长期时空特征对于许多视频分析任务至关重要。但是,现有的视频分割方法主要依赖于静态图像分割技术,并且捕获分割时间依赖的方法必须取决于预审预定的光流模型,从而导致该问题的次优溶液。探索视频分割的时空特征的端到端顺序学习在很大程度上受到可用视频分割数据集的规模限制 ...
引用视频对象细分(RVO)旨在根据自然语言表达式在视频中进行细分和跟踪对象,需要在视觉内容和文本查询之间进行精确的对齐。但是,现有方法通常会遭受语义不对对准,这在很大程度上是由于训练过程中所有可见对象的偶然框架采样和监督 - 无论它们与表达式的实际相关性如何。为了解决这个问题,我们介绍了一个名为Samdwich的Moment-Mountawane RVOS框架,以及一个新注释的数据集MEVIS-M建立在具有挑战性的MEVIS基准的基础上 ...
引用视频对象细分旨在使用自然语言提示在视频中细分和跟踪目标对象。现有方法通常以高度纠缠的方式将视觉和文本功能融合在一起,将多模式信息处理在一起以生成人均掩模。但是,这种方法通常在模棱两可的目标标识中挣扎,尤其是在具有多个相似对象的场景中,并且无法确保跨帧的蒙版持续传播 ...
参考表达理解(REC)旨在根据自然语言描述将指定的实体或区域定位。尽管现有方法处理单一本地化,但他们通常会忽略多种现场中复杂的实体关系,从而限制了它们的准确性和可靠性。此外,缺乏具有细粒度的,成对的图像文本连接注释的高质量数据集阻碍了进一步的进展 ...
视频大语言模型(视频学)最近在一般视频理解中表现出了很大的进步。但是,现有模型主要集中于高级理解,仅限于仅文本响应,从而限制了以对象为中心的,多环形交互的灵活性。在本文中,我们做出了三个贡献:(i)我们通过引入视频模型来解决这些限制,该模型能够执行对象参考输入和接地视频推理任务中的输出,即 ...
参考表达式分割(RES)旨在分割通过引用表达式指定的图像区域,并随着多模式大型模型(MLLM)的兴起而流行。尽管MLLM在语义理解中表现出色,但他们的 Token 代范式与像素级密集的预测斗争。现有的RES方法将MLLM与参数较重的细分段(SAM)具有632m网络参数(SAM),或采用牺牲准确性的无SAM轻量级管道 ...
视觉接地任务,例如引用图像分割(RIS)和引用表达理解(REC),旨在根据给定的文本描述本地定位目标对象。图像中的目标对象可以多种方式描述,反映了诸如颜色,位置等的多样性属性。但是,大多数现有的方法都依赖于单个文本输入,该输入仅捕获视觉域中可用的丰富信息的一小部分 ...
视频语言(VIDL)建模的一个巨大挑战在于从图像/视频理解模型和下游VIDL数据中提取的固定视频表示之间的断开连接。最近的研究试图通过端到端培训来减轻这种脱节。为了使其在计算上可行,先前的作品倾向于“幻想”视频输入,即 ...