引用视频对象分割任务(RVOS)涉及给定视频帧中文本引用对象实例的分割。由于这种多模式任务的复杂性,结合了文本推理、视频理解、实例分割和跟踪,现有方法通常依赖复杂的管道来解决它。在本文中,我们提出了一种简单的基于 Transformer 的 RVOS 方法 ...
参考视频对象分割(R-VOS)是一种新兴的跨模态任务,旨在分割所有视频帧中语言表达所参考的目标对象。在这项工作中,我们提出了一个基于 Transformer 构建的简单且统一的框架,称为 ReferFormer。它将语言视为查询并直接关注视频帧中最相关的区域 ...
在这项工作中,我们解决了各种分割任务,每个任务传统上都是通过不同或部分统一的模型来处理的。我们提出 OMG-Seg,一种足以高效且有效地处理所有分割任务的模型,包括图像语义、实例和全景分割,以及它们的视频对应项、开放词汇设置、提示驱动、交互式分割,例如SAM 和视频对象分割。据我们所知,这是第一个在一个模型中处理所有这些任务并取得令人满意的性能的模型 ...
通用图像分割并不是一个新概念。过去几十年来统一图像分割的尝试包括场景解析、全景分割以及最近的新全景架构。然而,这种全景架构并没有真正统一图像分割,因为它们需要在语义、实例或全景分割上单独进行训练才能实现最佳性能 ...
引用表达分割(RES)旨在分割与描述性自然语言表达相匹配的实体的前景掩模。以前的经典 RES 任务的数据集和方法严重依赖于一个表达式必须引用对象级目标的先验假设。在本文中,我们进一步实现了更细粒度的部分级 RES 任务 ...
我们提出了 REM,一个用于分割视频中可以通过自然语言描述的各种概念的框架。我们的方法利用了通过互联网规模数据集上的视频传播模型学习的视觉语言表示。我们方法的一个关键见解是尽可能多地保留生成模型的原始表示,同时在窄域引用对象分割数据集上对其进行微调 ...
本文解决了 3D 视觉基础的挑战性任务——根据文本描述在 3D 点云场景中定位特定对象。现有的方法分为两类:自上而下的方法和自下而上的方法。自上而下的方法依赖于预先训练的 3D 检测器来生成和选择最佳边界框,导致过程非常耗时 ...
将简单的架构与大规模预训练相结合,使得图像分类取得了巨大的进步。对于目标检测,预训练和缩放方法还不太成熟,特别是在训练数据相对稀缺的长尾和开放词汇环境中。在本文中,我们提出了将图像文本模型转移到开放词汇对象检测的强大方法 ...
在本文中,我们提出了 Mask DINO,一个统一的对象检测和分割框架。 Mask DINO 通过添加支持所有图像分割任务(实例、全景和语义)的掩模预测分支来扩展 DINO(具有改进的去噪锚框的 DETR)。它利用 DINO 的查询嵌入对高分辨率像素嵌入图进行点积来预测一组二进制掩码 ...
人类视觉能够捕捉整个场景的部分-整体层次信息。本文提出了视觉解析器(ViP),它使用转换器显式地构建了这样的层次结构。 ViP将视觉表征分为两个层次:局部层次和整体层次 ...