在本文中,我们提出了一个简单而通用的网络,称为 SeqTR,用于视觉基础任务,例如短语定位、指代表达理解(REC)和分割(RES) ...
在这项工作中,不是直接预测像素级分割掩模,而是将参考图像分割问题表述为顺序多边形生成,并且预测的多边形可以稍后转换为分割掩模。这是通过新的序列到序列框架 Polygon Transformer (PolyFormer) 实现的,该框架将一系列图像块和文本查询标记作为输入,并自回归输出一系列多边形顶点。为了更准确的几何定位,我们提出了一种基于回归的解码器,它直接预测精确的浮点坐标,没有任何坐标量化误差 ...
引用表达式分割(RES)旨在为给定语言表达式描述的对象生成分割掩码。现有的经典RES数据集和方法通常仅支持单目标表达式,即 ...
经典引用表达理解 (REC) 的目标是生成与给定文本描述中提到的对象相对应的边界框。通常,经典 REC 中的现有数据集和技术是针对属于单个目标的表达式量身定制的,这意味着唯一的表达式链接到一个特定对象。未考虑涉及多个目标或不涉及特定目标的表达式 ...
视频分割训练数据的注释成本很高。这阻碍了端到端算法扩展到新的视频分割任务,特别是在大词汇量设置中。为了在无需对每个任务的视频数据进行训练的情况下“跟踪任何内容”,我们开发了一种解耦视频分割方法(DEVA),该方法由特定于任务的图像级分割和与类/任务无关的双向时间传播组成 ...
开放词汇分割是一项具有挑战性的任务,需要从一组开放类别中分割和识别对象。解决这一挑战的一种方法是利用多模态模型(例如 CLIP)在共享嵌入空间中提供图像和文本特征,从而弥合封闭词汇表和开放词汇表识别之间的差距。因此,现有方法通常采用两阶段框架来解决该问题,其中输入首先通过掩模生成器,然后通过 CLIP 模型以及预测的掩模 ...