受视觉和语言单独编码的限制,现有的基础和引用分割工作严重依赖于庞大的基于 Transformer 的融合编码/解码器和各种早期交互技术。同时,当前的掩模视觉语言建模(MVLM)无法捕捉指代任务中图像-文本之间微妙的指代关系。在本文中,我们提出了 OneRef,这是一种基于模态共享单塔 Transformer 构建的极简引用框架,统一了视觉和语言特征空间 ...
图像修复的目的是使用剩余部分的上下文信息来恢复划痕和损坏区域。近年来,得益于卷积神经网络(CNN)的复兴,图像修复任务取得了巨大突破。然而,大多数工作都考虑了掩模类型不足,当遇到看不见的掩模时,它们的性能会急剧下降 ...
尽管统一图像分割(IS)最近取得了进展,但开发统一视频分割(VS)模型仍然是一个挑战。这主要是因为通用类别指定的 VS 任务需要检测所有对象并在连续帧中跟踪它们,而提示引导的 VS 任务需要在整个视频中通过视觉/文本提示重新识别目标,这使得处理具有相同架构的不同任务。我们尝试解决这些问题,并通过使用提示作为查询,提出了一种新颖的统一 VS 架构,即 UniVS ...
我们引入了一个新的基准,旨在促进遥感图像通用、大规模视觉语言模型的开发。尽管已经提出了遥感中的几种视觉语言数据集来实现这一目标,但现有数据集通常是针对单一任务定制的,缺乏详细的物体信息,或者质量控制不足。为了探索这些改进机会,我们提出了一种用于遥感图像理解的多功能视觉语言基准,称为 VRSBench ...
从遥感图像中定位所需的物体在实际应用中非常有用。参考图像分割旨在分割出给定表达式所指的对象,在自然图像中已得到广泛研究。然而,几乎没有研究关注遥感图像的这项任务 ...
在本文中,我们介绍了遥感数据视觉接地(RSVG)的任务。 RSVG旨在在自然语言的指导下定位遥感(RS)图像中的参考对象。为了使用自然语言从遥感图像中检索丰富的信息,人们对遥感图像视觉问答、遥感图像字幕和遥感图像文本检索等许多研究任务进行了大量研究 ...
当前最先进的视频对象分割(VOS)方法在训练和测试期间都依赖于密集的每个对象掩模注释。这需要耗时且昂贵的视频注释机制。我们提出了一种新颖的 Point-VOS 任务,具有时空稀疏逐点注释方案,可大大减少注释工作 ...
视频对象分割(VOS)旨在分割整个视频剪辑序列中的特定对象。最先进的 VOS 方法已经取得了优异的性能(例如 ...
自上而下和自下而上的方法是指代细分的两种主流方法,但这两种方法都有其固有的弱点。由于缺乏细粒度的跨模态对齐,自上而下的方法主要受到极性负(PN)误差的干扰。由于缺乏先验对象信息,自下而上的方法主要受到劣正 (IP) 错误的干扰 ...
我们引入了一种离线视频实例分割(VIS)的新颖范式,该范式基于这样的假设:显式面向对象的信息可以成为理解整个序列上下文的有力线索。为此,我们提出了 VITA,这是一种建立在现成的基于 Transformer 的图像实例分割模型之上的简单结构。具体来说,我们使用图像对象检测器作为将特定于对象的上下文提取为对象标记的方法 ...