在本文中,我们的目标是研究如何以最少的训练时间和 GPU 构建强大的实例分割器,而不是当前大多数方法通过构建更高级的框架来追求更准确的实例分割器,但代价是更长的训练时间和更高的成本。 GPU 要求。为了实现这一目标,我们引入了一个简单而通用的框架,称为 Mask Frozen-DETR,它可以将任何现有的基于 DETR 的对象检测模型转换为强大的实例分割模型。我们的方法只需要训练一个额外的轻量级掩模网络,该网络可以预测由冻结的基于 DETR 的对象检测器给出的边界框中的实例掩模 ...
在本文中,我们提出了一种概念新颖、高效且全卷积的实时实例分割框架。以前,大多数实例分割方法严重依赖于对象检测并基于边界框或密集中心执行掩模预测。相比之下,我们提出了一组稀疏的实例激活图作为新的对象表示,以突出显示每个前景对象的信息区域 ...
最近实例分割的注意力集中在基于查询的模型上。尽管没有非极大值抑制(NMS)且是端到端的,但这些模型在高精度实时基准上的优越性尚未得到很好的证明。在本文中,我们展示了基于查询的模型在高效实例分割算法设计方面的强大潜力 ...
我们提出了一种开放世界实例分割(OWIS)方法,该任务旨在通过在训练期间从有限的一组带注释的对象类中进行概括来分割图像中的任意未知对象。我们的分段对象系统(SOS)明确解决了最先进系统的泛化能力和低精度问题,这些系统通常会生成背景检测。为此,我们基于基础模型 SAM 生成高质量的伪注释 ...
实例分割的深度学习模型是否可以系统地推广到新的对象?对于分类来说,这种行为受到了质疑。在本研究中,我们的目标是了解框架、架构或预训练等某些设计决策是否有助于实例分割的语义理解。为了回答这个问题,我们考虑了鲁棒性的特殊情况,并在以对象为中心的非分布纹理的具有挑战性的基准上比较预训练的模型 ...
最近基于 Transformer 的模型在视觉任务上表现出了令人印象深刻的性能,甚至比卷积神经网络 (CNN) 还要好。在这项工作中,我们提出了一种新颖、灵活且有效的基于 Transformer 的模型,用于高质量实例分割。所提出的方法“使用 TRansformers 分割对象 (SOTR)”简化了分割流程,该方法建立在附加两个并行子任务的替代 CNN 主干上:(1) 通过 Transformer 预测每个实例类别,以及 (2) 使用多目标动态生成分割掩码。级上采样模块 ...
本文介绍了一种名为 DFormer 的通用图像分割方法。所提出的 DFormer 将通用图像分割任务视为使用扩散模型的去噪过程。 DFormer 首先将不同级别的高斯噪声添加到真实掩码中,然后学习一个模型来从损坏的掩码中预测去噪掩码 ...
在本文中,我们提出了一个用于实例分割的端到端框架。基于最近推出的 DETR [1],我们的方法称为 SOLQ,通过学习统一查询来分割对象。在 SOLQ 中,每个查询代表一个对象并具有多种表示形式:类、位置和掩码 ...
最近,基于查询的对象检测框架实现了与以前最先进的对象检测器相当的性能。然而,如何充分利用此类框架来执行实例分割仍然是一个悬而未决的问题。在本文中,我们提出了 QueryInst(实例作为查询),这是一种基于查询的实例分割方法,由动态掩码头的并行监督驱动 ...
我们在本文中提出了一种新颖的去噪训练方法来加速 DETR(DEtection TRansformer)训练,并加深了对类 DETR 方法收敛速度慢问题的理解。我们表明,收敛缓慢是由于二分图匹配的不稳定性造成的,这会导致早期训练阶段的优化目标不一致。为了解决这个问题,除了匈牙利损失之外,我们的方法还额外将带有噪声的真实边界框输入到 Transformer 解码器中,并训练模型来重建原始框,这有效地降低了二分图匹配难度并导致更快的收敛 ...