chengwenxuan7的文档

chengwenxuan7

个性签名 ...

Simple Open-Vocabulary Object Detection with Vision Transformers

将简单的架构与大规模预训练相结合，使得图像分类取得了巨大的进步。对于目标检测，预训练和缩放方法还不太成熟，特别是在训练数据相对稀缺的长尾和开放词汇环境中。在本文中，我们提出了将图像文本模型转移到开放词汇对象检测的强大方法 ...

0 0 0 0 2024/10/26 arXiv:2205.06230v2 chengwenxuan7

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

在本文中，我们提出了 Mask DINO，一个统一的对象检测和分割框架。 Mask DINO 通过添加支持所有图像分割任务（实例、全景和语义）的掩模预测分支来扩展 DINO（具有改进的去噪锚框的 DETR）。它利用 DINO 的查询嵌入对高分辨率像素嵌入图进行点积来预测一组二进制掩码 ...

0 0 0 0 2024/09/24 arXiv:2206.02777v3 chengwenxuan7

Visual Parser: Representing Part-whole Hierarchies with Transformers

人类视觉能够捕捉整个场景的部分-整体层次信息。本文提出了视觉解析器（ViP），它使用转换器显式地构建了这样的层次结构。 ViP将视觉表征分为两个层次：局部层次和整体层次 ...

0 0 0 0 2024/09/24 arXiv:2107.05790v2 chengwenxuan7

Mask Frozen-DETR: High Quality Instance Segmentation with One GPU

在本文中，我们的目标是研究如何以最少的训练时间和 GPU 构建强大的实例分割器，而不是当前大多数方法通过构建更高级的框架来追求更准确的实例分割器，但代价是更长的训练时间和更高的成本。 GPU 要求。为了实现这一目标，我们引入了一个简单而通用的框架，称为 Mask Frozen-DETR，它可以将任何现有的基于 DETR 的对象检测模型转换为强大的实例分割模型。我们的方法只需要训练一个额外的轻量级掩模网络，该网络可以预测由冻结的基于 DETR 的对象检测器给出的边界框中的实例掩模 ...

0 0 0 0 2024/09/24 arXiv:2308.03747v1 chengwenxuan7

Sparse Instance Activation for Real-Time Instance Segmentation

在本文中，我们提出了一种概念新颖、高效且全卷积的实时实例分割框架。以前，大多数实例分割方法严重依赖于对象检测并基于边界框或密集中心执行掩模预测。相比之下，我们提出了一组稀疏的实例激活图作为新的对象表示，以突出显示每个前景对象的信息区域 ...

0 0 0 0 2024/09/24 arXiv:2203.12827v1 chengwenxuan7

FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation

最近实例分割的注意力集中在基于查询的模型上。尽管没有非极大值抑制（NMS）且是端到端的，但这些模型在高精度实时基准上的优越性尚未得到很好的证明。在本文中，我们展示了基于查询的模型在高效实例分割算法设计方面的强大潜力 ...

0 0 0 0 2024/09/24 arXiv:2303.08594v2 chengwenxuan7

SOS: Segment Object System for Open-World Instance Segmentation With Object Priors

我们提出了一种开放世界实例分割（OWIS）方法，该任务旨在通过在训练期间从有限的一组带注释的对象类中进行概括来分割图像中的任意未知对象。我们的分段对象系统（SOS）明确解决了最先进系统的泛化能力和低精度问题，这些系统通常会生成背景检测。为此，我们基于基础模型 SAM 生成高质量的伪注释 ...

0 0 0 0 2024/09/24 arXiv:2409.14627v1 chengwenxuan7

Trapped in texture bias? A large scale comparison of deep instance segmentation

实例分割的深度学习模型是否可以系统地推广到新的对象？对于分类来说，这种行为受到了质疑。在本研究中，我们的目标是了解框架、架构或预训练等某些设计决策是否有助于实例分割的语义理解。为了回答这个问题，我们考虑了鲁棒性的特殊情况，并在以对象为中心的非分布纹理的具有挑战性的基准上比较预训练的模型 ...

0 0 0 0 2024/09/24 arXiv:2401.09109v1 chengwenxuan7

SOTR: Segmenting Objects with Transformers

最近基于 Transformer 的模型在视觉任务上表现出了令人印象深刻的性能，甚至比卷积神经网络 (CNN) 还要好。在这项工作中，我们提出了一种新颖、灵活且有效的基于 Transformer 的模型，用于高质量实例分割。所提出的方法“使用 TRansformers 分割对象 (SOTR)”简化了分割流程，该方法建立在附加两个并行子任务的替代 CNN 主干上：(1) 通过 Transformer 预测每个实例类别，以及 (2) 使用多目标动态生成分割掩码。级上采样模块 ...

0 0 0 0 2024/09/24 arXiv:2108.06747v2 chengwenxuan7

DFormer: Diffusion-guided Transformer for Universal Image Segmentation

本文介绍了一种名为 DFormer 的通用图像分割方法。所提出的 DFormer 将通用图像分割任务视为使用扩散模型的去噪过程。 DFormer 首先将不同级别的高斯噪声添加到真实掩码中，然后学习一个模型来从损坏的掩码中预测去噪掩码 ...

0 0 0 0 2024/09/24 arXiv:2306.03437v2 chengwenxuan7