chengwenxuan7的文档

chengwenxuan7

个性签名 ...

MOSE: A New Dataset for Video Object Segmentation in Complex Scenes

视频对象分割（VOS）旨在分割整个视频剪辑序列中的特定对象。最先进的 VOS 方法已经取得了优异的性能（例如 ...

0 0 0 0 2024/11/18 arXiv:2302.01872v1 chengwenxuan7

WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation

自上而下和自下而上的方法是指代细分的两种主流方法，但这两种方法都有其固有的弱点。由于缺乏细粒度的跨模态对齐，自上而下的方法主要受到极性负（PN）误差的干扰。由于缺乏先验对象信息，自下而上的方法主要受到劣正 (IP) 错误的干扰 ...

0 0 0 0 2024/11/11 arXiv:2306.10750v1 chengwenxuan7

VITA: Video Instance Segmentation via Object Token Association

我们引入了一种离线视频实例分割（VIS）的新颖范式，该范式基于这样的假设：显式面向对象的信息可以成为理解整个序列上下文的有力线索。为此，我们提出了 VITA，这是一种建立在现成的基于 Transformer 的图像实例分割模型之上的简单结构。具体来说，我们使用图像对象检测器作为将特定于对象的上下文提取为对象标记的方法 ...

0 0 0 0 2024/11/07 arXiv:2206.04403v2 chengwenxuan7

End-to-End Referring Video Object Segmentation with Multimodal Transformers

引用视频对象分割任务（RVOS）涉及给定视频帧中文本引用对象实例的分割。由于这种多模式任务的复杂性，结合了文本推理、视频理解、实例分割和跟踪，现有方法通常依赖复杂的管道来解决它。在本文中，我们提出了一种简单的基于 Transformer 的 RVOS 方法 ...

0 0 0 0 2024/11/05 arXiv:2111.14821v2 chengwenxuan7

Language as Queries for Referring Video Object Segmentation

参考视频对象分割（R-VOS）是一种新兴的跨模态任务，旨在分割所有视频帧中语言表达所参考的目标对象。在这项工作中，我们提出了一个基于 Transformer 构建的简单且统一的框架，称为 ReferFormer。它将语言视为查询并直接关注视频帧中最相关的区域 ...

0 0 0 0 2024/11/05 arXiv:2201.00487v2 chengwenxuan7

OMG-Seg: Is One Model Good Enough For All Segmentation?

在这项工作中，我们解决了各种分割任务，每个任务传统上都是通过不同或部分统一的模型来处理的。我们提出 OMG-Seg，一种足以高效且有效地处理所有分割任务的模型，包括图像语义、实例和全景分割，以及它们的视频对应项、开放词汇设置、提示驱动、交互式分割，例如SAM 和视频对象分割。据我们所知，这是第一个在一个模型中处理所有这些任务并取得令人满意的性能的模型 ...

0 0 0 0 2024/11/04 arXiv:2401.10229v2 chengwenxuan7

OneFormer: One Transformer to Rule Universal Image Segmentation

通用图像分割并不是一个新概念。过去几十年来统一图像分割的尝试包括场景解析、全景分割以及最近的新全景架构。然而，这种全景架构并没有真正统一图像分割，因为它们需要在语义、实例或全景分割上单独进行训练才能实现最佳性能 ...

0 1 0 0 2024/11/04 arXiv:2211.06220v2 chengwenxuan7

Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation

引用表达分割（RES）旨在分割与描述性自然语言表达相匹配的实体的前景掩模。以前的经典 RES 任务的数据集和方法严重依赖于一个表达式必须引用对象级目标的先验假设。在本文中，我们进一步实现了更细粒度的部分级 RES 任务 ...

0 0 0 0 2024/11/02 arXiv:2312.08007v2 chengwenxuan7

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

我们提出了 REM，一个用于分割视频中可以通过自然语言描述的各种概念的框架。我们的方法利用了通过互联网规模数据集上的视频传播模型学习的视觉语言表示。我们方法的一个关键见解是尽可能多地保留生成模型的原始表示，同时在窄域引用对象分割数据集上对其进行微调 ...

0 0 0 0 2024/10/31 arXiv:2410.23287v1 chengwenxuan7

Joint Top-Down and Bottom-Up Frameworks for 3D Visual Grounding

本文解决了 3D 视觉基础的挑战性任务——根据文本描述在 3D 点云场景中定位特定对象。现有的方法分为两类：自上而下的方法和自下而上的方法。自上而下的方法依赖于预先训练的 3D 检测器来生成和选择最佳边界框，导致过程非常耗时 ...

0 0 0 0 2024/10/29 arXiv:2410.15615v1 chengwenxuan7