chengwenxuan7的文档

chengwenxuan7

个性签名 ...

SOLQ: Segmenting Objects by Learning Queries

在本文中，我们提出了一个用于实例分割的端到端框架。基于最近推出的 DETR [1]，我们的方法称为 SOLQ，通过学习统一查询来分割对象。在 SOLQ 中，每个查询代表一个对象并具有多种表示形式：类、位置和掩码 ...

0 0 0 0 2024/09/24 arXiv:2106.02351v3 chengwenxuan7

Instances as Queries

最近，基于查询的对象检测框架实现了与以前最先进的对象检测器相当的性能。然而，如何充分利用此类框架来执行实例分割仍然是一个悬而未决的问题。在本文中，我们提出了 QueryInst（实例作为查询），这是一种基于查询的实例分割方法，由动态掩码头的并行监督驱动 ...

0 0 0 0 2024/09/24 arXiv:2105.01928v3 chengwenxuan7

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

我们在本文中提出了一种新颖的去噪训练方法来加速 DETR（DEtection TRansformer）训练，并加深了对类 DETR 方法收敛速度慢问题的理解。我们表明，收敛缓慢是由于二分图匹配的不稳定性造成的，这会导致早期训练阶段的优化目标不一致。为了解决这个问题，除了匈牙利损失之外，我们的方法还额外将带有噪声的真实边界框输入到 Transformer 解码器中，并训练模型来重建原始框，这有效地降低了二分图匹配难度并导致更快的收敛 ...

0 0 0 0 2024/09/21 arXiv:2203.01305v3 chengwenxuan7

Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding

我们提出了一种在基于视觉的对话中生成指称表达（REG）的方法，该方法旨在产生既具有区分性又适合话语的指称表达（RE）。我们的方法构成了一个两阶段的过程。首先，我们将 REG 建模为文本和图像条件下一个标记预测任务 ...

0 0 0 0 2024/09/20 arXiv:2409.05721v1 chengwenxuan7

SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation

我们引入了 SAM4MLLM，这是一种创新方法，它将分段任意模型 (SAM) 与多模态大型语言模型 (MLLM) 相集成，以执行像素感知任务。我们的方法使 MLLM 能够学习像素级位置信息，而不需要对现有模型架构进行过多修改或添加专门的标记。我们引入了一种基于查询的方法，可以有效地找到 SAM 基于 MLLM 进行分割的提示点 ...

0 0 0 0 2024/09/19 arXiv:2409.10542v1 chengwenxuan7

PnP-DETR: Towards Efficient Visual Analysis with Transformers

最近，DETR 首创了 Transformer 视觉任务的解决方案，它直接将图像特征图转化为目标检测结果。尽管有效，但由于背景等某些区域的冗余计算，翻译完整特征图的成本可能很高。在这项工作中，我们将减少空间冗余的想法封装到一个新颖的轮询和池（PnP）采样模块中，用它构建了一个端到端的 PnP-DETR 架构，该架构可以自适应地分配其计算空间以提高效率 ...

0 0 0 0 2024/09/16 arXiv:2109.07036v4 chengwenxuan7

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

我们介绍 Groma，一种多模态大语言模型（MLLM），具有扎实的细粒度视觉感知能力。除了整体图像理解之外，Groma 还擅长区域级任务，例如区域字幕和视觉基础。此类功能建立在本地化视觉标记化机制的基础上，其中图像输入被分解为感兴趣的区域，然后编码为区域标记 ...

0 1 0 0 2024/09/09 arXiv:2404.13013v1 chengwenxuan7

Universal Instance Perception as Object Discovery and Retrieval

所有实例获取任务都旨在找到某些查询指定的某些对象，例如类别名称、语言表达和目标注释，但这个完整的领域已被分割成多个独立的子任务。在这项工作中，我们提出了下一代通用实例采集模型，称为UNINEXT。UNINEXT将配制的实例采集任务重新为统一的对象发现和检索范式，只需改变输入提示就可以灵活地采集不同类型的对象... ...

0 0 0 0 2024/10/25 arXiv:2303.06674v2 chengwenxuan7

HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation

新提出的广义引用表达分割 (GRES) 通过涉及多个/非目标场景，放大了经典 RES 的表述。最近的方法侧重于优化最后一个模态融合特征，该特征直接用于分割和对象存在识别。然而，由于实例之间的空间关系和欺骗性文本描述的复杂性增加，将全粒度信息集成到单个联合表示中的尝试在 GRES 中是不切实际的 ...

0 0 0 0 2024/08/14 arXiv:2405.15658v1 chengwenxuan7

Vision-Language Transformer and Query Generation for Referring Segmentation

在这项工作中，我们解决了引用分割这一具有挑战性的任务。引用分段中的查询表达式通常通过描述目标对象与其他对象的关系来指示目标对象。因此，为了在图像中的所有实例中找到目标之一，模型必须对整个图像有整体的了解 ...

0 0 0 0 2024/08/09 arXiv:2108.05565v1 chengwenxuan7