我们提出了一种在基于视觉的对话中生成指称表达(REG)的方法,该方法旨在产生既具有区分性又适合话语的指称表达(RE)。我们的方法构成了一个两阶段的过程。首先,我们将 REG 建模为文本和图像条件下一个标记预测任务 ...

0 0 0 0 2024/09/20 arXiv:2409.05721v1 chengwenxuan7

我们引入了 SAM4MLLM,这是一种创新方法,它将分段任意模型 (SAM) 与多模态大型语言模型 (MLLM) 相集成,以执行像素感知任务。我们的方法使 MLLM 能够学习像素级位置信息,而不需要对现有模型架构进行过多修改或添加专门的标记。我们引入了一种基于查询的方法,可以有效地找到 SAM 基于 MLLM 进行分割的提示点 ...

0 0 0 0 2024/09/19 arXiv:2409.10542v1 chengwenxuan7

最近,DETR 首创了 Transformer 视觉任务的解决方案,它直接将图像特征图转化为目标检测结果。尽管有效,但由于背景等某些区域的冗余计算,翻译完整特征图的成本可能很高。在这项工作中,我们将减少空间冗余的想法封装到一个新颖的轮询和池(PnP)采样模块中,用它构建了一个端到端的 PnP-DETR 架构,该架构可以自适应地分配其计算空间以提高效率 ...

0 0 0 0 2024/09/16 arXiv:2109.07036v4 chengwenxuan7

我们介绍 Groma,一种多模态大语言模型(MLLM),具有扎实的细粒度视觉感知能力。除了整体图像理解之外,Groma 还擅长区域级任务,例如区域字幕和视觉基础。此类功能建立在本地化视觉标记化机制的基础上,其中图像输入被分解为感兴趣的区域,然后编码为区域标记 ...

0 1 0 0 2024/09/09 arXiv:2404.13013v1 chengwenxuan7

所有实例获取任务都旨在找到某些查询指定的某些对象,例如类别名称、语言表达和目标注释,但这个完整的领域已被分割成多个独立的子任务。在这项工作中,我们提出了下一代通用实例采集模型,称为UNINEXT。UNINEXT将配制的实例采集任务重新为统一的对象发现和检索范式,只需改变输入提示就可以灵活地采集不同类型的对象... ...

0 0 0 0 2024/10/25 arXiv:2303.06674v2 chengwenxuan7

新提出的广义引用表达分割 (GRES) 通过涉及多个/非目标场景,放大了经典 RES 的表述。最近的方法侧重于优化最后一个模态融合特征,该特征直接用于分割和对象存在识别。然而,由于实例之间的空间关系和欺骗性文本描述的复杂性增加,将全粒度信息集成到单个联合表示中的尝试在 GRES 中是不切实际的 ...

0 0 0 0 2024/08/14 arXiv:2405.15658v1 chengwenxuan7

在这项工作中,我们解决了引用分割这一具有挑战性的任务。引用分段中的查询表达式通常通过描述目标对象与其他对象的关系来指示目标对象。因此,为了在图像中的所有实例中找到目标之一,模型必须对整个图像有整体的了解 ...

0 0 0 0 2024/08/09 arXiv:2108.05565v1 chengwenxuan7

在本文中,我们提出了一个简单而通用的网络,称为 SeqTR,用于视觉基础任务,例如短语定位、指代表达理解(REC)和分割(RES) ...

0 0 1 1 2024/08/08 arXiv:2203.16265v2 chengwenxuan7

在这项工作中,不是直接预测像素级分割掩模,而是将参考图像分割问题表述为顺序多边形生成,并且预测的多边形可以稍后转换为分割掩模。这是通过新的序列到序列框架 Polygon Transformer (PolyFormer) 实现的,该框架将一系列图像块和文本查询标记作为输入,并自回归输出一系列多边形顶点。为了更准确的几何定位,我们提出了一种基于回归的解码器,它直接预测精确的浮点坐标,没有任何坐标量化误差 ...

0 0 0 0 2024/08/08 arXiv:2302.07387v2 chengwenxuan7

引用表达式分割(RES)旨在为给定语言表达式描述的对象生成分割掩码。现有的经典RES数据集和方法通常仅支持单目标表达式,即 ...

0 0 0 0 2024/08/08 arXiv:2306.00968v1 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)