引用遥感图像分割(RRSIS)旨在根据文本描述将目标对象(RS)图像分割。尽管任何模型2(SAM 2)在各种细分任务中都表现出了出色的性能,但其在RRSIS的应用中提出了一些挑战,包括了解文本描述的RS场景并从文本描述中生成有效的提示。为了解决这些问题,我们提出了RS2-SAM 2,这是一个新颖的框架,它通过对齐适应的RS功能和文本功能来适应SAM 2,以适应RRSIS,从而提供基于伪遮罩的密集提示,并实施边界约束 ...

0 0 0 0 2025/04/18 arXiv:2503.07266v1 chengwenxuan7

大多数先进的视觉接地方法依靠 Transformer 进行视觉语言特征融合。但是,这些基于 Transformer 的方法遇到了一个重要的缺点:由于 Transformer 编码器中的自我发起机制,尤其是在处理高分辨率图像或长上下文句子时,计算成本正常升级。计算负担的这种二次增加限制了视觉接地对更复杂的场景的适用性,例如基于对话的推理细分,涉及冗长的语言表达式 ...

0 0 0 0 2025/04/18 arXiv:2408.01120v1 chengwenxuan7

参考图像分割(RIS)是一项具有挑战性的任务,需要算法来分割由自由形式语言表达式引用的对象。尽管近年来取得了重大进展,但大多数最先进的方法(SOTA)方法仍然存在相当大的语言图像模态差距在像素和单词级别。这些方法通常1)依靠句子级的语言特征来进行语言图像对齐,2)缺乏明确的训练监督,无法进行细粒度的视觉接地 ...

0 0 0 0 2025/04/18 arXiv:2312.12198v2 chengwenxuan7

视觉接地(VG)是视觉和语言领域的关键主题,涉及在图像中找到由表达式描述的特定区域。为了减少对手动标记数据的依赖,已经开发了无监督的视觉接地,以使用伪标记定位区域。但是,现有的无监督方法的性能高度取决于伪标签的质量,这些方法总是遇到有限多样性的问题 ...

0 0 0 0 2025/04/18 arXiv:2305.08685v5 chengwenxuan7

参考图片分割旨在通过自然语言将引用率划分为本http url到文本和图像之间的不同数据属性,对于网络而言,良好地对齐文本和像素级特征是一项挑战。现有的方法使用预验证的模型来促进学习,但分别从验证的模型中传递了语言/视觉知识,而忽略了多模式的相应信息。受到对比的语言图像预处理(剪辑)的最新进展的启发,我们在本文中提出了一个端到端夹子驱动的参考图像分割框架(CRIS) ...

0 0 0 0 2025/04/17 arXiv:2111.15174v2 chengwenxuan7

引用表达分割(RES)旨在分割与描述性语言表达式相匹配的实体掩模。尽管传统的RES方法主要解决对象级接地,但现实世界的场景需要一个更通用的框架,该框架可以处理多个级别的目标粒度,例如多对象,单个对象或部分级别的引用。由于用户描述目标的多样化和细微差别的方式,这引入了巨大的挑战 ...

0 0 0 0 2025/04/17 arXiv:2504.01954v1 chengwenxuan7

在这项工作中,我们探索了用于视觉接地的整洁而有效的基于 Transformer 的框架。先前的方法通常解决了视觉接地的核心问题,即 ...

0 0 0 0 2025/04/06 arXiv:2206.06619v1 chengwenxuan7

引用视频对象细分(RVO)的目的是基于文本描述整个视频中的目标对象。尽管近年来取得了显着的进展,但由于视频语言的理解有限,当前的RVOS模型仍在努力处理复杂的对象描述。为了解决此限制,我们提出\ textbf {refledino},这是一种端到端的RVOS模型,从预算的视觉接地基础模型中继承了强烈的视觉理解,并进一步赋予了有效的时间理解和对象细分功能 ...

0 0 0 0 2025/02/09 arXiv:2501.14607v1 chengwenxuan7

多任务视觉接地涉及基于文本表达式在图像中同时执行本地化和分割。大多数高级方法主要集中于基于 Transformer 的多模式融合,旨在提取强大的多模式表示。但是,参考表达理解(REC)与参考图像分割(RIS)之间的歧义是容易出错的,导致多任务预测之间的不一致 ...

0 0 0 0 2025/02/07 arXiv:2501.06710v1 chengwenxuan7

解决参考表达接地的流行框架是基于两个阶段的过程:1)检测具有对象检测器的建议,以及2)将指称固定到其中一个建议中。现有的两阶段解决方案主要集中在基础步骤上,该步骤旨在使表达式与提案保持一致。在本文中,我们认为这些方法忽略了在两个阶段的提案角色之间存在明显的不匹配:它们仅基于检测置信度就会生成建议(i ...

0 0 0 0 2025/01/27 arXiv:2009.01449v3 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)