视觉接地因其在各种视觉语言任务中的广泛应用而受到广泛关注。尽管视觉基础已经取得了显着的研究进展,但现有方法忽略了不同层次的文本和图像特征之间的关联对跨模态匹配的促进作用。本文提出了一种短语解耦跨模态层次匹配和渐进位置校正视觉基础方法。它首先通过解耦的句子短语生成掩模,并构建文本和图像层次匹配机制,突出不同层次之间的关联在跨模态匹配中的作用。此外,基于分层匹配机制定义了相应的目标物体位置渐进校正策略,以实现对文中描述的目标物体的精确定位。该方法可以随着目标物体文本描述确定性的提高,不断优化调整目标物体的包围盒位置。该设计探索了不同层次特征之间的关联,并突出了与目标对象及其位置相关的特征在目标定位中的作用。通过实验在不同的数据集上验证了所提出的方法,并通过与最先进方法的性能比较验证了其优越性 ...
视觉接地旨在通过自然语言接地视觉区域,是一项严重依赖于跨模式对齐的任务。现有的工作利用单模态预训练模型来分别传输视觉或语言知识,而忽略多模态相应信息。受对比语言图像预训练和低秩适应(LoRA)方法最新进展的推动,我们的目标是解决基于多模态预训练的基础任务。然而,预训练和基础训练之间存在显着的任务差距。因此,为了解决这些差距,我们提出了一种简洁高效的分层多模态细粒度调制框架,即 HiVG。具体来说,HiVG 由多层自适应跨模态桥和分层多模态低秩自适应(HiLoRA)范式组成。跨模态桥梁可以解决视觉特征与接地所需特征不一致的问题,并在多层次的视觉特征和文本特征之间建立联系。 HiLoRA 通过以分层方式从浅层到深层调整跨模态特征来防止感知错误的累积。五个数据集的实验结果证明了我们方法的有效性,并展示了显着的接地能力以及有希望的能源效率优势。项目页面:此 https URL ...
我们提出了 YORO——一种用于视觉接地(VG)任务的多模态 Transformer 编码器架构。此任务涉及在图像中定位通过自然语言引用的对象。与最近文献中使用牺牲速度以换取准确性的多阶段方法的趋势不同,YORO 通过采用单阶段设计(没有 CNN 主干)来寻求速度和准确性之间的更好权衡。 YORO 使用自然语言查询、图像补丁和可学习的检测标记,并使用单个转换器编码器预测所引用对象的坐标。为了帮助文本和视觉对象之间的对齐,提出了一种新颖的补丁文本对齐损失。在 5 个不同的数据集上进行了广泛的实验,并对架构设计选择进行了消融。 YORO 显示支持实时推理,并大幅优于此类中的所有方法(单阶段方法)。它也是最快的 VG 模型,并实现了文献中最佳的速度/精度权衡 ...
参考视频对象分割(RVOS)旨在基于语言描述来识别、跟踪和分割视频中的对象,近年来受到广泛关注。然而,现有的数据集仍然关注几秒钟内的短视频剪辑,在大多数帧中都可以看到显着的对象。为了将任务推进到更实际的场景,我们引入了 \textbf{Long-RVOS},这是一个用于长期参考视频对象分割的大规模基准。 Long-RVOS包含2000多个平均时长超过60秒的视频,涵盖了各种经历遮挡、消失-再现和镜头变化的物体。这些对象被手动标注了三种不同类型的描述,以单独评估对静态属性、运动模式和时空关系的理解。此外,与以前仅依赖于每帧空间评估的基准不同,我们引入了两个新指标来评估时间和时空一致性。我们在 Long-RVOS 上对 6 种最先进的方法进行了基准测试。结果表明,当前的方法很难应对长视频的挑战。为了解决这个问题,我们进一步提出了 ReferMo,这是一种有前景的基线方法,它集成运动信息来扩展时间感受野,并采用局部到全局的架构来捕获短期动态和长期依赖性。尽管很简单,ReferMo 在长期场景中比当前方法实现了显着改进。我们希望 Long-RVOS 和我们的基线能够推动未来的 RVOS 研究朝着处理更真实、更长的视频方向发展 ...
自动化水道环境感知对于让无人水面舰艇 (USV) 了解周围环境并做出明智的决策至关重要。大多数现有的水路感知模型主要关注实例级对象感知范例(例如检测、分割)。然而,由于航道环境的复杂性,当前的感知数据集和模型无法实现对航道的全局语义理解,限制了大规模监测和结构化日志生成。随着视觉语言模型 (VLM) 的进步,我们利用图像字幕引入了 WaterCaption,这是第一个专为水路环境设计的字幕数据集。 WaterCaption专注于细粒度、多区域的长文本描述,为视觉地理理解和空间场景认知提供了新的研究方向。确切地说,它包含 20.2k 个图文对数据,180 万个词汇量。此外,我们提出了 Da Yu,一种用于 USV 的边缘部署多模态大语言模型,其中我们提出了一种称为 Nano Transformer Adapter (NTA) 的新型视觉到语言投影仪。 NTA 有效地平衡了计算效率与视觉特征的全局和细粒度局部建模的能力,从而显着增强了模型生成长格式文本输出的能力。大宇在性能和效率之间实现了最佳平衡,超越了 WaterCaption 和其他几个字幕基准的最先进模型 ...
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...
在本文中,我们提出了一项名为全参考图像分割(OmniRIS)的新任务,旨在实现高度通用的图像分割。与现有的单峰条件分割任务(例如 RIS 和视觉 RIS)相比,OmniRIS 支持输入文本指令和参考图像,并以掩模、框或涂鸦作为全方位提示。这一特性使得它可以很好地利用文本和视觉模式的内在优点,即分别是粒度属性引用和不常见的对象基础。此外,OmniRIS还可以处理各种分段设置,例如一对一。很多很多v.s.许多,进一步促进了其实际使用。为了促进OmniRIS的研究,我们还严格设计和构建了一个名为OmniRef的大型数据集,该数据集由30,956张图像的186,939个全方位提示组成,并建立了全面的评估体系。此外,还提出了一个名为 OmniSegNet 的强大通用基线来解决 OmniRIS 的关键挑战,例如全提示编码。大量的实验不仅验证了 OmniSegNet 遵循全模态指令的能力,而且还展示了 OmniRIS 在高度通用化图像分割方面的优越性 ...
视觉相机和声纳在水下环境中天然是互补的。结合两种模式的信息将有助于更好地观察水下目标。然而,这一问题在以往的研究中并未得到足够的重视。因此,本文引入了一种新的具有挑战性的RGB声纳(RGB-S)跟踪任务,并研究如何通过RGB和声纳模态的交互实现水下目标的高效跟踪。具体来说,我们首先提出一个 RGBS50 基准数据集,其中包含 50 个序列和超过 87000 个高质量带注释的边界框。实验结果表明,RGBS50基准测试对当前流行的SOT跟踪器提出了挑战。其次,我们提出了一种名为 SCANet 的 RGB-S 跟踪器,它包括一个空间交叉注意模块(SCAM),该模块由一个新颖的空间交叉注意层和两个独立的全局集成模块组成。空间交叉注意力用于克服RGB图像和声纳图像之间的空间错位问题。第三,我们提出了一种基于SOT数据的RGB-S模拟训练方法(SRST)来克服RGB-S训练数据集的缺乏。它将 RGB 图像转换为类似声纳的显着性图像以构造伪数据对,使模型能够学习类似 RGB-S 数据的语义结构。综合实验表明,所提出的空间交叉注意力有效地实现了 RGB 和声纳模态之间的交互,并且 SCANet 在所提出的基准上实现了最先进的性能。该代码可从此 https URL 获取 ...
底栖栖息地测绘对于了解海洋生态系统、指导保护工作和支持可持续资源管理至关重要。然而,大型带注释数据集的稀缺限制了该领域机器学习模型的开发和基准测试。本文介绍了一个完整的多模态数据集,其中包括沿加泰罗尼亚(西班牙)海岸收集的约一百万个侧扫声纳(SSS)图块,并辅以测深地图和一组使用自主水下航行器(AUV)进行针对性调查的共同注册光学图像。大约 \num{36000} 的 SSS 图块已使用分段掩码进行了手动注释,以实现分类模型的监督微调。所有原始传感器数据以及马赛克也被发布,以支持进一步的探索和算法开发。为了解决 AUV 多传感器数据融合的挑战,我们在空间上将光学图像与相应的 SSS 块关联起来,促进自我监督、跨模式表示学习。提供了随附的开源预处理和注释工具,以增强可访问性并鼓励研究。该资源旨在建立水下栖息地测绘的标准化基准,促进自主海底分类和多传感器集成的进步 ...
近年来,视频实例分割(VIS)在很大程度上是由离线模型推动的,而在线模型可能由于性能较差而逐渐受到关注。然而,在线方法在处理长视频序列和持续视频方面有其固有的优势,而离线模型由于计算资源的限制而失败。因此,如果在线模型能够达到与离线模型相当甚至更好的性能,那将是非常可取的。通过剖析当前的在线模型和离线模型,我们证明了性能差距的主要原因是由于特征空间中不同实例之间的相似外观而导致的帧之间容易出错的关联。观察到这一点,我们提出了一种基于对比学习的在线框架,该框架能够学习更具区分性的实例嵌入以进行关联,并充分利用历史信息来实现稳定性。尽管很简单,但我们的方法在三个基准测试中优于所有在线和离线方法。具体来说,我们在 YouTube-VIS 2019 上获得了 49.5 AP,分别比之前的在线和离线艺术显着提高了 13.2 AP 和 2.1 AP。此外,我们在 OVIS 上实现了 30.2 AP,这是一个更具挑战性的数据集,具有明显的拥挤和遮挡,超过了现有技术 14.8 AP。该方法在第四届大规模视频对象分割挑战赛(CVPR2022)的视频实例分割赛道中获得第一名。我们希望我们的方法的简单性和有效性,以及我们对当前方法的洞察,能够为 VIS 模型的探索带来启发 ...