自动化水道环境感知对于让无人水面舰艇 (USV) 了解周围环境并做出明智的决策至关重要。大多数现有的水路感知模型主要关注实例级对象感知范例(例如检测、分割)。然而,由于航道环境的复杂性,当前的感知数据集和模型无法实现对航道的全局语义理解,限制了大规模监测和结构化日志生成。随着视觉语言模型 (VLM) 的进步,我们利用图像字幕引入了 WaterCaption,这是第一个专为水路环境设计的字幕数据集。 WaterCaption专注于细粒度、多区域的长文本描述,为视觉地理理解和空间场景认知提供了新的研究方向。确切地说,它包含 20.2k 个图文对数据,180 万个词汇量。此外,我们提出了 Da Yu,一种用于 USV 的边缘部署多模态大语言模型,其中我们提出了一种称为 Nano Transformer Adapter (NTA) 的新型视觉到语言投影仪。 NTA 有效地平衡了计算效率与视觉特征的全局和细粒度局部建模的能力,从而显着增强了模型生成长格式文本输出的能力。大宇在性能和效率之间实现了最佳平衡,超越了 WaterCaption 和其他几个字幕基准的最先进模型 ...
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...
在本文中,我们提出了一项名为全参考图像分割(OmniRIS)的新任务,旨在实现高度通用的图像分割。与现有的单峰条件分割任务(例如 RIS 和视觉 RIS)相比,OmniRIS 支持输入文本指令和参考图像,并以掩模、框或涂鸦作为全方位提示。这一特性使得它可以很好地利用文本和视觉模式的内在优点,即分别是粒度属性引用和不常见的对象基础。此外,OmniRIS还可以处理各种分段设置,例如一对一。很多很多v.s.许多,进一步促进了其实际使用。为了促进OmniRIS的研究,我们还严格设计和构建了一个名为OmniRef的大型数据集,该数据集由30,956张图像的186,939个全方位提示组成,并建立了全面的评估体系。此外,还提出了一个名为 OmniSegNet 的强大通用基线来解决 OmniRIS 的关键挑战,例如全提示编码。大量的实验不仅验证了 OmniSegNet 遵循全模态指令的能力,而且还展示了 OmniRIS 在高度通用化图像分割方面的优越性 ...
视觉相机和声纳在水下环境中天然是互补的。结合两种模式的信息将有助于更好地观察水下目标。然而,这一问题在以往的研究中并未得到足够的重视。因此,本文引入了一种新的具有挑战性的RGB声纳(RGB-S)跟踪任务,并研究如何通过RGB和声纳模态的交互实现水下目标的高效跟踪。具体来说,我们首先提出一个 RGBS50 基准数据集,其中包含 50 个序列和超过 87000 个高质量带注释的边界框。实验结果表明,RGBS50基准测试对当前流行的SOT跟踪器提出了挑战。其次,我们提出了一种名为 SCANet 的 RGB-S 跟踪器,它包括一个空间交叉注意模块(SCAM),该模块由一个新颖的空间交叉注意层和两个独立的全局集成模块组成。空间交叉注意力用于克服RGB图像和声纳图像之间的空间错位问题。第三,我们提出了一种基于SOT数据的RGB-S模拟训练方法(SRST)来克服RGB-S训练数据集的缺乏。它将 RGB 图像转换为类似声纳的显着性图像以构造伪数据对,使模型能够学习类似 RGB-S 数据的语义结构。综合实验表明,所提出的空间交叉注意力有效地实现了 RGB 和声纳模态之间的交互,并且 SCANet 在所提出的基准上实现了最先进的性能。该代码可从此 https URL 获取 ...
底栖栖息地测绘对于了解海洋生态系统、指导保护工作和支持可持续资源管理至关重要。然而,大型带注释数据集的稀缺限制了该领域机器学习模型的开发和基准测试。本文介绍了一个完整的多模态数据集,其中包括沿加泰罗尼亚(西班牙)海岸收集的约一百万个侧扫声纳(SSS)图块,并辅以测深地图和一组使用自主水下航行器(AUV)进行针对性调查的共同注册光学图像。大约 \num{36000} 的 SSS 图块已使用分段掩码进行了手动注释,以实现分类模型的监督微调。所有原始传感器数据以及马赛克也被发布,以支持进一步的探索和算法开发。为了解决 AUV 多传感器数据融合的挑战,我们在空间上将光学图像与相应的 SSS 块关联起来,促进自我监督、跨模式表示学习。提供了随附的开源预处理和注释工具,以增强可访问性并鼓励研究。该资源旨在建立水下栖息地测绘的标准化基准,促进自主海底分类和多传感器集成的进步 ...
近年来,视频实例分割(VIS)在很大程度上是由离线模型推动的,而在线模型可能由于性能较差而逐渐受到关注。然而,在线方法在处理长视频序列和持续视频方面有其固有的优势,而离线模型由于计算资源的限制而失败。因此,如果在线模型能够达到与离线模型相当甚至更好的性能,那将是非常可取的。通过剖析当前的在线模型和离线模型,我们证明了性能差距的主要原因是由于特征空间中不同实例之间的相似外观而导致的帧之间容易出错的关联。观察到这一点,我们提出了一种基于对比学习的在线框架,该框架能够学习更具区分性的实例嵌入以进行关联,并充分利用历史信息来实现稳定性。尽管很简单,但我们的方法在三个基准测试中优于所有在线和离线方法。具体来说,我们在 YouTube-VIS 2019 上获得了 49.5 AP,分别比之前的在线和离线艺术显着提高了 13.2 AP 和 2.1 AP。此外,我们在 OVIS 上实现了 30.2 AP,这是一个更具挑战性的数据集,具有明显的拥挤和遮挡,超过了现有技术 14.8 AP。该方法在第四届大规模视频对象分割挑战赛(CVPR2022)的视频实例分割赛道中获得第一名。我们希望我们的方法的简单性和有效性,以及我们对当前方法的洞察,能够为 VIS 模型的探索带来启发 ...
在这项工作中,我们提出了用于视频实例分割的 SeqFormer。 SeqFormer 遵循视觉转换器的原理,对视频帧之间的实例关系进行建模。尽管如此,我们观察到独立的实例查询足以捕获视频中实例的时间序列,但注意机制应独立地对每个帧进行。为了实现这一目标,SeqFormer 在每个帧中定位一个实例并聚合时间信息以学习视频级实例的强大表示,该表示用于动态预测每个帧上的掩码序列。实例跟踪是自然实现的,无需跟踪分支或后处理。在 YouTube-VIS 上,SeqFormer 在 ResNet-50 主干上实现了 47.4 AP,在 ResNet-101 主干上实现了 49.0 AP,没有任何附加功能。这一成果分别显着超出了之前的最先进性能 4.6 和 4.4。此外,与最近提出的 Swin Transformer 集成,SeqFormer 实现了更高的 AP 59.3。我们希望 SeqFormer 能够成为一个强有力的基线,促进视频实例分割的未来研究,同时以更强大、更准确、更简洁的模型推动这一领域的发展。该代码可从此 https URL 获取 ...
我们提出了 MinVIS,一种最小的视频实例分割 (VIS) 框架,无需基于视频的架构或训练程序即可实现最先进的 VIS 性能。通过仅训练基于查询的图像实例分割模型,MinVIS 在具有挑战性的 Occlusion VIS 数据集上的表现比之前的最佳结果高出超过 10% AP。由于 MinVIS 将训练视频中的帧视为独立图像,因此我们可以对训练视频中带注释的帧进行大幅子采样,而无需任何修改。 MinVIS 仅使用 1% 的标记帧,其性能优于或堪比 YouTube-VIS 2019/2021 上完全监督的最先进方法。我们的主要观察结果是,经过训练以区分帧内对象实例的查询在时间上是一致的,并且可以用于跟踪实例,而无需任何手动设计的启发式方法。因此,MinVIS 具有以下推理流程:我们首先将经过训练的基于查询的图像实例分割独立地应用于视频帧。然后通过相应查询的二分匹配来跟踪分段实例。这种推理是以在线方式完成的,不需要立即处理整个视频。因此,MinVIS 具有降低标签成本和内存需求的实际优势,同时不会牺牲 VIS 性能。代码位于:此 https URL ...
参考视频对象分割(RVOS)需要在自然语言描述的指导下分割视频中的特定对象。 RVOS 的核心挑战是将抽象语言概念锚定到一组特定的像素上,并通过视频的复杂动态不断对它们进行分割。面对这一困难,先前的工作通常将任务分解为务实的“定位然后分段”管道。然而,这种级联设计通过将语义简化为粗略的几何提示(例如点)而产生了信息瓶颈,并且由于分段过程通常与初始语言基础脱钩而难以保持时间一致性。为了克服这些基本限制,我们提出了 FlowRVS,这是一种新颖的框架,它将 RVOS 重新概念化为条件连续流问题。这使我们能够利用预训练 T2V 模型、细粒度像素控制、文本视频语义对齐和时间一致性的固有优势。我们不是传统地从噪声生成掩模或直接预测掩模,而是通过学习从视频的整体表示到目标掩模的直接的、语言引导的变形来重新制定任务。我们的一阶段生成方法在所有主要 RVOS 基准测试中均取得了最先进的结果。具体来说,在 MeViS 中实现 $\mathcal{J}\&\mathcal{F}$ 为 51.1(比之前的 SOTA +1.6),在零样本 Ref-DAVIS17 中达到 73.3(+2.7),展示了将视频理解任务建模为连续变形过程的巨大潜力 ...
参考视频分割(RVOS)旨在根据给定的语言表达来分割视频中的对象。解决RVOS的关键是从表情和视频的交互中提取长程时间上下文信息,以描述每个对象的动态属性。以前的作品要么在所有帧上采用注意力,要么堆叠密集的局部注意力以实现时间上下文的全局视图。然而,它们未能在局部性和全局性之间取得良好的平衡,并且计算复杂度随着视频长度的增加而显着增加。在本文中,我们提出了一种有效的远程时间上下文注意(LTCA)机制,将全局上下文信息聚合为对象特征。具体来说,我们从两个方面聚合全局上下文信息。首先,我们堆叠稀疏的局部注意力来平衡局部性和全局性。我们设计了跨帧的扩张窗口注意力来聚合局部上下文信息,并在堆栈中执行这种注意力以实现全局视图。此外,我们使每个查询能够关注从全局池中随机选择的一小组键,以增强全局性。其次,我们设计一个全局查询来与所有其他查询交互,以直接编码全局上下文信息。实验表明,我们的方法在四个参考视频分割基准上实现了新的最先进技术。值得注意的是,我们的方法在 MeViS value 和 val 数据集上分别显示出 11.3% 和 8.3% 的改进 ...