在本文中,我们介绍了一种专为复杂的图像分割任务而设计的基于分层 Transformer 的模型,有效地将部分分割的粒度与对象分割的综合范围联系起来。我们方法的核心是多级表示策略,它系统地从单个像素发展到超像素,并最终发展到有凝聚力的群体形成。该架构由两个关键聚合策略支撑:本地聚合和全局聚合 ...
语义分割旨在对图像中的每个像素进行分类,是机器感知中的一项关键任务,在机器人和自动驾驶领域有许多应用。由于该任务的高维度,大多数现有方法使用局部操作(例如卷积)来生成每像素特征。然而,由于在密集图像上操作的计算成本很高,这些方法通常无法有效地利用全局上下文信息 ...
尽管最近在一系列视觉任务中取得了具有竞争力的性能,但视觉 Transformer 仍然存在计算成本高昂的问题。最近,视觉提示学习为这个问题提供了一种经济的解决方案,而无需对整个大规模模型进行微调。然而,由于插入了大量的提示块和技巧提示设计,现有模型的效率仍然远不能令人满意 ...
这项工作的目的是探索如何有效且高效地使预训练的视觉基础模型适应语义分割的各种下游任务。以前的方法通常针对每个特定数据集对整个网络进行微调,这对于存储这些网络的大量参数来说是很繁重的。最近的一些工作尝试将一些额外的可训练参数插入到冻结网络中,以学习参数高效调整的视觉提示 ...
这项工作提出了一种超越监督学习的新颖方法,用于有效的病理图像分析,解决了有限的鲁棒标记数据的挑战。癌症等疾病的病理诊断通常依赖于医生和病理学家对形态特征的评估。然而,计算辅助诊断 (CAD) 系统的最新进展作为诊断支持工具正在引起人们的广泛关注 ...
最近,在对比语言视觉预训练的推动下,基于 CLIP 的方法在泛化和小样本学习任务上表现出了卓越的性能。特别是,即时调整已成为一种有效策略,通过使用与任务相关的文本标记使预先训练的语言视觉模型适应下游任务。受这一进展的推动,在这项工作中,我们质疑其他基本问题(例如弱监督语义分割(WSSS))是否可以从即时调整中受益 ...
仅使用图像级标签的弱监督语义分割(WSSS)由于其成本效益而受到广泛关注。典型的框架涉及使用图像级标签作为训练数据来生成经过细化的像素级伪标签。最近,与 CNN 方法相比,基于视觉变换器 (ViT) 的方法在生成可靠的伪标签方面表现出了卓越的能力,特别是在识别完整的对象区域方面 ...
使用图像级标签的弱监督语义分割(WSSS)通常利用类激活图(CAM)来生成伪标签。受CNN局部结构感知的限制,CAM通常无法识别完整的物体区域。虽然最近的 Vision Transformer (ViT) 可以弥补这个缺陷,但我们观察到它也带来了过度平滑的问题,即最终的补丁 Token 倾向于统一 ...
挖掘精确的类感知注意力图(又称类激活图)对于弱监督语义分割至关重要 ...
遥感图像通常具有背景复杂、尺度和方向变化、类内方差大等特点。通用的语义分割方法通常无法充分研究上述问题,因此其在遥感图像分割上的性能受到限制。在本文中,我们提出了 LOGCAN++,这是一种为遥感图像定制的语义分割模型,它由全局类感知(GCA)模块和多个局部类感知(LCA)模块组成 ...