对地理空间图像进行分类仍然是诸如灾难响应和土地利用监测诸如稀缺或无法使用的区域的主要瓶颈。现有工具(例如 ...
遥感的视觉语言模型得益于其广泛的预处理显示出了有希望的用途。但是,它们在零摄像场景分类方法中的常规用法仍然涉及将大图像分为补丁并做出独立的预测,即 ...
多模式大语言模型(MLLM)的体系结构通常将视觉编码器(通常基于剪辑量)连接到大型语言模型。尽管剪辑量可以很好地捕获全局图像特征,但它努力地模拟相邻补丁之间的局部关系,从而导致视觉表示较弱,从而影响MLLM的详细理解能力。为了解决这个问题,我们提出了LLAVA-SP,它仅在原始的视觉 Token 中添加了六个空间视觉 Token ,以增强视觉表示 ...
从交替暴露捕获的图像序列中重建高动态范围(HDR)视频很具有挑战性,尤其是在存在大型相机或对象运动的情况下。现有方法通常使用光流或注意机制来对齐低动态范围序列。但是,他们通常很难处理大型复杂动作,并且在计算上很昂贵 ...
基于文本的提示学习方法主要以级联的方式使用多个可学习的软提示和硬类 Token 作为文本输入,旨在使下游任务对齐图像和文本(类别)空间。但是,当前的培训仅限于将图像与预定义的类别对齐,并且不能与未知类别相关联。在这项工作中,我们建议利用通用属性作为增强图像和未知类别之间对齐的桥梁 ...
跨域少数射击对象检测(CD-FSOD)旨在通过有限的类实例在不同域中检测新对象。特征混乱,包括对象背景混乱和对象对象混乱,在跨域和少量设置中都面临着重大挑战。在这项工作中,我们介绍了CDFORMER,这是一种跨域几乎没有针对特征混乱的对象检测 Transformer ,以应对这些挑战 ...
最近,视觉模型(例如剪辑)在零拍异常检测(ZSAD)中表现出了显着的性能 ...
参数有效的微调(PEFT)是一种使我们能够适应强大的基础模型(FMS)的技术,同时保留和释放其固有的功能,以适应下游任务。但是,我们已经观察到,现有的PEFT方法通常是考虑到自然图像的设计,当应用于遥感(RS)方案时挣扎。这主要是由于它们无法处理人工制品影响,这在RS图像特征中尤其严重 ...
微调视觉语言模型(VLM)的最新进展见证了迅速调整和适配器调整的成功,而对固有参数的经典模型进行了微调。据信,通过微调剪辑模型甚至会降低性能,对VLM的微调参数进行了几次损坏。在本文中,我们重新审视了这个观点,并提出了一个新的视角:对特定参数进行微调,而不是所有参数,将发现VLMS上经典模型的功能 ...
预先训练的视觉语言模型以剪辑为例,通过将视觉特征与类嵌入的视觉特征通过 Transformer 解码器对齐来生成语义掩码,从而进步零击语义分割。尽管具有有效性,但这种范式中的主要方法遇到了挑战,包括过度适合可见的班级和面具中的小碎片化。为了减轻这些问题,我们提出了一种语言驱动的视觉共识(LDVC)方法,从而促进了语义和视觉效果的改进,因此我们将嵌入式嵌入为锚点,因为它们的离散性和抽象的性质,将视觉视觉转向了类嵌入 ...