尽管以前的类似 DETR 的方法在通用目标检测中取得了成功,但微小目标检测对他们来说仍然是一项具有挑战性的任务,因为目标查询的位置信息不是为检测微小目标而定制的,其规模比一般目标小得多。此外,使用固定数量查询的类似 DETR 的方法使得它们不适合仅包含微小物体的航空数据集,并且不同图像之间的实例数量不平衡。因此,我们提出了一个简单而有效的模型,名为 DQ-DETR,它由三个不同的组件组成:分类计数模块、计数引导的特征增强和动态查询选择来解决上述问题 ...

0 0 0 0 2024/11/25 arXiv:2404.03507v6 chengwenxuan7

在这项工作中,我们追求多模式预训练的统一范例,以打破复杂任务/特定模式定制的支架。我们提出了 OFA,一个支持任务综合性的任务无关和模态无关的框架。 OFA 统一了多种跨模式和单模式任务,包括图像生成、视觉基础、图像字幕、图像分类、语言建模等 ...

0 0 0 0 2024/11/25 arXiv:2202.03052v2 chengwenxuan7

视觉接地旨在通过自然语言接地视觉区域,是一项严重依赖于跨模式对齐的任务。现有的工作利用单模态预训练模型来分别传输视觉或语言知识,而忽略多模态相应信息。受对比语言图像预训练和低秩适应(LoRA)方法最新进展的推动,我们的目标是解决基于多模态预训练的基础任务 ...

0 0 0 0 2024/11/25 arXiv:2404.13400v2 chengwenxuan7

受视觉和语言单独编码的限制,现有的基础和引用分割工作严重依赖于庞大的基于 Transformer 的融合编码/解码器和各种早期交互技术。同时,当前的掩模视觉语言建模(MVLM)无法捕捉指代任务中图像-文本之间微妙的指代关系。在本文中,我们提出了 OneRef,这是一种基于模态共享单塔 Transformer 构建的极简引用框架,统一了视觉和语言特征空间 ...

0 0 0 0 2024/11/25 arXiv:2410.08021v2 chengwenxuan7

图像修复的目的是使用剩余部分的上下文信息来恢复划痕和损坏区域。近年来,得益于卷积神经网络(CNN)的复兴,图像修复任务取得了巨大突破。然而,大多数工作都考虑了掩模类型不足,当遇到看不见的掩模时,它们的性能会急剧下降 ...

0 0 0 0 2024/11/22 arXiv:2205.07162v1 chengwenxuan7

尽管统一图像分割(IS)最近取得了进展,但开发统一视频分割(VS)模型仍然是一个挑战。这主要是因为通用类别指定的 VS 任务需要检测所有对象并在连续帧中跟踪它们,而提示引导的 VS 任务需要在整个视频中通过视觉/文本提示重新识别目标,这使得处理具有相同架构的不同任务。我们尝试解决这些问题,并通过使用提示作为查询,提出了一种新颖的统一 VS 架构,即 UniVS ...

0 0 0 0 2024/11/18 arXiv:2402.18115v2 chengwenxuan7

我们引入了一个新的基准,旨在促进遥感图像通用、大规模视觉语言模型的开发。尽管已经提出了遥感中的几种视觉语言数据集来实现这一目标,但现有数据集通常是针对单一任务定制的,缺乏详细的物体信息,或者质量控制不足。为了探索这些改进机会,我们提出了一种用于遥感图像理解的多功能视觉语言基准,称为 VRSBench ...

0 0 0 0 2024/11/18 arXiv:2406.12384v2 chengwenxuan7

从遥感图像中定位所需的物体在实际应用中非常有用。参考图像分割旨在分割出给定表达式所指的对象,在自然图像中已得到广泛研究。然而,几乎没有研究关注遥感图像的这项任务 ...

0 0 0 0 2024/11/18 arXiv:2306.08625v2 chengwenxuan7

在本文中,我们介绍了遥感数据视觉接地(RSVG)的任务。 RSVG旨在在自然语言的指导下定位遥感(RS)图像中的参考对象。为了使用自然语言从遥感图像中检索丰富的信息,人们对遥感图像视觉问答、遥感图像字幕和遥感图像文本检索等许多研究任务进行了大量研究 ...

0 0 0 0 2024/11/18 arXiv:2210.12634v1 chengwenxuan7

当前最先进的视频对象分割(VOS)方法在训练和测试期间都依赖于密集的每个对象掩模注释。这需要耗时且昂贵的视频注释机制。我们提出了一种新颖的 Point-VOS 任务,具有时空稀疏逐点注释方案,可大大减少注释工作 ...

0 0 0 0 2024/11/18 arXiv:2402.05917v2 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)