在本文中,我们提出了一种简洁而有效的基于 Transformer 的视觉基础框架,即 TransVG,以解决将语言查询基础到图像上相应区域的任务。最先进的方法,包括两阶段或一阶段方法,依赖于具有手动设计机制的复杂模块来执行查询推理和多模态融合。然而,融合模块设计中某些机制的参与,例如查询分解和图像场景图,使得模型很容易过拟合特定场景的数据集,并限制了视觉语言上下文之间的充分交互 ...

0 0 0 0 2024/12/09 arXiv:2104.08541v4 chengwenxuan7

通过自然语言规范 (TNL) 进行跟踪的目的是在初始帧中给出语言描述的情况下一致地定位视频序列中的目标。现有的方法分别执行基于语言和基于模板的目标推理匹配,并合并两个来源的匹配结果,当语言和视觉模板与动态目标状态不一致以及后期合并阶段的模糊性时,会出现跟踪漂移。为了解决这些问题,我们提出了一个联合多模态跟踪框架,其中 1)一个提示调制模块,利用时间视觉模板和语言表达之间的互补性,实现精确和上下文感知的外观和语言提示,以及 2)一个统一的目标解码模块集成多模态参考线索,并对搜索图像执行集成查询,以直接以端到端的方式预测目标位置 ...

0 0 0 0 2024/12/06 arXiv:2403.19975v1 chengwenxuan7

遥感图像(RSI)中的目标检测经常面临一些日益严峻的挑战,包括目标尺度的巨大变化和多样化的背景。先前的方法试图通过大核卷积或扩张卷积扩展主干的空间感受野来解决这些挑战。然而,前者通常会引入相当大的背景噪声,而后者则有生成过于稀疏的特征表示的风险 ...

0 0 0 0 2024/11/30 arXiv:2403.06258v2 chengwenxuan7

给定自然语言表达和遥感图像,参考遥感图像分割(RRSIS)的目标是生成由参考表达识别的目标对象的像素级掩模。与自然场景不同,RRSIS中的表达往往涉及复杂的地理空间关系,感兴趣的目标对象尺度变化很大,缺乏视觉显着性,从而增加了实现精确分割的难度。为了解决上述挑战,提出了一种新颖的 RRSIS 框架,称为跨模式双向交互模型(CroBIM) ...

0 0 0 0 2024/11/26 arXiv:2410.08613v1 chengwenxuan7

参考遥感图像分割(RRSIS)是一项新的挑战,它结合了计算机视觉和自然语言处理,按照文本查询的描述描绘航空图像中的特定区域。传统的参考图像分割 (RIS) 方法受到航空图像中复杂的空间尺度和方向的阻碍,导致分割结果不理想。为了应对这些挑战,我们引入了旋转多尺度交互网络 (RMSIN),这是一种专为 RRSIS 的独特需求而设计的创新方法 ...

0 0 0 0 2024/11/26 arXiv:2312.12470v3 chengwenxuan7

我们提出了 VILLA,这是第一个针对视觉和语言(V+L)表示学习的大规模对抗训练的已知成果。 VILLA 包含两个训练阶段:(i)任务无关的对抗性预训练;其次是(ii)针对特定任务的对抗性微调。我们建议在每种模态的嵌入空间中进行对抗性训练,而不是在图像像素和文本标记上添加对抗性扰动 ...

0 0 0 0 2024/11/25 arXiv:2006.06195v2 chengwenxuan7

尽管以前的类似 DETR 的方法在通用目标检测中取得了成功,但微小目标检测对他们来说仍然是一项具有挑战性的任务,因为目标查询的位置信息不是为检测微小目标而定制的,其规模比一般目标小得多。此外,使用固定数量查询的类似 DETR 的方法使得它们不适合仅包含微小物体的航空数据集,并且不同图像之间的实例数量不平衡。因此,我们提出了一个简单而有效的模型,名为 DQ-DETR,它由三个不同的组件组成:分类计数模块、计数引导的特征增强和动态查询选择来解决上述问题 ...

0 0 0 0 2024/11/25 arXiv:2404.03507v6 chengwenxuan7

在这项工作中,我们追求多模式预训练的统一范例,以打破复杂任务/特定模式定制的支架。我们提出了 OFA,一个支持任务综合性的任务无关和模态无关的框架。 OFA 统一了多种跨模式和单模式任务,包括图像生成、视觉基础、图像字幕、图像分类、语言建模等 ...

0 0 0 0 2024/11/25 arXiv:2202.03052v2 chengwenxuan7

视觉接地旨在通过自然语言接地视觉区域,是一项严重依赖于跨模式对齐的任务。现有的工作利用单模态预训练模型来分别传输视觉或语言知识,而忽略多模态相应信息。受对比语言图像预训练和低秩适应(LoRA)方法最新进展的推动,我们的目标是解决基于多模态预训练的基础任务 ...

0 0 0 0 2024/11/25 arXiv:2404.13400v2 chengwenxuan7

受视觉和语言单独编码的限制,现有的基础和引用分割工作严重依赖于庞大的基于 Transformer 的融合编码/解码器和各种早期交互技术。同时,当前的掩模视觉语言建模(MVLM)无法捕捉指代任务中图像-文本之间微妙的指代关系。在本文中,我们提出了 OneRef,这是一种基于模态共享单塔 Transformer 构建的极简引用框架,统一了视觉和语言特征空间 ...

0 0 0 0 2024/11/25 arXiv:2410.08021v2 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)