以人为本的感知在现实世界的应用中发挥着至关重要的作用。虽然最近以人为中心的工作取得了令人印象深刻的进展,但这些努力往往局限于视觉领域,缺乏与人类指令的交互,限制了它们在聊天机器人和体育分析等更广泛场景中的适用性。本文介绍了引用人类感知,其中引用提示指定图像中感兴趣的人 ...

0 0 0 0 2024/12/24 arXiv:2412.14643v1 chengwenxuan7

在这封信中,我们提出了一种在无目标环境中自动校准高分辨率 LiDAR 和 RGB 相机的新颖方法。我们的方法不需要棋盘,但可以通过对齐两个传感器中的自然边缘特征来实现像素级精度。在理论层面上,我们分析了边缘特征所施加的约束以及校准精度对场景中边缘分布的敏感性 ...

0 0 0 0 2024/12/16 arXiv:2103.01627v2 chengwenxuan7

在本文中,我们提出了一种用于光探测和测距(LiDAR)和相机传感器的新型在线自校准方法。与之前连接 RGB 图像和未校准深度图像的特征图的基于 CNN 的方法相比,我们利用受 PWC-Net 启发的成本量进行特征匹配。除了预测的外在校准参数的平滑 L1 损失之外,还应用了额外的点云损失 ...

0 0 0 0 2024/12/16 arXiv:2012.13901v2 chengwenxuan7

本文重点关注具有挑战性的人群计数任务。由于人群图像中经常存在大规模的变化,无论是 CNN 的固定大小的卷积核还是最近视觉变换器的固定大小的注意力都不能很好地处理这种变化。为了解决这个问题,我们提出了多方面注意力网络(MAN)来改进局部空间关系编码中的 Transformer 模型 ...

0 0 0 0 2024/12/13 arXiv:2203.02636v1 chengwenxuan7

在本文中,我们提出了一种简洁而有效的基于 Transformer 的视觉基础框架,即 TransVG,以解决将语言查询基础到图像上相应区域的任务。最先进的方法,包括两阶段或一阶段方法,依赖于具有手动设计机制的复杂模块来执行查询推理和多模态融合。然而,融合模块设计中某些机制的参与,例如查询分解和图像场景图,使得模型很容易过拟合特定场景的数据集,并限制了视觉语言上下文之间的充分交互 ...

0 0 0 0 2024/12/09 arXiv:2104.08541v4 chengwenxuan7

通过自然语言规范 (TNL) 进行跟踪的目的是在初始帧中给出语言描述的情况下一致地定位视频序列中的目标。现有的方法分别执行基于语言和基于模板的目标推理匹配,并合并两个来源的匹配结果,当语言和视觉模板与动态目标状态不一致以及后期合并阶段的模糊性时,会出现跟踪漂移。为了解决这些问题,我们提出了一个联合多模态跟踪框架,其中 1)一个提示调制模块,利用时间视觉模板和语言表达之间的互补性,实现精确和上下文感知的外观和语言提示,以及 2)一个统一的目标解码模块集成多模态参考线索,并对搜索图像执行集成查询,以直接以端到端的方式预测目标位置 ...

0 0 0 0 2024/12/06 arXiv:2403.19975v1 chengwenxuan7

遥感图像(RSI)中的目标检测经常面临一些日益严峻的挑战,包括目标尺度的巨大变化和多样化的背景。先前的方法试图通过大核卷积或扩张卷积扩展主干的空间感受野来解决这些挑战。然而,前者通常会引入相当大的背景噪声,而后者则有生成过于稀疏的特征表示的风险 ...

0 0 0 0 2024/11/30 arXiv:2403.06258v2 chengwenxuan7

给定自然语言表达和遥感图像,参考遥感图像分割(RRSIS)的目标是生成由参考表达识别的目标对象的像素级掩模。与自然场景不同,RRSIS中的表达往往涉及复杂的地理空间关系,感兴趣的目标对象尺度变化很大,缺乏视觉显着性,从而增加了实现精确分割的难度。为了解决上述挑战,提出了一种新颖的 RRSIS 框架,称为跨模式双向交互模型(CroBIM) ...

0 0 0 0 2024/11/26 arXiv:2410.08613v1 chengwenxuan7

参考遥感图像分割(RRSIS)是一项新的挑战,它结合了计算机视觉和自然语言处理,按照文本查询的描述描绘航空图像中的特定区域。传统的参考图像分割 (RIS) 方法受到航空图像中复杂的空间尺度和方向的阻碍,导致分割结果不理想。为了应对这些挑战,我们引入了旋转多尺度交互网络 (RMSIN),这是一种专为 RRSIS 的独特需求而设计的创新方法 ...

0 0 0 0 2024/11/26 arXiv:2312.12470v3 chengwenxuan7

我们提出了 VILLA,这是第一个针对视觉和语言(V+L)表示学习的大规模对抗训练的已知成果。 VILLA 包含两个训练阶段:(i)任务无关的对抗性预训练;其次是(ii)针对特定任务的对抗性微调。我们建议在每种模态的嵌入空间中进行对抗性训练,而不是在图像像素和文本标记上添加对抗性扰动 ...

0 0 0 0 2024/11/25 arXiv:2006.06195v2 chengwenxuan7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)