引用视频对象细分(RVO)的目的是基于文本描述整个视频中的目标对象。尽管近年来取得了显着的进展,但由于视频语言的理解有限,当前的RVOS模型仍在努力处理复杂的对象描述。为了解决此限制,我们提出\ textbf {refledino},这是一种端到端的RVOS模型,从预算的视觉接地基础模型中继承了强烈的视觉理解,并进一步赋予了有效的时间理解和对象细分功能 ...
多任务视觉接地涉及基于文本表达式在图像中同时执行本地化和分割。大多数高级方法主要集中于基于 Transformer 的多模式融合,旨在提取强大的多模式表示。但是,参考表达理解(REC)与参考图像分割(RIS)之间的歧义是容易出错的,导致多任务预测之间的不一致 ...
解决参考表达接地的流行框架是基于两个阶段的过程:1)检测具有对象检测器的建议,以及2)将指称固定到其中一个建议中。现有的两阶段解决方案主要集中在基础步骤上,该步骤旨在使表达式与提案保持一致。在本文中,我们认为这些方法忽略了在两个阶段的提案角色之间存在明显的不匹配:它们仅基于检测置信度就会生成建议(i ...
统计力学的可集成晶格模型与满足多维一致性的离散集成方程之间存在对应关系,其中后者可以在前者的准经典扩展中找到。本文将此对应关系扩展到相互作用-A-FACE(IRF)模型,从而导致了一致性AROUND-A-CUBE(CAC)的集成性条件的新公式,适用于方形晶格中的五点方程。这些方程式的多维一致性被表述为一致性偏心的以中为中心的立方体(CAFCC),即涉及满足面部中心单位细胞上八个未知变量的14个五点晶格方程的过度确定系统 ...
在本文中,我们解决了参考表达理解:将自然语言表达式描述的图像区域定位。尽管最近的工作将表达式视为一个单元,但我们建议将它们分解为与主题外观,位置和与其他物体的关系有关的三个模块化组件。这使我们可以灵活地适应端到端框架中包含不同类型信息的表达式 ...
大型多模态模型(LMM)的最新进展已经认识到细粒度基础是视觉理解和对话的必要因素。然而,LMM 中这种表示的好处仅限于自然图像领域,并且这些模型在遥感 (RS) 方面表现不佳。高分辨率遥感图像中独特的俯视视角、尺度变化和小物体的存在给区域级理解带来了独特的挑战 ...
以人为本的感知在现实世界的应用中发挥着至关重要的作用。虽然最近以人为中心的工作取得了令人印象深刻的进展,但这些努力往往局限于视觉领域,缺乏与人类指令的交互,限制了它们在聊天机器人和体育分析等更广泛场景中的适用性。本文介绍了引用人类感知,其中引用提示指定图像中感兴趣的人 ...
在这封信中,我们提出了一种在无目标环境中自动校准高分辨率 LiDAR 和 RGB 相机的新颖方法。我们的方法不需要棋盘,但可以通过对齐两个传感器中的自然边缘特征来实现像素级精度。在理论层面上,我们分析了边缘特征所施加的约束以及校准精度对场景中边缘分布的敏感性 ...
在本文中,我们提出了一种用于光探测和测距(LiDAR)和相机传感器的新型在线自校准方法。与之前连接 RGB 图像和未校准深度图像的特征图的基于 CNN 的方法相比,我们利用受 PWC-Net 启发的成本量进行特征匹配。除了预测的外在校准参数的平滑 L1 损失之外,还应用了额外的点云损失 ...
本文重点关注具有挑战性的人群计数任务。由于人群图像中经常存在大规模的变化,无论是 CNN 的固定大小的卷积核还是最近视觉变换器的固定大小的注意力都不能很好地处理这种变化。为了解决这个问题,我们提出了多方面注意力网络(MAN)来改进局部空间关系编码中的 Transformer 模型 ...