如何在性能和计算成本之间做出良好的权衡对于跟踪器来说至关重要。然而,当前著名的方法通常侧重于复杂且耗时的学习,通过输入越来越多的图像(或特征)来结合时间和外观信息。因此,这些方法不仅增加了模型的计算源和学习负担,而且引入了许多无用且可能干扰的信息 ...
Mamba 因其灵活的设计和高效的硬件性能来处理基于状态空间模型(SSM)的一维序列而受到广泛关注。最近的研究尝试将 Mamba 应用于视觉领域,将 2D 图像扁平化为补丁,然后将它们视为 1D 序列。补偿二维结构信息损失(例如 ...
选择性状态空间模型 (SSM),例如 Mamba,非常擅长捕获一维序列数据中的远程依赖性,但它们在 2D 视觉任务中的应用仍然面临挑战。当前的视觉 SSM 通常将图像转换为一维序列,并采用各种扫描模式来合并局部空间依赖性。然而,这些方法在有效捕获复杂的图像空间结构方面受到限制,并且扫描路径加长导致计算成本增加 ...
受传统基于帧的相机和基于事件的生物启发相机之间的互补性的启发,我们提出了一种基于多模态的方法来融合来自帧域和事件域的视觉线索,以增强单个对象跟踪性能,特别是在退化条件下(例如,具有高动态范围、弱光和快速运动物体的场景) ...
事件相机或动态视觉传感器最近在从基本视觉任务到高级视觉研究方面取得了成功。由于能够异步捕获光强变化,事件相机具有固有的优势,可以在具有挑战性的场景中捕获移动物体,包括弱光、高动态范围或快速移动的物体。因此,事件相机对于视觉对象跟踪来说是很自然的 ...
大多数现有的基于 RGB 的跟踪器的目标是每秒 30 帧左右的低帧速率基准。此设置限制了跟踪器在现实世界中的功能,尤其是快速运动。基于事件的相机作为仿生传感器,由于其高时间分辨率,为高帧率跟踪提供了巨大的潜力 ...
近年来,基于事件相机的视觉跟踪因其独特的成像原理以及低能耗、高动态范围和密集时间分辨率的优势而受到越来越多的关注。由于使用视觉 Transformer 和静态模板进行目标对象定位,当前基于事件的跟踪算法逐渐遇到性能瓶颈。在本文中,我们提出了一种新颖的基于 Mamba 的视觉跟踪框架,该框架采用具有线性复杂度的状态空间模型作为骨干网络 ...
为了在资源受限的环境中部署神经网络,先前的工作已经构建了具有卷积和注意力的轻量级架构,分别用于捕获局部和全局依赖性。最近,状态空间模型以其在 Token 数量方面有利的线性计算成本而成为一种有效的全局 Token 交互。然而,对使用 SSM 构建的高效视觉主干的探索较少 ...
深度学习模型通常需要专门设计的架构来处理不同维度的数据,例如 1D 时间序列、2D 图像和 3D 体数据。现有的双向模型主要关注顺序数据,难以有效扩展到更高维度。为了解决这个问题,我们提出了一种新颖的多维双向神经网络架构,名为 Nd-BiMamba2,它可以有效地处理 1D、2D 和 3D 数据 ...
如今,处理事件摄像机数据的最先进的深度神经网络首先将事件的时间窗口转换为密集的网格状输入表示。因此,当部署在较高的推理频率(即, ...