受传统基于帧的相机和基于事件的生物启发相机之间的互补性的启发,我们提出了一种基于多模态的方法来融合来自帧域和事件域的视觉线索,以增强单个对象跟踪性能,特别是在退化条件下(例如,具有高动态范围、弱光和快速运动物体的场景) ...
事件相机或动态视觉传感器最近在从基本视觉任务到高级视觉研究方面取得了成功。由于能够异步捕获光强变化,事件相机具有固有的优势,可以在具有挑战性的场景中捕获移动物体,包括弱光、高动态范围或快速移动的物体。因此,事件相机对于视觉对象跟踪来说是很自然的 ...
大多数现有的基于 RGB 的跟踪器的目标是每秒 30 帧左右的低帧速率基准。此设置限制了跟踪器在现实世界中的功能,尤其是快速运动。基于事件的相机作为仿生传感器,由于其高时间分辨率,为高帧率跟踪提供了巨大的潜力 ...
近年来,基于事件相机的视觉跟踪因其独特的成像原理以及低能耗、高动态范围和密集时间分辨率的优势而受到越来越多的关注。由于使用视觉 Transformer 和静态模板进行目标对象定位,当前基于事件的跟踪算法逐渐遇到性能瓶颈。在本文中,我们提出了一种新颖的基于 Mamba 的视觉跟踪框架,该框架采用具有线性复杂度的状态空间模型作为骨干网络 ...
为了在资源受限的环境中部署神经网络,先前的工作已经构建了具有卷积和注意力的轻量级架构,分别用于捕获局部和全局依赖性。最近,状态空间模型以其在 Token 数量方面有利的线性计算成本而成为一种有效的全局 Token 交互。然而,对使用 SSM 构建的高效视觉主干的探索较少 ...
深度学习模型通常需要专门设计的架构来处理不同维度的数据,例如 1D 时间序列、2D 图像和 3D 体数据。现有的双向模型主要关注顺序数据,难以有效扩展到更高维度。为了解决这个问题,我们提出了一种新颖的多维双向神经网络架构,名为 Nd-BiMamba2,它可以有效地处理 1D、2D 和 3D 数据 ...
如今,处理事件摄像机数据的最先进的深度神经网络首先将事件的时间窗口转换为密集的网格状输入表示。因此,当部署在较高的推理频率(即, ...
基于RGB事件的跟踪是一个新兴的研究课题,重点关注如何有效地集成异构多模态数据(同步曝光视频帧和异步脉冲事件流)。现有的工作通常采用基于 Transformer 的网络来处理这些模式,并通过多个数据集的输入级或特征级融合来实现不错的准确性。然而,由于使用自注意力机制,这些跟踪器需要大量的内存消耗和计算复杂性 ...
视觉转换器极大地推进了计算机视觉领域的发展,提供了强大的建模能力和全局感受野。然而,它们的高计算要求限制了它们在处理长序列中的适用性。为了解决这个问题,状态空间模型(SSM)在视觉任务中获得了突出的地位,因为它们提供了线性计算复杂性 ...