视觉对象跟踪旨在根据第一个帧中的初始外观定位每个帧的目标对象。根据输入可调节率,可以将跟踪任务分为RGB跟踪和RGB+X(例如 ...
在本文中,我们为基于RGB和多模式对象跟踪的新序列学习框架引入了新的序列学习框架。首先,我们提出用于基于RGB的跟踪的Seqtrack。它将视觉跟踪作为序列生成任务,以自动回归方式预测对象边界框 ...
多模式的视觉对象跟踪(fot)由于其稳健性最近引起了极大的关注。早期研究的重点是完全微调的基于RGB的跟踪器,该跟踪器效率低下,由于多模式数据的稀缺而缺乏广义表示。因此,最近的研究利用迅速调整将基于RGB的预训练的跟踪器转移到多模式数据 ...
对于深层回归,保留目标对特征表示的法规性可改善各种任务的性能。但是,仍然缺乏对法规益处的理论解释。这项工作表明,保留法令减少了有条件的熵$ h(z | y)$的$ z $在目标$ y $上有条件 ...
深度不平衡的回归(DIR),该目标值具有高度偏斜的分布并且也是连续的,这是一个有趣但又不受欢迎的机器学习问题。尽管最近的作品已经表明,结合各种基于分类的正规化器可以产生增强的结果,但分类的作用在DIR中仍然难以捉摸。此外,这样的正规化器(e ...
使用对比的语言图像预训练的视觉语言模型(VLM)显示出有希望的零击分类性能。但是,它们在不平衡数据集上的性能相对较差,在培训数据集中的课程分布偏差,从而导致预测少数群体的表现不佳。例如,夹在inaturalist18数据集上仅达到5%的精度 ...
现有的LLM在各种NLP任务上表现出色,但仍然在复杂的现实世界任务中挣扎,甚至配备了COT和REACT等先进策略。在这项工作中,我们提出了共同框架,该框架将人类社会的等级规划和协作模式转移到了LLM系统。具体而言,我们的共同框架涉及两个代理:(1)全球计划代理,以理解问题范围,制定宏观级别的计划并向本地执行代理提供详细的子任务描述,该描述是全球计划的初步演绎 ...
通过视频序列的长期依赖关系有效地构建上下文信息对于对象跟踪至关重要。但是,现有工作构建的上下文长度有限,仅考虑来自相邻帧或视频剪辑的对象信息,从而导致上下文信息的利用不足。为了解决这个问题,我们提出了Mambalct,该Mambalct构建并利用了从第一帧到当前框架的目标变化线索以进行健壮跟踪 ...
与可见的摄像机不同的是逐帧记录强度图像的可见摄像机,生物学启发的事件摄像头会产生一系列的异步和稀疏事件,并且延迟较低。在实践中,可见的摄像头可以更好地感知纹理细节和慢动作,而事件摄像机可以没有运动模糊,并且具有更大的动态范围,从而使它们能够在快速运动和低照明下良好地工作。因此,两个传感器可以相互配合以实现更可靠的对象跟踪 ...
将彩色相机和事件相机(也称为动态视觉传感器,DVS)相结合以实现强大的目标跟踪是近年来新兴的研究主题。现有的颜色事件跟踪框架通常包含多个分散的模块,这可能导致效率低下和计算复杂度高,包括特征提取、融合、匹配、交互式学习等。在本文中,我们提出了一种用于颜色事件跟踪的单级骨干网络事件统一跟踪(CEUTrack),同时实现了上述功能 ...