3D多目标跟踪(MOT)使移动机器人能够通过提供周围物体的运动记录来完成认知的运动规划和导航任务。然而,现有的3D MOT方法通常采用单一相似性和物理模型来对所有对象执行数据关联和状态估计。在大规模的现代数据集和真实场景中,有多种对象类别通常表现出独特的几何特性和运动模式…… ...
我们推出了 DINO-Tracker——一种用于视频中长期密集跟踪的新框架。我们方法的支柱是将单个视频的测试时训练与预训练的 DINO-ViT 模型学习到的强大本地化语义特征相结合。具体来说,我们的框架同时采用 DINO 的特征来适应测试视频的运动观察,同时训练直接利用细化特征的跟踪器 ...
许多多目标跟踪 (MOT) 方法采用卡尔曼滤波器作为运动预测器,假设速度恒定且滤波噪声呈高斯分布。这些假设使得基于卡尔曼滤波器的跟踪器在线性运动场景中有效。然而,在涉及非线性运动和遮挡的场景中估计未来对象位置时,这些线性假设是一个关键限制 ...
机器人布置的一个基本目标是使模型能够理解视觉场景并执行动作。尽管现有的机器人多模态大语言模型(MLLM)可以处理一系列基本任务,但它们仍然面临两个方面的挑战:1)处理复杂任务的推理能力不足,2)MLLM消耗和推理的计算成本较高。最近提出的称为Mamba的状态空间模型(SSM)在具有线性推理复杂性的非简单序列建模中展示了有前景的功能... ...
大型语言模型 (LLM) 的激增给检测和减轻数字欺骗带来了挑战,因为这些模型可以模拟人类对话模式并促进基于聊天的社会工程 (CSE) 攻击。本研究调查了 LLM 作为 CSE 威胁的促进者和防御者的双重能力。我们开发了一个新颖的数据集 SEConvo,模拟学术和招聘环境中的 CSE 场景,并旨在研究如何在这些情况下利用 LLM ...
大型语言模型(LLM)在语言理解和生成方面取得了显着的进步。利用文本特征的定制 LLM 已应用于推荐系统,展示了跨各种推荐场景的改进。然而,大多数现有方法基于预先训练的知识(例如,知识)执行未经训练的推荐 ...
最近,引入了许多基于图像混合的增强技术来提高深度神经网络的泛化能力。在这些技术中,将两个或多个随机选择的自然图像混合在一起以生成增强图像。此类方法不仅可能省略输入图像的重要部分,而且还会通过跨标签混合图像而引入标签模糊性,从而导致误导性的监督信号 ...
知识图(KG)以三元组(头、关系、尾)的形式表示人工制作的事实知识,它们共同构成一个图。 KG问答(KGQA)是根据KG提供的信息回答自然问题的任务。模型 (LLM) 遗传卓越的自然语言理解能力而成为 QA 任务的最先进模型... ...
本文档将回顾使用多层卷积架构的最突出的提案。重要的是,将通过回顾不同方法来讨论典型卷积网络的各个组成部分,这些方法的设计决策基于生物学发现和/或合理的理论基础。此外,还将回顾通过可视化和实证研究来理解卷积网络的不同尝试 ...
基于人类反馈的强化学习 (RLHF) 在使大型语言模型 (LLM) 与人类偏好保持一致方面展现出了巨大的前景。根据偏好数据的可用性,线上和线下 RLHF 都是活跃的调查领域。一个关键瓶颈是理解如何将不确定性估计纳入从 RLHF 偏好数据学习的奖励函数中,无论偏好数据是如何收集的 ...