许多基于查询的 3D 多对象跟踪 (MOT) 方法采用注意力跟踪范例,利用跟踪查询进行身份一致检测,并利用对象查询进行与身份无关的跟踪生成。然而,注意力跟踪将检测和跟踪查询纠缠在一个嵌入中,用于检测和跟踪任务,这是次优的。其他方法类似于检测跟踪范例,使用解耦的跟踪和检测查询来检测对象,然后进行后续关联 ...
现代手术室变得越来越复杂,需要创新的术中支持系统。尽管手术数据科学的重点主要是视频分析,但将手术计算机视觉与语言能力整合在一起是必要的。我们的工作旨在在手术环境中推进视觉问题答案(VQA),并通过场景图知识来解决当前手术VQA系统中的两个主要挑战:在手术VQA数据集中删除问题条件偏置,并在手术VQA模型设计中纳入场景意识的推理 ...
在这项研究中,我们提出了一种新的,3d物体检测器,具有值得信赖的深度估计,称为bevdepth,用于基于相机的鸟瞰(bev)3d物体检测。我们的工作基于一个关键的观察————考虑到深度对于相机3d检测至关重要这一事实,最近方法中的深度估计令人惊讶地不足。我们的bevdepth通过利用显式深度监督解决了这个问题... ...
近年来,基于多合一图像恢复(AIOR)的深度学习模型已取得了重大进步。但是,它们的实际适用性受到对培训分布以外的样本的不良概括的限制。这种限制主要源于现有数据集中降解变化和场景的多样性不足,从而导致现实情况的表示不足 ...
大语言模型(LLM)的量化对于将其部署在具有有限的计算资源的设备上至关重要。与基本线性量化相比,高级量化算法提供了提高的性能,但它们通常需要高端图形处理单元(GPU),通常仅限于特定的深神经网络(DNN)框架,并且需要校准数据集。这种限制对在各种神经处理单元(NPU)和Edge AI设备上使用此类算法提出了挑战,这些设备具有多种模型格式和框架 ...
受到DeepSeek R1在没有人类反馈的情况下推理方面的成功启发的启发,我们使用倒计时游戏培训了一个3B语言模型,并使用纯强化学习。我们的模型在五个基准测试中的四个基准都优于基准,这表明超出其训练数据的概括得到了改善。值得注意的是,响应长度与推理质量无关,而“啊哈矩”出现了,但它们并不总是产生正确的答案 ...
近年来,奖励研究奖励成型(RL)的研究蓬勃发展,因为它的能力加快了训练的能力。我们以前的工作提出了自适应势函数(APF),并表明APF可以在低维域中使用多层感知算法加速Q-学习。本文建议使用一种使用状态编码方法将APF应用于基于像素的ATARI游戏,以将APF应用于基于像素的Atari游戏,以扩展APF(APF+),该方法将高维游戏的像素帧投影到低维嵌入式 ...
图像合成领域在过去几年中取得了巨大的进步。除了使用文本提示定义所需的输出图像之外,一种直观的方法是另外使用图像形式的空间指导,例如深度图。为此,最近非常流行的方法是使用控制网络(例如 ControlNet)与预训练的图像生成模型(例如稳定扩散)相结合 ...