开放式视频检测(OVD)是一项具有挑战性的任务,可以从一组无限制的类别(包括培训期间看不见的类别)中对对象进行分类。现有的开放式视频探测器受到复杂的视觉文本未对准和长尾类别的不平衡的限制,导致在挑战性的情况下表现出色。为了解决这些局限性,我们引入了MQADET,这是一种通用范式,用于通过利用多模式大语言模型(MLLMS)的跨模式推理能力来增强现有的开放式摄氏探测器 ...
具有大视觉模型(LVM)的文化学习(ICL)通过减少对广泛标签的依赖,在医疗图像分割中提供了有希望的途径。但是,LVMS的ICL性能很大程度上取决于视觉提示的选择,并且遭受了域移动的折磨。尽管利用LVM进行医疗任务的现有作品主要集中在以模型为中心的方法上,但我们研究了如何选择良好的视觉提示以促进对医疗领域的概括 ...
很难精确地注释对象实例及其在3D空间中的语义,因此,合成数据被广泛用于这些任务,例如类别级别6D对象姿势和大小估计 ...
消耗错误信息会导致影响个人和社会的负面后果。为了减轻错误信息对人类信念的影响,已经开发了有关内容准确性和源可靠性的背景的算法标签。由于算法用于估计信息准确性的语言特征可能会随着时间的推移而发生变化,因此了解其时间动态非常重要 ...
对大型多模型模型(LMM)的最新评估探索了它们在各个领域的功能,只有很少的基准专门针对城市环境。此外,现有的城市基准受到限于评估具有基本地区城市任务的LMM在单一观点下,导致对LMM在城市环境中的能力的评估不完整。为了解决这些问题,我们提出了Urbench,这是一种综合基准,旨在评估复杂的多视图城市场景中的LMM ...
深度学习是一种实现人工智能的现代方法。存在许多框架来实施机器学习任务;但是,性能受到计算资源的限制。使用量子计算机加速训练是一种有前途的方法 ...
在自主驾驶中,动态环境和角落案件对自我决策的鲁棒性构成了重大挑战。为了应对这些挑战,从端到端自主驾驶范式中的国家行动映射开始,我们引入了一条新颖的管道VDT-Auto。利用国家对视觉语言模型(VLM)的理解的进步,并结合了基于扩散 Transformer 的动作生成,我们的VDT-AUTO在几何和上下文上以对扩散过程的调理来解析环境 ...
我们提出了一种新方法,用于无监督检测高分辨率,3d点云中的几何异常。特别是,我们建议将已建立的学生-教师异常检测框架适应三个维度。训练学生网络以匹配无异常点云上预训练教师网络的输出... ...