无监督的域适应性(UDA)旨在将知识从标记的源域中学到的知识转移到未标记的目标域。在UDA的背景下,对比度学习(CL)可以帮助更好地在特征空间中分开类。但是,在图像分割中,由于计算像素对比度损失而引起的大型内存足迹使其使用效率很高 ...
做出可解释和自我解释决策的能力对于开发负责任的机器学习系统至关重要。在这项工作中,我们研究了在归纳逻辑编程范围(ILP)范围中解释问题的学习。我们提出了神经逻辑归纳学习(NLIL),这是一种有效的可区分ILP框架,它学习了可以解释数据中模式的一阶逻辑规则 ...
对3D视觉模型(3D-VLM)的研究正在越来越多,这对于在3D场景中开发体现的AI至关重要,例如视觉导航和体现的问题回答。由于视觉特征的密度很高,尤其是在大型3D场景中,因此准确地找到与任务相关的视觉信息是具有挑战性的。现有作品试图将所有对象细分并将其特征视为场景表示 ...
我们提出Echoscene,这是一种交互式和可控的生成模型,在场景图上生成3D室内场景。 Echoscene利用双分支扩散模型,该模型动态适应场景图。由于节点,多个边缘组合和操纵器诱导的节点边缘操作,现有方法难以处理场景图 ...
多模式的大语言模型(MLLM)在2D视觉理解中表现出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地 ...
共形预测是不确定性定量的流行无分配框架。在本文中,我们提出了一种新型的时间序列的保形预测方法,我们称之为基于内核的最佳加权共形预测间隔(KOWCPI)。具体而言,Kowcpi适应了经典的重新加权Nadaraya-Watson(RNW)估计器,以根据依赖数据进行分位数回归,并学习最佳数据自适应权重 ...
视频文本检索(VTR)旨在搜索与给定句子中语义相关的最相关的视频,反之亦然。通常,此检索任务由四个连续的步骤组成:视频和文本特征表示提取,功能嵌入和匹配以及目标功能。在最后,根据数据集检索到的样本的列表是根据与查询的匹配相似之处进行排名的 ...
Visuo-Tactile传感器旨在模仿人类的触觉感知,使机器人能够精确理解和操纵物体。随着时间的流逝,许多精心设计的Visuo-Tactile传感器已集成到机器人系统中,有助于完成各种任务。但是,这些低标准的视觉触诊传感器的独特数据特性阻碍了强大的触觉感知系统的建立 ...