对3D视觉模型(3D-VLM)的研究正在越来越多,这对于在3D场景中开发体现的AI至关重要,例如视觉导航和体现的问题回答。由于视觉特征的密度很高,尤其是在大型3D场景中,因此准确地找到与任务相关的视觉信息是具有挑战性的。现有作品试图将所有对象细分并将其特征视为场景表示 ...
我们提出Echoscene,这是一种交互式和可控的生成模型,在场景图上生成3D室内场景。 Echoscene利用双分支扩散模型,该模型动态适应场景图。由于节点,多个边缘组合和操纵器诱导的节点边缘操作,现有方法难以处理场景图 ...
多模式的大语言模型(MLLM)在2D视觉理解中表现出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地 ...
共形预测是不确定性定量的流行无分配框架。在本文中,我们提出了一种新型的时间序列的保形预测方法,我们称之为基于内核的最佳加权共形预测间隔(KOWCPI)。具体而言,Kowcpi适应了经典的重新加权Nadaraya-Watson(RNW)估计器,以根据依赖数据进行分位数回归,并学习最佳数据自适应权重 ...
视频文本检索(VTR)旨在搜索与给定句子中语义相关的最相关的视频,反之亦然。通常,此检索任务由四个连续的步骤组成:视频和文本特征表示提取,功能嵌入和匹配以及目标功能。在最后,根据数据集检索到的样本的列表是根据与查询的匹配相似之处进行排名的 ...
Visuo-Tactile传感器旨在模仿人类的触觉感知,使机器人能够精确理解和操纵物体。随着时间的流逝,许多精心设计的Visuo-Tactile传感器已集成到机器人系统中,有助于完成各种任务。但是,这些低标准的视觉触诊传感器的独特数据特性阻碍了强大的触觉感知系统的建立 ...
在这项工作中,我们为日益访问的基于视觉的触觉传感器介绍通用触摸表示。这些传感器已导致机器人操纵的许多最新进展,因为它们明显地补充了视觉,但是当今的解决方案通常依靠任务和传感器特定的手工感知模型。用以任务为中心的地面真实标签(如接触力和滑移)大规模收集真实数据,这是一个挑战,其挑战是各种形式的传感器在照明和凝胶标记等方面有所不同的挑战 ...
行人轨迹预测是自动驾驶中的一项关键技术,由于行人之间的复杂互动,这仍然非常具有挑战性。但是,以前基于密集的无向相互作用的作品遭受了对多余的相互作用和忽略轨迹运动趋势的建模,因此不可避免地会导致与现实的相当大偏差。为了应对这些问题,我们提出了一个稀疏的图形卷积网络〜(SGCN),用于人行道轨迹预测 ...