人类具有通过解释抽象说明手册来理解和执行复杂操作任务的非凡能力。但是,对于机器人而言,这种功能仍然是一个重大的挑战,因为它们无法解释抽象说明并将其转化为可执行的动作。在本文中,我们提出了Manual2Skill,这是一个新颖的框架,使机器人能够执行以高级手动说明为指导的复杂的装配任务 ...
准确的视网膜血管(RV)分割是视网膜脉管系统定量评估的关键步骤,这是对视网膜疾病和其他疾病的早期发现所需的。已经进行了许多研究,以解决使用像素分类方法自动分割容器的问题。创建地面真相标签的常见做法是将像素分类为前景和背景 ...
人工智能的一致性追求模型响应与人类偏好和价值观之间的一致性。在实践中,人类偏好的多方面性质无意中引入了所谓的“一致性税”——一种妥协,其中增强了一个目标内的一致性(例如, ...
Dimage Dehazing旨在从朦胧的图像恢复清洁图像。卷积神经网络(CNN)和变形金刚在局部和全局特征提取中表现出了出色的性能,目前代表了图像去险的两个主流框架。在本文中,我们提出了一个新型的双分支图像除尘框架,该框架可以互动地指导CNN和 Transformer 组件 ...
空间推理是人类认知的一个基本方面,可以在三维空间中直观地理解和操纵对象。尽管基础模型在某些基准上表现出了出色的性能,但他们仍然在3D推理任务上挣扎,例如根据开放式语言说明在太空中安排对象,尤其是在密集且身体受到限制的环境中。我们介绍了LayoutVLM,这是一个框架和场景布局表示,利用了视觉模型(VLM)的语义知识,并支持可区分的优化以确保物理上的合理性 ...
3D场景理解是计算机视觉的长期挑战,也是实现混合现实,可穿戴计算和体现AI的关键组成部分。为这些应用程序提供解决方案,需要采用多方面的方法,涵盖以场景为中心,以对象为中心以及以互动为中心的功能。尽管存在许多数据集来解决前一个问题,但理解可相互作用和铰接的对象的任务不足,只有当前作品的部分涵盖 ...
自我监督学习(SSL)最近在挖掘用户项目交互以进行协作过滤方面取得了巨大成功。作为主要范式,基于对比度学习(CL)的SSL通过对比原始数据和增强数据之间的嵌入来帮助解决Web平台中的数据稀疏性。但是,现有的基于CL的方法主要集中在批处理的方式上,因此未能利用特征维度的潜在规律性 ...
时空人机交互(ST-HOI)理解旨在从视频中检测 HOI,这对于活动理解至关重要。然而,现有的全身对象交互视频基准忽略了开放世界对象是多样化的事实,也就是说,它们通常提供有限的和预定义的对象类。因此,我们引入了一个新的开放世界基准:Grounding Interacted Objects (GIO),包括 1,098 个交互对象类和 290K 个交互对象框注释 ...