人类可以使用视觉和触摸来完成复杂的接触式任务,并具有高反应性的功能,例如快速调整环境变化和对接触力的自适应控制;但是,对于机器人来说,这仍然具有挑战性。现有的视觉模仿学习(IL)方法依赖于动作块来建模复杂的行为,这在块执行过程中缺乏对实时触觉反馈做出立即响应的能力。此外,大多数近距离系统都难以提供细粒的触觉 /力反馈,这限制了可以执行的任务范围 ...
(fm)(fm),在推荐系统(,在推荐系统( rs)领域提供了独特的机会。在本文中,我们尝试彻底研究基于fm 的推荐系统( fm4recsys)。我们首先回顾一下fm4recsys的研究背景... ...
缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,特别是在文本丰富的图像理解任务中。然而,由于堆叠的自注意力层导致大量标记和高编码延迟,ViT 等流行的视觉编码器在高分辨率下变得效率低下。在不同的操作分辨率下,VLM 的视觉编码器可以沿着两个轴进行优化:减少编码延迟并最大限度地减少传递到 LLM 的视觉标记数量,从而降低总体延迟 ...
近年来,已经尝试增加卷积神经网(CNN)的内核大小,以模仿全球视觉变形金刚(VITS)自我注意力障碍的封锁领域。但是,这种方法在获得全球接收场之前迅速达到了上限和饱和的方式。在这项工作中,我们证明,通过利用小波变换(WT),实际上可以获得很大的接受场而不会遭受过度参数化的困扰,e ...
现有的2D方法利用基于UNET的扩散模型来生成基于物理的渲染图(PBR)地图,但要与多视图不一致的不一致性挣扎,而某些3D方法直接生成紫外线图,由于有限的3D数据而遇到概括性问题。为了解决这些问题,我们提出了一种两阶段的方法,包括多视图生成和紫外线材料的细化。在生成阶段,我们采用扩散 Transformer (DIT)模型来生成PBR材料,在该材料中,专门设计的多支球形DIT和基于参考的DIT块都 ...
使智能代理通过自然语言理解和与3D环境进行互动对于推进机器人和人类计算机的互动至关重要。该领域的一个基本任务是以自我为中心的3D视觉接地,在该基础上,代理将目标对象定位在基于口头描述的现实世界3D空间中。但是,该任务面临两个重大挑战:(1)由于点云与以自我为中心的多视图图像稀疏融合而导致细粒度的视觉语义的丧失,(2)由于任意语言描述而导致的文本语义上下文有限 ...
文档阴影是数字化过程中的主要障碍。由于文本和阴影覆盖的图案中的密集信息,文档删除需要专门的方法。现有的文档删除方法尽管显示了一些进展,但仍依赖其他信息,例如阴影面具或在不同的影子场景中缺乏概括和有效性 ...
开放式摄影3D对象检测最近由于其在自主驾驶和机器人技术中的广泛应用而引起了广泛的关注,该应用程序旨在有效地识别以前看不见的域中的新型类别。但是,现有的基于点云的开放式摄氏3D检测模型受其高部署成本的限制。在这项工作中,我们提出了一种新型的开放式摄影单眼3D对象检测框架,该框架称为OVM3D-DET,该框架仅使用RGB图像训练检测器,使其既具有成本效益又可扩展到公开可用的数据 ...