使智能代理通过自然语言理解和与3D环境进行互动对于推进机器人和人类计算机的互动至关重要。该领域的一个基本任务是以自我为中心的3D视觉接地,在该基础上,代理将目标对象定位在基于口头描述的现实世界3D空间中。但是,该任务面临两个重大挑战:(1)由于点云与以自我为中心的多视图图像稀疏融合而导致细粒度的视觉语义的丧失,(2)由于任意语言描述而导致的文本语义上下文有限 ...
文档阴影是数字化过程中的主要障碍。由于文本和阴影覆盖的图案中的密集信息,文档删除需要专门的方法。现有的文档删除方法尽管显示了一些进展,但仍依赖其他信息,例如阴影面具或在不同的影子场景中缺乏概括和有效性 ...
开放式摄影3D对象检测最近由于其在自主驾驶和机器人技术中的广泛应用而引起了广泛的关注,该应用程序旨在有效地识别以前看不见的域中的新型类别。但是,现有的基于点云的开放式摄氏3D检测模型受其高部署成本的限制。在这项工作中,我们提出了一种新型的开放式摄影单眼3D对象检测框架,该框架称为OVM3D-DET,该框架仅使用RGB图像训练检测器,使其既具有成本效益又可扩展到公开可用的数据 ...
从开放式语言指令中掌握对象的能力构成了机器人技术的基本挑战。一个开放世界的抓握系统应该能够将高级上下文与低级物理几何推理结合起来,以便适用于任意情况。最近的作品利用了大型语言模型(LLM)固有的网络规模知识来计划和理性,但依靠外部视力和行动模型将这种知识纳入环境中并参数化驱动 ...
机器人模仿学习已从解决静态任务到解决动态交互情况的发展,但是由于需要与动态环境进行实时互动,测试和评估仍然成本高昂和具有挑战性。我们提出了Enterverse-AC(EVAC),这是一种动作条件世界模型,该模型基于代理的预测动作产生未来的视觉观察,从而实现了现实且可控的机器人推断。 EVAC在以前的体系结构的基础上,引入了动态多视图图像生成的多级动作调节机制和射线图编码,同时以不同的故障轨迹扩展训 ...
扩展服务机器人的能力对于扩展他们在日常操纵任务中所能实现的目标很重要。另一方面,还必须确保他们在任务执行过程中由于异常或永久失败而确定在某些情况下无法实现的目标。机器人需要识别这些情况,并揭示这些案件背后的原因以克服和从中恢复 ...
在本报告中,我们提出了QWEN2.5-OMNI,这是一种端到端的多模型模型,旨在感知各种方式,包括文本,图像,音频和视频,同时以流方式生成文本和自然语音响应。为了启用多模式信息输入的流,音频和视觉编码器都采用了块处理方法 ...
由于获得高质量的阶梯监督的困难和成本,评估大语言模型(LLM)推理的分步可靠性(LLM)推理的逐步可靠性仍然具有挑战性。在本文中,我们介绍了自我游戏评论家(SPC),这是一种新颖的方法,即评论家模型可以通过对抗性自我玩游戏来评估推理步骤的能力,从而消除了对手动级别级别注释的需求。 SPC涉及对基本模型的两份副本进行微调来扮演两个角色,即“偷偷摸摸的发电机”,故意产生错误的步骤,旨在难以检测到,并分 ...