对于非结构化环境中各种各样的现实世界机器人应用程序,视觉重新排列是一个至关重要的问题。我们建议机器人对象重排的IFOR,迭代流量最小化,这是针对原始场景和最终场景的RGBD映像的对象重新排列的具有挑战性问题的端到端方法。首先,我们学习基于筏的光流模型,以估算纯粹从合成数据的对象的相对转换 ...

0 0 0 0 2025/03/16 arXiv:2202.00732v1 Hatteras

对于3D对象操纵,构建显式3D表示的方法比仅依赖相机图像的方法更好。但是,使用诸如体素(Voxels)的显式3D表示形式具有很大的计算成本,从而对可伸缩性产生不利影响。在这项工作中,我们提出了RVT,这是一种用于3D操作的多视图 Transformer ,既可扩展又准确 ...

0 0 0 0 2025/03/14 arXiv:2306.14896v1 Hatteras

图像生成扩散模型已经过微调,以解锁新功能,例如图像编辑和新型视图合成。我们可以类似地解锁视觉运动控制的图像生成模型吗?我们提出了Genima,这是一种行为下调的剂,将稳定扩散至“绘制关节运动”作为RGB图像的目标。这些图像被馈送到一个控制器中,将视觉目标映射到一系列关节位 ...

0 0 0 0 2025/03/13 arXiv:2407.07875v2 Hatteras

设计现代模仿学习(IL)政策需要做出许多决定,包括选择功能编码,建筑,策略表示等。随着领域的迅速发展,可用选项的范围继续不断增长,为IL政策创造了广阔而尚未开发的设计空间。在这项工作中,我们提出了X-il,这是一个可访问的开源框架,旨在系统地探索该设计空间 ...

0 0 0 0 2025/03/13 arXiv:2502.12330v2 Hatteras

人类在与环境互动时具有杰出的才能,可以灵活地与不同的感官交替。想象一下厨师巧妙地衡量成分的时机,并根据颜色,声音和香气来控制热量,并在复杂烹饪过程的每个阶段无缝导航。这种能力建立在对任务阶段的彻底理解的基础上,因为在每个阶段内实现子目标可以利用不同的感官 ...

0 0 0 0 2025/03/12 arXiv:2408.01366v2 Hatteras

开发能够执行各种操纵任务的机器人在自然语言指导和对现实世界环境的视觉观察的指导下仍然是机器人技术的重大挑战。这样的机器人代理需要了解语言命令并区分不同任务的要求。在这项工作中,我们介绍了Sigma-Agent,这是一种用于多任务机器人操作的端到端模仿学习代理 ...

0 0 0 0 2025/03/11 arXiv:2406.09738v1 Hatteras

人类使用不同的方式,例如语音,文本,图像,视频等,与队友传达其意图和目标。为了使机器人成为更好的助手,我们的目标是赋予他们遵循指示并了解其人类伴侣指定的任务的能力 ...

0 0 0 0 2025/03/10 arXiv:2309.14320v1 Hatteras

机器人技术中的一个长期目标是建立可以从使用其板载传感器获得的感知中执行各种日常任务的机器人,并且仅通过自然语言指定。尽管通过利用从像素的端到端学习来实现了最近在语言驱动的机器人技术方面取得的重大进展,但由于设置的基本变化,没有明确且妥善理解的过程来做出各种设计选择。在本文中,我们对从离线自由模仿数据集中学习语言条件政策的最关键挑战进行了广泛的研究 ...

0 0 0 0 2025/03/07 arXiv:2204.06252v2 Hatteras