arxiv Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

/documents/69220/

基本信息

文件基本信息

名称
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
描述
机器人操纵需要丰富的多模态感知和有效的学习框架来处理复杂的现实任务。透皮(STS)传感器结合了触觉和视觉感知,提供了有前景的传感能力,而现代模仿学习则为策略获取提供了强大的工具。然而,现有的 STS 设计缺乏同时多模态感知,并且触觉跟踪不可靠。此外,将这些丰富的多模态信号集成到基于学习的操纵管道中仍然是一个开放的挑战。我们推出了 TacThru,一种能够同时进行视觉感知和鲁棒触觉信号提取的 STS 传感器,以及 TacThru-UMI,一种利用这些多模态信号进行操作的模仿学习框架。我们的传感器具有完全透明的弹性体、持续照明、新颖的关键线标记和高效的跟踪,而我们的学习系统通过基于 Transformer 的扩散策略集成这些信号。对五项具有挑战性的现实世界任务的实验表明,TacThru-UMI 的平均成功率为 85.5%,显着优于交替触觉-视觉 (66.3%) 和仅视觉 (55.4%) 的基线。该系统在关键场景中表现出色,包括薄而软的物体的接触检测以及需要多模式协调的精确操作。这项工作表明,将同时多模态感知与现代学习框架相结合可以实现更精确、适应性更强的机器人操作 ...