了解自身姿态是所有移动机器人应用的关键。因此,姿态估计是移动机器人核心功能的一部分。在过去的二十年中,激光雷达扫描仪已成为机器人定位和测绘的标准传感器 ...
虽然世界上的互动是一种多感官体验,但许多机器人仍然主要依靠视觉感知在其环境中绘制地图和导航。在这项工作中,我们提出了音频-视觉-语言地图(AVLMaps),这是一种统一的 3D 空间地图表示,用于存储来自音频、视觉和语言线索的跨模式信息。 AVLMap 通过将多模态基础模型的特征融合到集中式 3D 体素网格中,集成了在互联网规模数据上预先训练的多模态基础模型的开放词汇功能 ...
四足机器人在工业环境中数量激增,它们携带传感器套件并充当自主检查平台。尽管在崎岖不平的地形上,腿式机器人比轮式机器人具有优势,但它们仍然无法可靠地应对工业基础设施中普遍存在的特征:梯子。由于无法爬过梯子,四足动物无法检查危险位置,使人类处于危险之中,并降低工业现场的生产力 ...
预训练的视觉语言模型具有广泛的世界知识,并广泛应用于视觉和语言导航(VLN)。然而,它们对 VLN 任务的室内场景不敏感。 VLN 的另一个挑战是代理如何理解路径上动作之间的上下文关系并顺序执行跨模式对齐 ...
我们推出了 PoliFormer(策略转换器),这是一种仅使用 RGB 的室内导航代理,通过大规模强化学习进行端到端训练,尽管纯粹是在模拟中进行训练,但无需适应即可推广到现实世界。 PoliFormer 使用基础视觉 Transformer 编码器和因果 Transformer 解码器来实现长期记忆和推理。它经过了跨不同环境中数亿次交互的训练,利用并行、多机部署进行高吞吐量的高效训练 ...
与常用的激光雷达点云地图相比,使用直线和平面等几何地标可以提高导航精度并减少地图存储要求。然而,对于闭环检测等应用来说,基于地标的配准具有挑战性,因为无法获得可靠的初始猜测。文献中已经研究了全局地标匹配,但这些方法通常使用 3D 线和平面地标的临时表示,这些表示对于较大的视点变化不是不变的,从而导致不正确的匹配和较高的配准误差 ...
从 3D 点云感知可穿越区域和感兴趣的物体是自主导航的关键任务之一。地面车辆需要寻找可以通过轮子探索的可穿越地形。然后,为了做出安全的导航决策,必须对位于这些地形上的物体进行分割 ...
廉价 3D 数据采集设备的引入有望促进 3D 点云的广泛可用性和普及,近年来,这引起了人们对新型 3D 点云描述符的有效提取以提高 3D 计算机视觉任务效率的准确性的更多关注。然而,由于 3D 点云的固有特性,如何从 3D 点云开发有辨别力且鲁棒的特征描述符仍然是一项具有挑战性的任务。在本文中,我们对现有的 3D 点云描述符进行了全面深入的研究 ...
不完美信息博弈的一个根本挑战是国家没有明确定义的价值观。因此,单代理设置和完美信息博弈中使用的深度受限搜索算法不适用。本文介绍了一种在不完美信息博弈中进行深度有限求解的原理方法,允许对手在深度限制下的博弈剩余部分中选择多种策略 ...
本研究引入了一种新颖的框架 G3Reg,用于快速、稳健的 LiDAR 点云全局配准。与传统的复杂关键点和描述符相比,我们从原始点云中提取基本的几何图元,包括平面、簇和线(PCL),以获得低级语义片段。每个片段都表示为统一的高斯椭球模型(GEM),使用概率椭球来确保以一定程度的概率包含地面实况中心 ...