在现实环境中运行的体现的代理必须解释模棱两可的人类指示。有能力的家用机器人应认识到歧义并提出相关的澄清问题以准确推断用户意图,从而导致更有效的任务执行。为了研究此问题,我们介绍了询问任务,其中具体的代理必须在家庭环境中进行模棱两可的指导进行特定的对象实例 ...
我们提出了OpenDriveVLA,这是一种旨在端到端自动驾驶的视觉动作(VLA)模型。 OpenDriveVLA建立在开源预培训的大型视觉模型(VLMS)的基础上,以生成可靠的驾驶动作,以3D环境感知,EGO车辆状态和驾驶员命令为条件。为了弥合驱动视觉表示和语言嵌入之间的模态差距,我们提出了一个层次的视觉对齐过程,将2D和3D结构化的视觉 Token 投影到统一的语义空间中 ...
视觉语言动作模型(VLA)在利用预识别的视觉模型和多种机器人演示方面显示出潜力,以学习可概括的感觉运动控制。尽管该范式有效地利用了来自机器人和非机器人源的大规模数据,但当前的VLA主要集中于直接输入 - 输出映射,缺乏对复杂操作任务至关重要的中间推理步骤。结果,现有的VLA缺乏时间计划或推理功能 ...
大型多模型模型的最新进展导致了数字领域中出色的通才能力的出现,但是它们将其转化为机器人等物理代理仍然是一个重大挑战。该报告介绍了一个新的AI模型系列,该模型有目的地设计用于机器人技术,并建立在Gemini 2.0的基础上 ...
多模式的大语言模型(MLLM)在理解复杂的语言和视觉数据方面表现出色,从而使通才机器人系统能够解释说明并执行具体的任务。然而,他们的现实部署受到大量计算和存储需求的阻碍。最近对LLM层中均匀模式的见解启发了稀疏技术以应对这些挑战,例如早期出口和象征性修剪 ...
体现AI中视觉语言动作(VLA)模型的越来越多,加剧了对各种操纵示范的需求。但是,与数据收集相关的高成本通常会导致所有情况下的数据覆盖不足,从而限制了模型的性能。据观察,大型工作空间中的空间推理阶段(SRP)主导了失败情况 ...
使移动机器人能够在动态的现实世界环境中执行长期任务是一个巨大的挑战,尤其是当由于人类机器人的互动或机器人自己的行动而经常发生变化时。传统方法通常假设静态场景,这限制了其在不断变化的现实世界中的适用性。为了克服这些局限性,我们提出了DOVSG,这是一个新型的移动操纵框架,利用动态的开放式唱机3D场景图和一个语言指导的任务计划模块进行长期任务执行 ...
开放式视频代表场景图生成(OV-SGG)通过将视觉关系表示与开放式唱机的文本表示形式对齐来克服封闭设置假设的局限性。这可以识别新型的视觉关系,使其适用于具有不同关系的现实情况。但是,现有的OV-SGG方法受固定文本表示的约束,限制了图像文本对齐的多样性和准确性 ...
随着大型语言模型,视觉模型和其他一般基础模型的最新兴起,多模式,多任务机器人技术的潜力越来越大,可以在自然语言输入的情况下在不同的环境中运行。一种这样的应用程序是使用自然语言说明的室内导航。但是,尽管最近进展了,但由于需要3D空间推理和语义理解,因此这个问题仍然具有挑战性 ...
大型基础模型已经对视力和语言中复杂问题的复杂问题表现出强烈的开放性概括,但是在机器人技术中尚未实现相似的概括水平。一个基本的挑战是缺乏机器人数据,这些数据通常是通过昂贵的机器人运营来获得的。一种有希望的补救措施是利用便宜,偏离的数据,例如无动作视频,手绘草图或仿真数据 ...