通过端到端的学习过程,视觉语言动作(VLA)模型在视觉运动控制和指导理解中表现出了巨大的潜力。但是,当前的VLA模型面临着重大挑战:它们在推理过程中的速度很慢,需要对大量机器人数据进行大量预培训,从而使现实世界中的部署变得困难。在本文中,我们介绍了一个新的紧凑型视觉动作模型,称为Tinyvla,该模型与现有VLA模型相比提供了两个关键优势:(1)更快的推理速度,以及(2)提高数据效率,消除了对预训练阶段的需求 ...

0 0 0 0 2025/02/28 arXiv:2409.12514v4 蔡明方

空地机器人(AGR)由于其卓越的机动性和多功能性(即飞行和驾驶)而广泛应用于监视和灾难响应 ...

0 0 0 0 2024/12/10 arXiv:2408.10618v2 蔡明方

视觉和语言导航(VLN)作为嵌入式人工智能的一个关键研究问题,需要一个嵌入式智能体按照自然语言指令在复杂的 3D 环境中进行导航。最近的研究强调了大型语言模型 (LLM) 在 VLN 中通过提高导航推理准确性和可解释性的潜力。然而,它们以离线方式的主要使用通常会受到 VLN 任务和 LLM 训练语料库之间巨大领域差距的影响 ...

0 0 0 0 2024/12/09 arXiv:2403.07376v1 蔡明方

我们提出了人机协作规划和推理任务(PARTNR)的基准,旨在研究家庭活动中的人机协调。 PARTNR 任务表现出日常任务的特征,例如空间、时间和异构代理能力约束。我们采用使用大型语言模型 (LLM) 的半自动任务生成管道,将模拟纳入循环中以进行基础和验证 ...

0 0 0 0 2024/12/08 arXiv:2411.00081v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)