视觉语言动作(VLA)模型是通过整合视觉感知,语言理解和动作执行来迈向通用机器人系统的重要步骤。但是,对这些模型的系统评估,尤其是其在分布(OOD)环境中的零击概括功能,仍然有限。在本文中,我们介绍了Multinet V0 ...

0 0 0 0 2025/05/12 arXiv:2505.05540v1 蔡明方

3D中的机器人操作需要学习机器人操纵器的自由度联合空间轨迹。机器人必须具有语义和视觉感知能力,以将其工作空间的实际映射转换为对象操纵所需的低级控制。最近的工作证明了微调大型视觉模型(VLM)的功能,以了解RGB图像,语言说明和关节空间控制之间的映射 ...

0 0 0 0 2025/05/12 arXiv:2505.05800v1 蔡明方

通才机器人应在各种环境中有效执行。但是,大多数现有方法都在很大程度上依赖于扩展动作注释的数据来增强其功能。因此,它们通常仅限于单个物理规范,并难以在不同的实施方案和环境中学习可转移的知识 ...

0 0 0 0 2025/05/12 arXiv:2505.06111v1 蔡明方

双系统VLA(视觉语言行动)体系结构已成为体现情报研究的热门话题,但是缺乏足够的开源工作来进行进一步的性能分析和优化。为了解决这个问题,本文将总结并比较现有双系统体系结构的结构设计,并对现有双重系统体系结构的核心设计元素进行系统的经验评估。最终,它将提供一个低成本的开源模型,以进一步探索 ...

0 0 0 0 2025/05/11 arXiv:2505.03912v1 蔡明方

Vision语言动作(VLA)模型标志着人工智能的变革性进步,旨在在单个计算框架内统一感知,自然语言理解和体现的行动。这项基本综述介绍了视觉动作模型的最新进步的全面综合,该模型是在构建了这个快速发展的领域景观的五个主题支柱上系统地组织的。我们首先建立VLA系统的概念基础,从而将它们从跨模式学习体系结构到通才代理人的演变,这些通才代理紧密整合了视觉模型(VLM),行动计划者和层次结构控制器 ...

0 0 0 0 2025/05/10 arXiv:2505.04769v1 蔡明方

指导性操作(IA)数据对对于培训机器人系统,尤其是自动驾驶汽车(AV)很有价值,但是手动注释这些数据是昂贵且耗时的。本文探讨了使用移动应用程序全局定位系统(GPS)引用和自然语言处理(NLP)自动生成大量IA命令和响应的潜力,而无需使人类生成或追溯标记数据。在我们的试点数据收集中,通过开车到各种目的地并从GPS应用程序中收集语音说明,我们演示了一种收集和分类各种说明集的方法,并进一步伴随着视频数据,以形成完整的视觉语言动作三合会 ...

0 0 0 0 2025/05/07 arXiv:2505.03174v1 蔡明方

体现的基础模型正在通过几次训练后训练来越来越关注其零射门的概括,可伸缩性和对新任务的适应性。但是,现有模型在很大程度上依赖于现实世界中的数据,这是昂贵且劳动密集型的收集数据。合成数据提供了一种具有成本效益的替代方案,但其潜力在很大程度上仍未得到充满异常 ...

0 0 0 0 2025/05/07 arXiv:2505.03233v1 蔡明方

视觉语言动作模型(VLAS)通常在演示任务上实现高性能,但是在需要推断时会大力挣扎,并结合以新颖方式从不同任务中学到的技能。例如,VLA可能会成功地将奶油奶酪放在碗里,将碗放在橱柜顶部,但仍然无法将奶油奶酪放在橱柜顶部。在这项工作中,我们证明了来自不同任务的行为可以通过在推理时操纵VLA的内部表示有效地重组 ...

0 0 0 0 2025/05/07 arXiv:2505.03500v1 蔡明方

现有的视觉语言动作(VLA)模型在零拍摄方案中显示出令人鼓舞的性能,表明了令人印象深刻的任务执行和推理功能。但是,视觉编码的局限性引起了一个重大挑战,这可能会导致在诸如对象抓紧之类的任务期间发生故障。此外,这些模型通常由于大小较大而遭受高计算开销,通常超过7b参数 ...

0 0 0 0 2025/04/29 arXiv:2504.19854v1 蔡明方

为了使机器人有用,他们必须在实验室之外的现实世界中执行实际相关的任务。虽然视觉语言动作(VLA)模型对端到端机器人控制显示出令人印象深刻的结果,但仍然存在一个悬而未决的问题,这种模型可以在野外概括多远。我们描述$ \ pi_ {0 ...

0 0 0 0 2025/04/24 arXiv:2504.16054v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)