随着体现人工智能的快速发展,在视力语言行动(VLA)模型中,为一般机器人决策做出了重大进展。但是,大多数现有的VLA无法解决部署期间遇到的必然外部扰动。这些扰动将不可预见的状态信息引入了VLA,导致行动不准确,因此概括性能的大幅下降 ...

0 0 0 0 2025/03/22 arXiv:2502.09268v2 蔡明方

最近,在开放世界环境中基于动作的决策引起了极大的关注。在大规模Web数据集上预处理的视觉语言动作(VLA)模型在决策任务中显示了希望。但是,以前的工作主要集中在训练后的行动上,通常忽略了对基础模型本身的增强 ...

0 0 0 0 2025/03/22 arXiv:2503.16365v1 蔡明方

通用机器人需要多功能的身体和聪明的头脑。人形机器人的最新进展已显示出巨大的希望,作为在人类世界中建立通才自治的硬件平台。一个对大量和多样化数据源培训的机器人基金会模型对于使机器人能够推理新的情况,强大的可变性并迅速学习新任务至关重要 ...

0 0 0 0 2025/03/20 arXiv:2503.14734v1 蔡明方

矮人是太阳邻域中最常见的恒星类型,许多恒星表现出频繁且充满活力的耀斑。为了更好地了解整个电磁频谱中的这些事件,从X射线到无线电机制的7天,一项运动观察到了Au Mic(DM1E)。在这里,我们介绍了Karl G的高空光曲线 ...

0 0 0 0 2025/03/20 arXiv:2503.14624v1 蔡明方

视觉语言动作(VLA)模型通过直接在真正的机器人数据集(如开放X型体)(例如开放X型物体)上进行培训策略提出了有希望的范式。但是,实际数据收集的高成本阻碍了进一步的数据扩展,从而限制了VLA的普遍性。在本文中,我们介绍了Rebot,Rebot是一种新颖的真实到现实方法,用于扩展真实的机器人数据集并将VLA模型调整为目标域,这是机器人操作中最后一英里的部署挑战 ...

0 0 0 0 2025/03/20 arXiv:2503.14526v1 蔡明方

移动操作是机器人技术在日常生活中为人类提供各种任务和环境的基本挑战。但是,由于缺乏大规模培训,传统的移动操纵方法通常很难跨越不同的任务和环境。相比之下,视觉语言动作(VLA)模型的最新进展显示出令人印象深刻的概括能力,但是这些基础模型是用于固定基础操纵任务的 ...

0 0 0 0 2025/03/19 arXiv:2503.13446v1 蔡明方

最近,视觉语言动作模型(VLA)具有先进的机器人模仿学习,但是高数据收集成本和有限的演示限制了概括和当前的模仿学习方法在分布外的场景中挣扎,尤其是对于长途任务。一个关键的挑战是如何减轻模仿学习中的复杂错误,从而导致对扩展轨迹的失败。为了应对这些挑战,我们提出了扩散轨迹引导的策略(DTP)框架,该框架通过扩散模型生成2D轨迹,以指导长途任务的策略学习 ...

0 0 1 1 2025/03/18 arXiv:2502.10040v1 蔡明方

模仿学习已被证明在教授机器人灵巧的操纵技能方面非常有效。但是,它通常依赖大量的人类演示数据,这限制了其在动态,现实世界中的可伸缩性和适用性。在这种情况下,一个关键的挑战是对象概括,其中一个机器人训练了用一个对象执行任务的机器人,例如“苹果”,努力将其技能转移到语义上相似但视觉上不同的对象上,例如“桃子” ...

0 0 0 0 2025/03/18 arXiv:2502.19250v2 蔡明方

通用义推理的视觉模型(VLM)的最新进展导致了视觉语言动作(VLA)模型的发展,从而使机器人能够执行一般的操纵。尽管现有的自回归VLA方法利用了大规模的知识,但它们破坏了行动的连续性。同时,某些VLA方法包含了一个额外的扩散头,以预测连续的动作,仅依赖于VLM提取的特征,从而限制了其推理能力 ...

0 0 0 0 2025/03/18 arXiv:2503.10631v1 蔡明方

视觉语言动作(VLA)模型旨在根据视觉观察和语言说明来预测机器人动作。现有方法需要进行微调预训练的视觉语言模型(VLM),因为视觉和语言特征被独立地馈入下游策略,从而降低了预训练的语义一致性。我们提出了Otter,这是一种新颖的VLA体系结构,通过明确的,文本感知的视觉特征提取来利用这些现有的对齐 ...

0 0 0 0 2025/03/17 arXiv:2503.03734v2 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)