本文的目标是通过迭代在线交互来提高视觉-语言-动作(VLA)模型的性能和可靠性。由于在现实世界中收集策略推出的成本很高,因此我们研究了是否可以使用学习的模拟器(具体而言,动作条件视频生成模型)来生成额外的推出数据。不幸的是,现有的世界模型缺乏政策改进所需的物理保真度:它们主要是在演示数据集上进行训练的,这些数据集缺乏对许多不同物理交互(特别是失败案例)的覆盖,并且很难在接触丰富的对象操作中准确地模拟微小但关键的物理细节。我们提出了一种简单的迭代改进算法,该算法使用现实世界的转出数据来提高世界模型的保真度,然后可以使用该算法生成补充合成数据以改进 VLA 模型。在我们对真实机器人的实验中,我们使用这种方法来提高最先进的 VLA 模型在多个下游任务上的性能。与基本策略相比,我们的绝对成功率提高了 39.2%,通过生成的综合部署进行训练,绝对成功率提高了 11.6%。视频可以在这个匿名网站上找到:这个 https URL ...

0 0 0 0 2026/03/09 arXiv:2602.12063v2 Hatteras

使 VLA 模型能够预测环境动态(称为世界建模)已被认为对于改进机器人推理和泛化至关重要。然而,当前的方法面临两个主要问题: 1. 训练目标迫使模型过分强调像素级重建,这限制了语义学习和泛化 2. 推理过程中对预测未来观察的依赖往往会导致错误累积。为了应对这些挑战,我们引入了通过并行渐进扩展的未来表示对齐(FRAPPE)。我们的方法采用两阶段微调策略:在训练中期,模型学习预测未来观察的潜在表示;在训练后阶段,我们并行扩展计算工作量,并同时将表示与多个不同的视觉基础模型对齐。通过显着提高微调效率并减少对动作注释数据的依赖,FRAPPE 提供了一种可扩展且数据高效的途径来增强通用机器人政策的世界意识。 RoboTwin 基准测试和现实世界任务的实验表明,FRAPPE 的性能优于最先进的方法,并在长期和未见过的场景中表现出强大的泛化能力 ...

0 0 0 0 2026/02/26 arXiv:2602.17259v1 Hatteras

视觉-语言-动作 (VLA) 模型为通用机器人带来了希望,但目前面临数据稀缺、架构效率低下以及无法跨不同硬件平台泛化的问题。我们介绍 RDT2,这是一个基于 7B 参数 VLM 构建的机器人基础模型,旨在实现开放词汇任务的新颖实施例的零样本部署。为了实现这一目标,我们收集了最大的开源机器人数据集之一——在不同家庭中进行了超过 10,000 小时的演示——使用增强的、与实施例无关的通用操作接口 (UMI)。我们的方法采用了一种新颖的三阶段训练方法,通过残差矢量量化(RVQ)、流匹配和蒸馏将离散语言知识与连续控制结合起来,以进行实时推理。因此,RDT2 成为第一个同时将零样本推广到看不见的物体、场景、指令甚至机器人平台的模型之一。此外,它在灵巧、远距离和动态下游任务(例如打乒乓球)方面的表现优于最先进的基线。请参阅此 https URL 以获取更多信息 ...

0 0 0 0 2026/02/04 arXiv:2602.03310v1 Hatteras

由于多步动作采样过程中的梯度病态,用离策略强化学习训练基于表达流的策略是出了名的不稳定。我们将这种不稳定性追溯到一个基本联系:流推出在代数上等价于残差循环计算,使其容易受到与 RNN 相同的梯度消失和爆炸的影响。为了解决这个问题,我们使用现代顺序模型的原理重新参数化速度网络,引入两种稳定的架构:Flow-G(包含门控速度)和 Flow-T(使用解码速度) ...

0 0 0 0 2025/11/03 arXiv:2509.25756v2 Hatteras

触觉被认为是人类的重要感觉,也是机器人同样重要的感觉方式,特别是对于灵巧的操作、材料识别和涉及视觉遮挡的场景。该演示以触摸基础模型的最新工作为基础,将采用我们最新的视觉触觉语言模型 Octopi-1.5 ...

0 0 1 3 2025/10/29 arXiv:2507.09985v1 Hatteras

触觉和视觉感知对于人类与环境进行细粒度的交互都至关重要。为机器人开发类似的多模式传感功能可以显着增强和扩展其操纵技能。本文介绍了 \textbf{3D-ViTac},这是一种专为灵巧双手操作而设计的多模态传感和学习系统 ...

0 0 0 0 2025/10/29 arXiv:2410.24091v2 Hatteras

本文提出了 RynnVLA-001,这是一种基于人类演示的大规模视频生成预训练构建的视觉-语言-动作 (VLA) 模型。我们提出了一种新颖的两阶段预训练方法。第一阶段是以自我为中心的视频生成预训练,在 1200 万个以自我为中心的操作视频上训练图像到视频模型,以预测以初始帧和语言指令为条件的未来帧 ...

0 0 0 0 2025/10/16 arXiv:2509.15212v1 Hatteras

我们介绍了出色的团队,这是一个多机构愿景大语言模型(VLLM)框架,用于在零拍摄方面执行高级机器人计划。在我们的上下文中,零射击高级计划意味着,对于新颖的环境,我们提供了一个带有机器人周围环境图像和任务描述的VLLM,并且VLLM输出了机器人完成任务所需的动作顺序。与以前的用于机器人操作的高级视觉计划的方法不同,我们的方法在整个计划过程中使用VLLM,从而在感知,控制和计划之间实现了更紧密的循环 ...

0 0 0 0 2025/07/18 arXiv:2407.19094v6 Hatteras

数据缩放和标准化评估基准已推动了自然语言处理和计算机视觉的重大进展。但是,机器人技术在扩展数据和建立评估协议方面面临着独特的挑战。收集现实世界的数据是资源密集且效率低下的,而在实际情况下进行基准测试仍然很复杂 ...

0 0 0 0 2025/07/08 arXiv:2504.18904v1 Hatteras

对于人类和机器人来说,触摸感被称为触觉感应,对于执行接触丰富的操纵任务至关重要。机器人触觉传感的三个主要挑战是1)解释传感器信号,2)在新型方案中生成传感器信号,以及3)基于学习传感器的策略。对于Visuotactile传感器,解释与视觉传感器的密切关系促进了解释(e ...

0 0 0 0 2025/06/28 arXiv:2408.06506v2 Hatteras