Hatteras的文档

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

本文的目标是通过迭代在线交互来提高视觉-语言-动作（VLA）模型的性能和可靠性。由于在现实世界中收集策略推出的成本很高，因此我们研究了是否可以使用学习的模拟器（具体而言，动作条件视频生成模型）来生成额外的推出数据。不幸的是，现有的世界模型缺乏政策改进所需的物理保真度：它们主要是在演示数据集上进行训练的，这些数据集缺乏对许多不同物理交互（特别是失败案例）的覆盖，并且很难在接触丰富的对象操作中准确地模拟微小但关键的物理细节。我们提出了一种简单的迭代改进算法，该算法使用现实世界的转出数据来提高世界模型的保真度，然后可以使用该算法生成补充合成数据以改进 VLA 模型。在我们对真实机器人的实验中，我们使用这种方法来提高最先进的 VLA 模型在多个下游任务上的性能。与基本策略相比，我们的绝对成功率提高了 39.2%，通过生成的综合部署进行训练，绝对成功率提高了 11.6%。视频可以在这个匿名网站上找到：这个 https URL ...

0 0 0 0 2026/03/09 arXiv:2602.12063v2 Hatteras

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

使 VLA 模型能够预测环境动态（称为世界建模）已被认为对于改进机器人推理和泛化至关重要。然而，当前的方法面临两个主要问题： 1. 训练目标迫使模型过分强调像素级重建，这限制了语义学习和泛化 2. 推理过程中对预测未来观察的依赖往往会导致错误累积。为了应对这些挑战，我们引入了通过并行渐进扩展的未来表示对齐（FRAPPE）。我们的方法采用两阶段微调策略：在训练中期，模型学习预测未来观察的潜在表示；在训练后阶段，我们并行扩展计算工作量，并同时将表示与多个不同的视觉基础模型对齐。通过显着提高微调效率并减少对动作注释数据的依赖，FRAPPE 提供了一种可扩展且数据高效的途径来增强通用机器人政策的世界意识。 RoboTwin 基准测试和现实世界任务的实验表明，FRAPPE 的性能优于最先进的方法，并在长期和未见过的场景中表现出强大的泛化能力 ...

0 0 0 0 2026/02/26 arXiv:2602.17259v1 Hatteras

RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

视觉-语言-动作 (VLA) 模型为通用机器人带来了希望，但目前面临数据稀缺、架构效率低下以及无法跨不同硬件平台泛化的问题。我们介绍 RDT2，这是一个基于 7B 参数 VLM 构建的机器人基础模型，旨在实现开放词汇任务的新颖实施例的零样本部署。为了实现这一目标，我们收集了最大的开源机器人数据集之一——在不同家庭中进行了超过 10,000 小时的演示——使用增强的、与实施例无关的通用操作接口 (UMI)。我们的方法采用了一种新颖的三阶段训练方法，通过残差矢量量化（RVQ）、流匹配和蒸馏将离散语言知识与连续控制结合起来，以进行实时推理。因此，RDT2 成为第一个同时将零样本推广到看不见的物体、场景、指令甚至机器人平台的模型之一。此外，它在灵巧、远距离和动态下游任务（例如打乒乓球）方面的表现优于最先进的基线。请参阅此 https URL 以获取更多信息 ...

0 0 0 0 2026/02/04 arXiv:2602.03310v1 Hatteras

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

由于多步动作采样过程中的梯度病态，用离策略强化学习训练基于表达流的策略是出了名的不稳定。我们将这种不稳定性追溯到一个基本联系：流推出在代数上等价于残差循环计算，使其容易受到与 RNN 相同的梯度消失和爆炸的影响。为了解决这个问题，我们使用现代顺序模型的原理重新参数化速度网络，引入两种稳定的架构：Flow-G（包含门控速度）和 Flow-T（使用解码速度） ...

0 0 0 0 2025/11/03 arXiv:2509.25756v2 Hatteras

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Demonstrating the Octopi-1.5 Visual-Tactile-Language Model

3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

TacSL: A Library for Visuotactile Sensor Simulation and Learning