一译 —— 文档和论文翻译、对照阅读、讨论和社区

Interactive Post-Training for Vision-Language-Action Models

我们介绍了RIPT-VLA，这是一种简单且可扩展的基础学习的基于互动后的训练后范式，仅使用稀疏的二进制成功奖励，对预识别的视觉语言动作（VLA）模型进行了微调。现有的VLA培训管道在很大程度上依赖于离线专家演示数据和监督模仿，从而限制了他们适应低数据制度下新任务和环境的能力。 RIPT-VLA通过基于动态推出采样和剩余的优势估计来启用稳定的策略优化算法来实现交互式后培训来解决这一问题 ...

0 0 0 2025/05/27 arXiv:2505.17016v1 蔡明方

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

我们介绍了Scanbot，这是一种新型数据集，旨在在机器人系统中进行指导条件的高精度表面扫描。与现有的机器人学习数据集相反，该数据集的重点是掌握，导航或对话等粗略任务，Scanbot的目标是工业激光扫描的高精度需求，在该扫描中，亚毫米路径的连续性和参数稳定性至关重要。该数据集涵盖了由机器人在12个不同对象和6种任务类型中执行的激光扫描轨迹，包括全表面扫描，以几何为重点的区域，空间引用的零件，功能相 ...

0 0 0 2025/05/27 arXiv:2505.17295v1 蔡明方

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

最近，通过模仿人类的示范，最近的高容量视觉语言动作（VLA）模型在一系列机器人操纵任务上表现出了令人印象深刻的表现。但是，在访问量有限的情况下利用离线数据将导致在分发场景中导致执行失败。直观地，一种基于探索的方法在测试时间改进在线收集的数据可以解决此限制 ...

0 0 0 2025/05/27 arXiv:2505.18719v1 蔡明方

Genie Centurion: Accelerating Scalable Real-World Robot Training with Human Rewind-and-Refine Guidance

尽管视觉语言行动（VLA）模型在各种任务中表现出强烈的普遍性，但机器人政策的现实部署仍然需要大规模的高质量人类专家示范。但是，通过人类近距离的被动数据收集是昂贵的，难以扩展的，并且经常偏向具有有限多样性的被动示范。为了解决这个问题，我们提出了Genie Centurion（Gcent），这是一种基于人类倒带和反复指导的可扩展和一般数据收集范式 ...

0 0 0 2025/05/27 arXiv:2505.18793v1 蔡明方

ReFineVLA: Reasoning-Aware Teacher-Guided Transfer Fine-Tuning

Vision语言动作（VLA）模型由于其在将语言指令转换为机器人动作的多模式观察方面的力量，引起了研究社区的关注。尽管它们最近取得了进步，但VLA经常忽略明确的推理，而仅学习功能性输入映射，从而省略了这些至关重要的逻辑步骤，以解释性和概括为复杂的，长马利琴底的操纵任务。在这项工作中，我们提出了\ textit {prifinevla}，这是一种多模式推理 - 意识到的框架，以教师指导的原因微调vl ...

0 0 0 2025/05/27 arXiv:2505.19080v1 蔡明方

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

由于其完全可区分的设计集成了模块化任务，即感知，预测和策略，因此对端到端自动驾驶的研究兴趣激增，这可以实现最终目标的优化 ...

0 0 0 2025/05/27 arXiv:2505.19381v1 蔡明方

RFTF: Reinforcement Fine-tuning for Embodied Agents with Temporal Feedback

视觉语言动作（VLA）模型在体现智能领域表现出了巨大的潜力，使代理能够遵循人类的指示以在物理环境中完成复杂的任务。现有的体现代理通常通过行为克隆进行训练，这需要昂贵的数据和计算资源，并受到人类示范的约束。为了解决这个问题，许多研究人员探讨了加强微调在体现的代理中的应用 ...

0 0 0 2025/05/27 arXiv:2505.19767v1 蔡明方

What Can RL Bring to VLA Generalization? An Empirical Study

大型视觉动作（VLA）模型显示出体现AI的显着潜力。但是，由于对分配变化的复合错误的敏感性，他们通过监督微调（SFT）限制了概括的主要培训。强化学习（RL）通过试用和错误为任务目标进行优化，为克服这些局限性提供了一条途径，但是与SFT相比，缺乏对VLA的特定概括益处的系统理解 ...

0 0 0 2025/05/27 arXiv:2505.19789v1 蔡明方

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）