蔡明方的文档

蔡明方

个性签名 ...

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

有关视觉动作（VLA）模型的最新研究已从端到端的动作生成范式转变为涉及任务计划随后进行动作的管道，表明对各种复杂的长期长途操纵任务的性能提高。但是，现有方法在网络架构，计划范式，表示和培训数据源方面有很大差异，这使研究人员挑战确定绩效提高和组件的确切来源，以进一步改善。为了系统地研究不同计划范式和从网络体系结构和培训数据中隔离的代表的影响，在本文中，我们介绍VLA-OS，VLA-OS，一个统一的VLA体系结构系列，能够具有各种任务计划范例，并设计了一套全面的对照实验的套件，跨越多种多样的对象类别（刚性和可变形），视觉模态和3D和3D和3D和3D和3D和3D和3D和3D，终极效应（抓手和灵巧的手） ...

0 0 0 0 2025/06/27 arXiv:2506.17561v1 蔡明方

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

视觉语言动作（VLA）模型在视觉运动中表现出了显着的功能，但确保其在非结构化的现实世界环境中的稳健性仍然是一个持续的挑战。在本文中，我们通过采样和验证的镜头进行了测试时间缩放，以增强VLA的鲁棒性和概括。我们首先证明，动作误差与生成样本的数量之间的关系遵循一系列VLA的指定功率定律，表明存在推理时间缩放定律 ...

0 0 0 0 2025/06/27 arXiv:2506.17811v1 蔡明方

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

基于仿真的数据合成已成为增强现实世界机器人操作的强大范式。但是，由于两个挑战，现有的合成数据集仍然不足以进行强大的双人操作：（1）缺乏用于新任务的高效，可扩展的数据生成方法，以及（2）未能捕获现实世界中复杂性的过度简化模拟环境。我们提出Robotwin 2 ...

0 0 0 0 2025/06/27 arXiv:2506.18088v1 蔡明方

CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation

最近建立在预识别的视觉模型（VLM）上的视觉语言动作（VLA）模型已显示在操纵任务之间进行了强烈的概括。但是，它们仍然受到单帧观察范式的限制，并且由于较大的视力语言骨干线引入了实质性的计算成本和推理潜伏期，因此无法完全受益于汇总的多帧历史观察所提供的运动信息。我们提出了Cronusvla，这是一个统一的框架，通过有效的后训练阶段将单帧VLA模型扩展到多帧范式 ...

0 0 0 0 2025/06/27 arXiv:2506.19816v1 蔡明方

Unified Vision-Language-Action Model

视觉语言动作模型（VLAS）因其在推进机器人操作方面的潜力而引起了极大的关注。但是，以前的方法主要依赖视觉模型（VLM）的一般理解能力来生成动作信号，通常忽略了嵌入在视觉观察中的丰富时间和因果结构。在本文中，我们提出了Univla，这是一种统一的和天然的多模式VLA模型，可自动重新调查将视觉，语言和动作信号作为离散 Token 序列建模 ...

0 0 0 0 2025/06/27 arXiv:2506.19850v1 蔡明方

Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

视觉语言动作（VLA）模型通过整合用于机器人操作的动作产生模块来扩展视觉模型（VLM）。 VLA模型利用VLM在视觉感知和教学理解中的优势，在各种操纵任务中表现出有希望的概括。但是，需要高精度和准确性的应用程序揭示了性能差距而没有进一步适应 ...

0 0 0 0 2025/06/27 arXiv:2506.20966v1 蔡明方

WorldVLA: Towards Autoregressive Action World Model

我们提出WorldVla，这是一种自回归的行动世界模型，它统一了行动，图像理解和产生。我们的WorldVLA将视觉语言动作（VLA）模型和世界模型与一个单一框架相互融合。世界模型通过利用动作和图像理解来预测未来的图像，以学习环境的潜在物理学以改善动作的产生 ...

0 0 0 0 2025/06/27 arXiv:2506.21539v1 蔡明方

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

视力语言行动（VLA）模型的最新进展已通过利用世界知识和推理能力来端对端自主驾驶的希望。但是，当前的VLA模型通常会在物理上不可行的动作输出，复杂的模型结构或不必要的长期推理中挣扎。在本文中，我们提出了Autovla，这是一种新型的VLA模型，该模型在端到端自动驾驶的单个自回旋生成模型中统一了推理和动作生成 ...

0 0 0 0 2025/06/17 arXiv:2506.13757v1 蔡明方

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

视觉语言动作（VLA）模型已经表现出强烈的语义理解和零拍的概括，但是大多数现有系统都采用手工制作的“词汇”的精确低级控制器，例如终端效果姿势或根速度。这一假设将先前的工作限制在准静态任务中，并排除了人形全身控制（WBC）任务所需的敏捷，全身行为。为了捕捉文献中的这一差距，我们首先引入了针对人形WBC的第一个实用的SIM卡，视觉语言，闭环基准，包括10个类别的150多个任务 ...

0 0 0 0 2025/06/17 arXiv:2506.13751v1 蔡明方

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

近年来，由于其令人印象深刻的多模式理解和概括能力，视觉语言动作（VLA）模型已成为机器人技术的重要研究方向。尽管取得了进展，但他们的实际部署受到推理速度瓶颈的严重限制，尤其是在高频和灵活的操纵任务中。尽管最近的研究探索了雅各比解码，作为传统自回归解码的更有效替代方法，但由于漫长的迭代，其实际好处是微不足道的 ...

0 0 0 0 2025/06/17 arXiv:2506.13725v1 蔡明方