蔡明方的文档

蔡明方

个性签名 ...

ROSA: Harnessing Robot States for Vision-Language and Action Alignment

由于视觉模型（VLMS）的强大概括能力，视觉语言动作（VLA）模型最近在多任务，端到端机器人控制方面取得了重大进步。开发此类模型的一个基本挑战是有效地使视力语言空间与机器人动作空间保持一致。现有方法通常使用专家演示直接依靠直接调整VLM ...

0 0 0 0 2025/06/17 arXiv:2506.13679v1 蔡明方

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration

视觉语言动作（VLA）模型引起了人们对其强大控制能力的越来越多的关注。但是，它们的高计算成本和低执行频率阻碍了它们对实时任务（例如机器人操纵和自动导航）的适用性。现有的VLA加速方法主要集中于结构优化，忽略了这些模型在顺序决策环境中运行的事实 ...

0 0 0 0 2025/06/17 arXiv:2506.12723v1 蔡明方

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

使机器人能够在各种环境中执行各种任务是机器人学习的核心挑战。虽然视觉语言动作（VLA）模型已经显示出对可推广机器人技能的希望，但实现其全部潜力需要解决行动表示和有效培训中的局限性。当前的VLA模型通常专注于扩展视觉模型（VLM）组件，而动作空间表示仍然是关键的瓶颈 ...

0 0 0 0 2025/06/15 arXiv:2502.05855v2 蔡明方

EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

视觉语言动作（VLA）模型，尤其是基于扩散的架构，表现出具有体现智能的变革潜力，但受高度计算的严重阻碍，记忆需求源于广泛的固有和推理时间冗余。尽管现有的加速度工作通常针对孤立的效率低下，但这种零碎的解决方案通常无法整体上解决整个VLA管道中各种计算和内存瓶颈，从而限制了实际的可部署性。我们介绍了一种结构化且无训练的推理加速框架，该框架通过凝聚力利用多方面的冗余来系统地消除这些障碍 ...

0 0 0 0 2025/06/15 arXiv:2506.10100v1 蔡明方

SAFE: Multitask Failure Detection for Vision-Language-Action Models

虽然视觉语言动作模型（VLAS）在各种操纵任务中显示出有希望的机器人行为，但在开箱即用的新任务上部署时，它们达到了有限的成功率。为了允许这些策略与环境安全互动，我们需要一个失败检测器，该检测器及时警报，以便机器人可以停止，回溯或寻求帮助。但是，现有的故障探测器仅在一个或几个特定的任务上进行训练和测试，而VLAS要求检测器在看不见的任务和新颖的环境中也将失败概括和检测 ...

0 0 0 0 2025/06/12 arXiv:2506.09937v1 蔡明方

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

一个保证，视觉语言动作（VLA）模型对机器人技术的传统模仿学习成立是利用大型视觉模型（VLMS）的广泛概括能力来产生多功能，“通才”机器人策略。但是，当前对VLA的评估仍然不足。由于缺乏语言说明，传统的模仿学习基准是不合适的 ...

0 0 0 0 2025/06/12 arXiv:2506.09930v1 蔡明方

MultiNet: An Open-Source Software Toolkit \& Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models

多模式动作模型中的最新创新代表了开发通用代理系统，结合视觉理解，语言理解和动作产生的有希望的方向。我们介绍了Multinet-一种新颖的，完全开源的基准和周围的软件生态系统，旨在严格评估和适应视觉，语言和动作域的模型。我们建立了标准化的评估协议，用于评估视觉语言模型（VLM）和视觉语言行动模型（VLAS），并提供开源软件以下载相关数据，模型和评估 ...

0 0 0 0 2025/06/12 arXiv:2506.09172v1 蔡明方

Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework

由于训练，经验和运动行为的差异，外科医生表现出不同的操作样式 - 但是当前的AI系统通常会忽略此个性化信号。我们提出了一种新颖的方法，以使用与视觉语言动作（VLA）管道集成的离散扩散框架对机器人手术中的细粒度，外科医生特异性指纹进行建模。我们的方法将手势预测提出为结构化序列deo的任务，以多模式输入为条件，包括内窥镜视频，外科手术意图语言以及对外科医生身份和技能的隐私感知的嵌入 ...

0 0 0 0 2025/06/11 arXiv:2506.08185v1 蔡明方

HiBerNAC: Hierarchical Brain-emulated Robotic Neural Agent Collective for Disentangling Complex Manipulation

多模式视觉语言行动（VLA）模型的最新进展彻底改变了传统的机器人学习，使系统能够在统一框架中解释视觉，语言和行动，以进行复杂的任务计划。但是，掌握复杂的操纵任务仍然是一个开放的挑战，受到持续性上下文记忆中的限制，不确定性下的多代理协调以及跨变量序列的动态长马计划。为了应对这一挑战，我们提出\ textbf {hibernac}，a \ textbf {hi} erarchical \ textbf {b} rain- \ textbf {e} mualter \ textbf {r textbf {r} obotic \ textbf \ textbf \ textbf {n} eural \ textbf {神经科学，特别是在神经回路机制和等级决策中 ...

0 0 0 0 2025/06/11 arXiv:2506.08296v1 蔡明方

TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

在大规模数据集中预定时，视觉语言动作（VLA）模型的最新进展表明，各种场景，任务和机器人平台的概括能力很强。但是，这些模型仍需要在新颖环境中进行特定于任务的微调，该过程几乎完全依赖于使用静态轨迹数据集的监督微调（SFT）。这种方法既不能允许机器人与环境进行交互，也不能利用实时执行的反馈 ...

0 0 0 0 2025/06/11 arXiv:2506.08440v1 蔡明方