蔡明方的文档

蔡明方

个性签名 ...

VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

最近的大规模视力语言动作（VLA）模型在自然语言指导的机器人操纵任务中表现出了出色的表现。但是，当应用于训练分布以外的新物体或陌生环境时，它们的概括仍然有限。为了解决这个问题，许多现有方法都集成了其他组件，例如深度估计，细分甚至扩散以改善概括，以增加大量计算开销的成本，从而导致低效率 ...

0 0 0 0 2025/07/09 arXiv:2507.05116v1 蔡明方

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

视力语言动作（VLA）模型的最新进展在将图像产生与动作预测相结合以改善机器人操纵中的概括和推理方面表现出了希望。但是，现有的方法仅限于基于图像的预测，这些预测遭受了冗余信息，并且缺乏全面和批判性的世界知识，包括动态，空间和语义信息。为了解决这些局限性，我们提出了DreamVla，这是一个新颖的VLA框架，该框架整合了全面的世界知识预测以实现反向动态建模，从而建立了对操纵任务的感知预测行动循环 ...

0 0 0 0 2025/07/09 arXiv:2507.04447v1 蔡明方

DexVLG: Dexterous Vision-Language-Grasp Model at Scale

随着大型模型获得吸引力，视觉语言动作（VLA）系统使机器人能够应对日益复杂的任务。但是，受数据收集难度的限制，进步主要集中在控制简单的抓地力终端效果上。关于功能性抓握的研究很少，大型模型用于人类的灵巧手 ...

0 0 0 0 2025/07/09 arXiv:2507.02747v1 蔡明方

cVLA: Towards Efficient Camera-Space VLAs

Vision语言动作（VLA）型号为解决复杂的机器人操纵任务提供了一个令人信服的框架，但训练通常很昂贵。在本文中，我们提出了一种新颖的VLA方法，该方法利用2D图像上视觉语言模型（VLM）的竞争性能直接推断机器人最终效应器在图像框架坐标中提出。与先前的VLA模型输出低水平控件不同，我们的模型可以预测轨迹航路点，从而使训练和机器人实施例均更有效 ...

0 0 0 0 2025/07/09 arXiv:2507.02190v1 蔡明方

TriVLA: A Triple-System-Based Unified Vision-Language-Action Model for General Robot Control

通用义推理的视觉模型（VLM）的最新进展导致了视觉语言动作（VLA）模型的发展，从而使机器人能够执行一般的操纵。尽管现有的自动回归VLA方法设计了诸如双重系统之类的特定体系结构来利用大规模的经过预定的知识，但它们倾向于捕获静态信息，经常忽略对具体任务至关重要的动态方面。为此，我们提出了Trivla，这是一种统一的视觉语言动作模型，具有用于通用机器人控制的三个系统体系结构 ...

0 0 0 0 2025/07/09 arXiv:2507.01424v2 蔡明方

VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

在本文中，我们介绍了基于创新的矢量量化的动作 Token ，建立在迄今为止最大的动作轨迹数据集的基础上，比以前的方法利用了100倍以上的数据。这个广泛的数据集使我们的 Token 器能够捕获丰富的时空动力学，从而产生了一个模型，该模型不仅可以加速推断，而且还产生了更平稳，更连贯的动作输出。一旦受过训练，就可以以零射击的方式无缝地适应各种下游任务，从短距离的反应性行为到长马计划 ...

0 0 0 0 2025/07/09 arXiv:2507.01016v1 蔡明方

Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding

视觉语言动作（VLA）模型已成为一个有前途的框架，可以使能够在现实世界中感知，推理和行动的通用机器人。这些模型通常建立在验证的视觉模型（VLM）的基础上，由于大规模的文本预处理，它们在语义理解方面表现出色。但是，VLM通常缺乏精确的空间理解能力，因为它们主要在没有3D监督的情况下在2D图像文本对上进行调整 ...

0 0 0 0 2025/07/09 arXiv:2507.00416v1 蔡明方

4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration

利用不同的机器人数据进行预训练仍然是一个关键挑战。现有方法通常使用简单的观测值作为输入来对数据集的操作分布进行建模。但是，这些输入通常是不完整的，导致有条件的作用分布 - 我们称为坐标系统混乱和状态混乱 ...

0 0 0 0 2025/07/09 arXiv:2506.22242v1 蔡明方

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

学习现实世界的机器人操作是具有挑战性的，尤其是在有限的示威活动时。现有的几次操纵方法通常依赖于模拟的增强数据或诸如抓地力和姿势估计的预制模块，这些模块在SIM到真实的差距上挣扎，并且缺乏可扩展性。尽管大规模的模仿预训练显示出希望，但将这些通用政策调整为数据筛选设置中的特定任务仍然没有探索 ...

0 0 0 0 2025/06/27 arXiv:2506.16211v1 蔡明方

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

视觉语言动作（VLA）模型已成为一个重要的研究领域，展示了各种应用的巨大潜力。但是，它们在内窥镜机器人技术中的性能，尤其是在消化系统内执行动作的内窥镜胶囊机器人，但仍未得到探索。将VLA模型集成到内窥镜机器人中，可以在人类操作员和医疗设备之间进行更直观，有效的相互作用，从而提高诊断准确性和治疗结果 ...

0 0 0 0 2025/06/27 arXiv:2506.16263v1 蔡明方