蔡明方的文档

蔡明方

个性签名 ...

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

视觉模型（VLMS）通过互联网规模的图像文本语料库获得了现实世界的知识和一般推理能力。他们可以通过场景理解和任务计划来增强机器人系统，并协助接受机器人轨迹数据培训的视觉策略。我们使用丰富的，真实的，多模式的机器人轨迹数据来探索反向范式，以增强和评估VLM ...

0 0 0 0 2025/05/29 arXiv:2505.15517v1 蔡明方

Hierarchical Instruction-aware Embodied Visual Tracking

以用户为中心的视觉跟踪（UC-EVT）为基于增强学习的模型提出了一个新的挑战，因为高级用户说明与低级代理操作之间存在很大的差距。而语言模型的最新进展（例如 ...

0 0 0 0 2025/05/28 arXiv:2505.20710v1 蔡明方

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models

通过自然语言指示，视觉语言动作（VLA）模型已成为通用机器人控制的强大范式。但是，它们来自大规模 Token 计算和自动回归解码的高推理成本误差，以实时部署和边缘应用面临重大挑战。虽然先前的工作主要集中在体系结构优化上，但我们通过在VLA模型中识别双重冗余形式来采取不同的观点：（i）连续的动作步骤之间的高相似性，以及（ii）视觉 Token 中的实质性冗余 ...

0 0 0 0 2025/05/28 arXiv:2505.21200v1 蔡明方

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

在处理物理世界中的复杂任务时，人类在执行实际动作之前练习缓慢的思维。最近，这种思维范式在增强大型语言模型（LLM）方面取得了显着的进步，以解决数字域中的复杂任务。但是，对于与物理世界相互作用的机器人基础模型，缓慢思考的潜力仍然没有探索 ...

0 0 0 0 2025/05/28 arXiv:2505.21432v1 蔡明方

BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization

视觉语言动作（VLA）模型通过直接从多模式输入启用端到端决策来具有高级机器人控制。但是，它们紧密耦合的体系结构暴露了新的安全漏洞。与传统的对抗性扰动不同，后门攻击代表了在新兴培训范式下，在新兴的培训范式下，在VLA模型的背景下，在新兴培训范式下尤其是局限性的威胁 ...

0 0 0 0 2025/05/27 arXiv:2505.16640v1 蔡明方

Interactive Post-Training for Vision-Language-Action Models

我们介绍了RIPT-VLA，这是一种简单且可扩展的基础学习的基于互动后的训练后范式，仅使用稀疏的二进制成功奖励，对预识别的视觉语言动作（VLA）模型进行了微调。现有的VLA培训管道在很大程度上依赖于离线专家演示数据和监督模仿，从而限制了他们适应低数据制度下新任务和环境的能力。 RIPT-VLA通过基于动态推出采样和剩余的优势估计来启用稳定的策略优化算法来实现交互式后培训来解决这一问题 ...

0 0 0 0 2025/05/27 arXiv:2505.17016v1 蔡明方

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

我们介绍了Scanbot，这是一种新型数据集，旨在在机器人系统中进行指导条件的高精度表面扫描。与现有的机器人学习数据集相反，该数据集的重点是掌握，导航或对话等粗略任务，Scanbot的目标是工业激光扫描的高精度需求，在该扫描中，亚毫米路径的连续性和参数稳定性至关重要。该数据集涵盖了由机器人在12个不同对象和6种任务类型中执行的激光扫描轨迹，包括全表面扫描，以几何为重点的区域，空间引用的零件，功能相关的结构，缺陷检查和比较分析 ...

0 0 0 0 2025/05/27 arXiv:2505.17295v1 蔡明方

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

最近，通过模仿人类的示范，最近的高容量视觉语言动作（VLA）模型在一系列机器人操纵任务上表现出了令人印象深刻的表现。但是，在访问量有限的情况下利用离线数据将导致在分发场景中导致执行失败。直观地，一种基于探索的方法在测试时间改进在线收集的数据可以解决此限制 ...

0 0 0 0 2025/05/27 arXiv:2505.18719v1 蔡明方

Genie Centurion: Accelerating Scalable Real-World Robot Training with Human Rewind-and-Refine Guidance

尽管视觉语言行动（VLA）模型在各种任务中表现出强烈的普遍性，但机器人政策的现实部署仍然需要大规模的高质量人类专家示范。但是，通过人类近距离的被动数据收集是昂贵的，难以扩展的，并且经常偏向具有有限多样性的被动示范。为了解决这个问题，我们提出了Genie Centurion（Gcent），这是一种基于人类倒带和反复指导的可扩展和一般数据收集范式 ...

0 0 0 0 2025/05/27 arXiv:2505.18793v1 蔡明方

ReFineVLA: Reasoning-Aware Teacher-Guided Transfer Fine-Tuning

Vision语言动作（VLA）模型由于其在将语言指令转换为机器人动作的多模式观察方面的力量，引起了研究社区的关注。尽管它们最近取得了进步，但VLA经常忽略明确的推理，而仅学习功能性输入映射，从而省略了这些至关重要的逻辑步骤，以解释性和概括为复杂的，长马利琴底的操纵任务。在这项工作中，我们提出了\ textit {prifinevla}，这是一种多模式推理 - 意识到的框架，以教师指导的原因微调vlas ...

0 0 0 0 2025/05/27 arXiv:2505.19080v1 蔡明方