蔡明方的文档

蔡明方

个性签名 ...

GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering

结构化场景表示是具体化剂的核心组成部分，有助于将原始感觉流巩固到可读，模块化和可搜索的格式中。由于其高度计算开销，许多方法在任务之前构建了此类表示。但是，当任务规格发生变化时，这种静态方法可能会不足，因为它们可能会错过关键对象，空间关系和细节 ...

0 0 0 0 2025/06/04 arXiv:2506.01174v1 蔡明方

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

现实世界中体现的代理人将面临长马利琴的任务，其特征是高级目标，要求超出单一动作的多步骤解决方案。成功浏览这些需要高级任务计划（即 ...

0 0 0 0 2025/06/04 arXiv:2506.00411v1 蔡明方

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

由于较大的动作空间和对协调的手臂运动的需求，学习可推广的双人操纵政策对于具体的代理人来说是极具挑战性的。现有的方法依靠视觉语言行动（VLA）模型来获得双人政策。但是，从单臂数据集或预训练的VLA模型转移知识通常无法有效地概括，这主要是由于双臂数据的稀缺性以及单臂和双臂操纵之间的基本差异 ...

0 0 0 0 2025/06/04 arXiv:2505.24156v1 蔡明方

Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models

自主驾驶的视觉语言动作（VLA）模型表现出希望，但在非结构化的角案例中步履蹒跚，这在很大程度上是由于有针对性的基准的稀缺性。为了解决这个问题，我们介绍了即兴VLA。我们的核心贡献是即兴的VLA数据集：超过80,000个经过精心策划的视频剪辑，这些剪辑从来自8个开源大型大型数据集中的2m以上源剪辑中提炼出来 ...

0 1 0 0 2025/05/31 arXiv:2505.23757v1 蔡明方

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

通过将端到端学习与从Web-Scale Vision-Language Model（VLM）培训中转移语义知识的转移，视觉语言动作（VLA）模型通过将端到端学习与语义知识的转移相结合，为诸如机器人等物理系统（例如机器人）提供了强大的方法。但是，实时控制的限制通常与VLM的设计不一致：最强大的VLM具有数十亿或数百亿个参数，存在实时推理的障碍，并以离散 Token 而不是连续价值的输出来操作控制机器人所需的连续价值。为了应对这一挑战，最近的VLA模型已使用专门的模块来有效地连续控制，例如动作专家或连续的输出头，通常需要在预读的VLM主链中添加新的未经训练的参数 ...

0 0 0 0 2025/05/31 arXiv:2505.23705v1 蔡明方

TrackVLA: Embodied Visual Tracking in the Wild

体现的视觉跟踪是体现AI的一项基本技能，使代理只能使用以自我为中心的视觉在动态环境中遵循特定目标。此任务本质上是具有挑战性的，因为它需要在严重的遮挡和高场景动态的条件下进行准确的目标识别和有效的轨迹计划。现有方法通常通过模块化的认可和计划来应对这一挑战 ...

0 0 0 0 2025/05/31 arXiv:2505.23189v1 蔡明方

ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

视觉语言动作（VLA）模型通过利用预验证的视觉和语言表示，具有先进的通用机器人操作。但是，他们在需要涉及力的细粒度控制的接触式任务上挣扎，尤其是在视觉阻塞或动态不确定性下。为了解决这些局限性，我们建议\ textbf {forcevla}，这是一种新颖的端到端操纵框架，将外部力传感视为VLA系统中的一流模态 ...

0 0 0 0 2025/05/31 arXiv:2505.22159v1 蔡明方

Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

视觉语言动作（VLA）模型已成为机器人技术中的下一代模型。但是，尽管利用强大的预训练的视觉模型（VLMS），但现有的端到端VLA系统在微调过程中通常会失去关键功能，因为该模型适应了特定的机器人任务。我们认为，可概括的VLA模型应保留并扩展VLM的核心能力：1）开放世界体现的推理 - VLA应继承VLM的知识，i ...

0 0 0 0 2025/05/31 arXiv:2505.21906v1 蔡明方

EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models

随着体现人工智能的发展，诸如视觉语言行动（VLA）模型之类的端到端控制政策已成为主流。现有的VLA型号面临昂贵的计算/存储成本，需要优化。量化被认为是最有效的方法，它不仅可以降低记忆成本，还可以实现计算加速 ...

0 0 0 0 2025/05/31 arXiv:2505.21567v1 蔡明方

Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering

我们在家庭环境中使用情境查询（S-EQA）提出并解决了体现的问答（EQA）的问题。与先前的EQA工作不同，可以解决直接引用目标对象和属性的简单查询（“汽车的颜色是什么？”），而情境查询（例如“房子准备好入睡？”）很具有挑战性，因为他们要求代理商正确地识别多个对象态（门：闭合：封闭，灯：off：off：off：off：off：off：off：off：off：off：off：off：off offect off），并达到了对答案的共识 ...

0 0 0 0 2025/05/29 arXiv:2405.04732v3 蔡明方