蔡明方的文档

蔡明方

个性签名 ...

Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing

由于环境和任务通常是不可预测的，而操作错误仍然成本高昂且难以检测，因此工业过程必须是强大和适应性的。基于AI的控制系统提供了前进的路径，但通常依赖于具有广泛标记的数据集的监督学习，这限制了它们在变量和数据砂工业环境中概括的能力。基础模型可以实现更广泛的推理和知识整合，但很少提供工程应用所需的定量精度 ...

0 0 0 0 2025/06/11 arXiv:2506.08462v1 蔡明方

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

基于生成建模的视觉运动策略已在机器人操作中广泛采用，归因于其对多模式作用分布进行建模的能力。但是，多步取样的高推断成本限制了它们在实时机器人系统中的适用性。为了解决这个问题，现有方法通过调整最初用于图像生成开发的加速技术来加速基于生成建模的视觉运动策略中的采样过程 ...

0 0 0 0 2025/06/11 arXiv:2506.08822v1 蔡明方

Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse

体现的思想链（ECOT）推理通过通过中间推理步骤改善性能和可解释性来增强视觉语言 - 行动（VLA）模型。但是，其顺序自动回旋 Token 产生引入了明显的推断潜伏期，从而限制了实时部署。我们提出了快速的ECOT，这是一种推理时间加速度方法，它利用ECOT的结构化和重复性性质为（1）缓存和重复使用时间段的高级推理，并且（2）平行于模块化推理步骤的产生 ...

0 0 0 0 2025/06/11 arXiv:2506.07639v1 蔡明方

Real-Time Execution of Action Chunking Flow Policies

现代的AI系统，尤其是与物理世界互动的系统，越来越需要实时性能。但是，包括最近的视觉动作模型（VLAS）在内的最先进的通才模型的高潜伏期构成了重大挑战。尽管动作分解已使高频控制任务中的时间一致性，但它并不能完全解决延迟问题，从而导致暂停或分布式的干式动作在块边界处 ...

0 1 0 0 2025/06/11 arXiv:2506.07339v1 蔡明方

MapleGrasp: Mask-guided Feature Pooling for Language-driven Efficient Robotic Grasping

通过自然语言命令对看不见的物体的机器人操纵仍然具有挑战性。语言驱动的机器人握把（LDRG）预测自然语言查询和RGB-D图像的稳定抓紧姿势。在这里，我们介绍了面具引导的功能池，对现有LDRG方法的轻巧增强 ...

0 0 0 0 2025/06/10 arXiv:2506.06535v1 蔡明方

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

视觉模型（VLM）的最新进展使指令条件的机器人系统具有改进的概括。但是，大多数现有的工作都集中在反应性系统1政策上，这使VLM在语义推理和长尾计划中的优势不足。由于当前基准的时间尺度和结构复杂性有限，这些系统2通过经过审议的，目标定向的思维方式表征的功能被探讨了 ...

0 0 0 0 2025/06/10 arXiv:2506.06677v1 蔡明方

Robotic Policy Learning via Human-assisted Action Preference Optimization

建立可靠且迭代精致的机器人系统对于部署现实世界应用至关重要。虽然视觉语言动作（VLA）模型被广泛认为是这种机器人部署的基础模型，但他们对专家示范的依赖性阻碍了校正和从失败中学习的关键能力。为了减轻这种限制，我们引入了一个名为HAPO的人类辅助动作偏好优化方法，旨在通过VLA模型的偏好对齐来纠正部署故障和促进有效的适应 ...

0 0 0 0 2025/06/10 arXiv:2506.07127v1 蔡明方

SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models

部署在动态环境中的机器人不仅必须遵循各种语言说明，而且在用户意图中期执行中更改时会灵活适应。尽管最近的视觉语言动作（VLA）模型具有高级的多任务学习和指令，但他们通常会假定静态任务意图，在持续执行期间新说明到达时未能做出响应。这种限制阻碍了在动态环境（例如零售或家庭环境）中的自然和强大的相互作用，在零售或家庭环境中，实时意图变化很常见 ...

0 0 0 0 2025/06/05 arXiv:2506.03574v1 蔡明方

Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning

广义政策和执行效率构成了机器人操纵中的两个关键挑战。尽管最近的基金会政策受益于互联网规模预处理的视觉语言模型（VLM）的常识性推理能力，但它们通常会遭受低执行频率的困扰。为了缓解这种困境，已提出了受卡赫曼理论启发的双系统方法，以利用基于VLM的系统2模型处理高级推理和单独的系统1动作模型，以确保实时控制 ...

0 0 0 0 2025/06/04 arXiv:2506.01953v1 蔡明方

OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation

我们介绍了OG-VLA，这是一种新颖的架构和学习框架，将视觉语言动作模型（VLA）的概括强度与3D感知政策的鲁棒性结合在一起。我们将绘制自然语言指令和多视图RGBD观测值映射到准静态机器人动作的挑战。 3D感知的机器人政策在精确的机器人操纵任务上实现了最新的性能，但要在概括方面努力争取看不见的说明，场景和对象 ...

0 0 0 0 2025/06/04 arXiv:2506.01196v1 蔡明方