蔡明方的文档

蔡明方

个性签名 ...

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

由于其完全可区分的设计集成了模块化任务，即感知，预测和策略，因此对端到端自动驾驶的研究兴趣激增，这可以实现最终目标的优化 ...

0 0 0 0 2025/05/27 arXiv:2505.19381v1 蔡明方

RFTF: Reinforcement Fine-tuning for Embodied Agents with Temporal Feedback

视觉语言动作（VLA）模型在体现智能领域表现出了巨大的潜力，使代理能够遵循人类的指示以在物理环境中完成复杂的任务。现有的体现代理通常通过行为克隆进行训练，这需要昂贵的数据和计算资源，并受到人类示范的约束。为了解决这个问题，许多研究人员探讨了加强微调在体现的代理中的应用 ...

0 0 0 0 2025/05/27 arXiv:2505.19767v1 蔡明方

What Can RL Bring to VLA Generalization? An Empirical Study

大型视觉动作（VLA）模型显示出体现AI的显着潜力。但是，由于对分配变化的复合错误的敏感性，他们通过监督微调（SFT）限制了概括的主要培训。强化学习（RL）通过试用和错误为任务目标进行优化，为克服这些局限性提供了一条途径，但是与SFT相比，缺乏对VLA的特定概括益处的系统理解 ...

0 0 0 0 2025/05/27 arXiv:2505.19789v1 蔡明方

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

在内窥镜程序中，异常区域和循环切割标记物的自主跟踪可以显着减轻内镜医生的认知负担。但是，基于模型的传统管道对于每个组件都是脆弱的（例如 ...

0 0 0 0 2025/05/22 arXiv:2505.15206v1 蔡明方

Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

基于深度神经网络（DNN）的策略模型，例如视觉语言动作（VLA）模型，在从多模式输入中自动化复杂决策方面表现出色。但是，扩展这些模型会大大增加计算开销，从而使资源受限设置（如机器人操纵和自动驾驶）中的部署变得复杂。为了解决这个问题，我们提出了显着意识的量化模仿学习（SQIL），该学习将量化感知培训与针对关键任务国家的选择性损失加权策略相结合 ...

0 0 0 0 2025/05/22 arXiv:2505.15304v1 蔡明方

FLARE: Robot Learning with Implicit World Modeling

我们介绍$ \ textbf {f} $ uture $ \ textbf {la} $ tent $ \ textbf {re} $表现对准（$ \ textbf {flare} $），这是一个将预测性潜在的潜在世界建模集成到机器人策略学习中的新颖框架。通过将扩散 Transformer 的特征与未来观察结果的潜在嵌入在一起，$ \ textbf {flare} $使扩散的 Transformer 策略可以预测未来观察结果的潜在表示，从而使其能够在产生动作的同时推理长期后果。非常轻巧的，$ \ textbf {flare} $仅需要最小的体系结构修改 - 在标准视觉语言行动（VLA）模型中添加一些 Token - 但可带来可观的性能提高 ...

0 0 0 0 2025/05/22 arXiv:2505.15659v1 蔡明方

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

视觉语言动作（VLA）模型的概括能力是看不见的任务对于在开放世界中实现通用机器人操纵至关重要。但是，现有VLA模型的交叉任务概括功能仍然显着尚未得到充满异常的影响。为了解决这一差距，我们介绍了Agnostos，这是一种新型的模拟基准测试，旨在严格评估操作中的交叉任务零射门概括 ...

0 0 0 0 2025/05/22 arXiv:2505.15660v1 蔡明方

From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems

基础模型（FMS）越来越多地用于在体现的代理中桥接语言和动作，但是不同FM集成策略的操作特征仍然易于探索 - 特别是对于不断变化的环境中的复杂教学和多功能动作生成的复杂说明。本文研究了用于构建机器人系统的三个范式：端到端视觉语言动作（VLA）模型，这些模型隐含地整合感知和计划，以及结合了视觉语言模型（VLMS）或多模型模型（LLMS）的模块化管道。我们通过两个集中的案例研究评估了这些范式：一项复杂的指导接地任务，评估了细粒度的教学理解和跨模式歧义，以及通过VLA finetuning来定位对象操纵技能转移的对象操纵任务 ...

0 0 0 0 2025/05/22 arXiv:2505.15685v1 蔡明方

Conditioning Matters: Training Diffusion Policies is Faster Than You Think

扩散策略已成为建筑视觉语言动作（VLA）模型的主流范式。尽管它们表现出强大的机器人控制能力，但其训练效率仍然是最佳的。在这项工作中，我们确定了条件扩散政策培训中的基本挑战：当难以区分生成条件时，训练目标会退化为建模边际行动分布，这是一种现象，我们定期损失崩溃 ...

0 0 0 0 2025/05/21 arXiv:2505.11123v1 蔡明方

Unveiling the Potential of Vision-Language-Action Models with Open-Ended Multimodal Instructions

视觉语言动作（VLA）模型最近在机器人技术领域变得非常突出。 VLA模型可以通过单个端到端的神经网络从视觉观察和人类指示中直接从视觉观察和人类指示中产生机器人动作，从而利用视觉语言基础模型。尽管它们有效，但当前的VLA模型通常仅接受一种形式的人类提示，语言说明，这可能会限制其在开放式的人类机器人相互作用中的适用性 ...

0 0 0 0 2025/05/21 arXiv:2505.11214v1 蔡明方