蔡明方的文档

蔡明方

个性签名 ...

Language Conditioned Imitation Learning over Unstructured Data

自然语言也许是人类将任务传达给机器人的最灵活，最直观的方式。在模仿学习中的先前工作通常需要使用任务ID或目标图像指定每个任务 - 在开放世界环境中通常是不切实际的。另一方面，以前的教学方法中的先前方法允许代理行为以语言为指导，但通常在观测值，执行器或语言中假设结构将其适用性限制在诸如机器人技术之类的复杂设置中 ...

0 0 0 0 2025/03/09 arXiv:2005.07648v2 蔡明方

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

大型的多模型模型（LMM）迎来了一个新的人工智能时代，并以语言和愿景融合了能力，以形成强大的视觉基础代理。假定这些代理会在无数的任务中表现出色，并可能接近通用人工智能。但是，现有的基准无法充分挑战或展示在复杂的现实环境中LMM的全部潜力 ...

0 0 0 0 2025/03/09 arXiv:2408.06327v1 蔡明方

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

通用体现的代理旨在了解用户的自然说明或意图，并精确地采取行动以完成通用任务。最近，基于基础模型，尤其是视觉语言动作模型（VLAS）的方法显示出了很好的解决语言条件操纵（LCM）任务的巨大潜力。但是，现有的基准不能充分满足VLA和相对算法的需求 ...

0 0 0 0 2025/03/09 arXiv:2412.18194v1 蔡明方

A Survey on Vision-Language-Action Models for Embodied AI

深度学习在许多领域取得了显着的成功，包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络，引入了许多多模态模型来解决一系列任务，例如视觉问答、图像字幕和语音识别...... ...

0 0 0 0 2025/03/08 arXiv:2405.14093v4 蔡明方

Survey on Vision-Language-Action Models

本文介绍了对视觉语言动作（VLA）模型的AI生成的回顾，总结了关键方法，发现和未来的方向。内容是使用大语言模型（LLM）生产的，仅用于演示目的。这项工作并不代表原始研究，而是强调了AI如何帮助自动化文献评论 ...

0 0 0 0 2025/03/06 arXiv:2502.06851v2 蔡明方

SELU: Self-Learning Embodied MLLMs in Unknown Environments

最近，多模式的大语言模型（MLLM）表现出强烈的视觉理解和决策能力，从而探索了在未知环境中自主改善MLLM的探索。但是，外部反馈（例如人类或环境反馈）并不总是可用。为了应对这一挑战，现有的方法主要集中于通过投票和评分机制增强MLLM的决策能力，而在改善未知环境中MLLM的环境理解方面几乎没有付出努力 ...

0 0 0 0 2025/03/05 arXiv:2410.03303v1 蔡明方

Spatially Visual Perception for End-to-End Robotic Learning

模仿学习的最新进展已显示出对机器人控制和体现智能的巨大希望。但是，在各种安装的相机观测中实现强大的概括仍然是一个至关重要的挑战。在本文中，我们介绍了一个基于视频的空间感知框架，该框架利用3D空间表示来解决环境变异性，重点是处理照明变化 ...

0 0 0 0 2025/03/01 arXiv:2411.17458v1 蔡明方

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

通过端到端的学习过程，视觉语言动作（VLA）模型在视觉运动控制和指导理解中表现出了巨大的潜力。但是，当前的VLA模型面临着重大挑战：它们在推理过程中的速度很慢，需要对大量机器人数据进行大量预培训，从而使现实世界中的部署变得困难。在本文中，我们介绍了一个新的紧凑型视觉动作模型，称为Tinyvla，该模型与现有VLA模型相比提供了两个关键优势：（1）更快的推理速度，以及（2）提高数据效率，消除了对预训练阶段的需求 ...

0 0 0 0 2025/02/28 arXiv:2409.12514v4 蔡明方

OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model

空地机器人（AGR）由于其卓越的机动性和多功能性（即飞行和驾驶）而广泛应用于监视和灾难响应 ...

0 0 0 0 2024/12/10 arXiv:2408.10618v2 蔡明方

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

视觉和语言导航（VLN）作为嵌入式人工智能的一个关键研究问题，需要一个嵌入式智能体按照自然语言指令在复杂的 3D 环境中进行导航。最近的研究强调了大型语言模型 (LLM) 在 VLN 中通过提高导航推理准确性和可解释性的潜力。然而，它们以离线方式的主要使用通常会受到 VLN 任务和 LLM 训练语料库之间巨大领域差距的影响 ...

0 0 0 0 2024/12/09 arXiv:2403.07376v1 蔡明方