蔡明方的文档

蔡明方

个性签名 ...

OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data

这项工作介绍了OVIR-3D，这是一种直接而无需使用任何3D数据进行培训的开放式摄氏3D对象实例检索的简单而有效的方法。给定语言查询，提出的方法能够根据实例和文本查询的特征相似性返回一组3D对象实例段。这是通过将文本分配的2D区域建议融合到3D空间的多视图融合来实现的，其中2D区域建议网络可以利用2D数据集，这些数据集更容易访问，并且通常大于3D数据集 ...

0 0 0 0 2025/04/16 arXiv:2311.02873v1 蔡明方

VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation

随着大型语言模型（LLM），视觉语言模型（VLM）和其他一般基础模型的最新兴起，多模式，多任务体现的代理的潜力越来越大，只能在自然语言作为输入的情况下可以在不同的环境中运行。一个这样的应用区是使用自然语言说明的室内导航。但是，尽管最近进展了，但由于所需的空间推理和语义理解，这个问题仍然具有挑战性，尤其是在可能包含许多属于细粒类的物体的任意场景中 ...

0 1 0 0 2025/04/14 arXiv:2411.03540v1 蔡明方

Hydra-Multi: Collaborative Online Construction of 3D Scene Graphs with Multi-Robot Teams

3D场景图最近已成为一种表现力的高级图表示，将3D环境描述为分层图，其中节点代表多个抽象（例如对象，房间，建筑物）的空间概念，并且边缘代表概念之间的关系（e ...

0 0 0 0 2025/04/14 arXiv:2304.13487v1 蔡明方

Hydra: A Real-time Spatial Perception System for 3D Scene Graph Construction and Optimization

3D场景图最近已成为3D环境的强大高级表示。 3D场景图将环境描述为一个分层图，其中节点在多个级别的抽象和边缘表示概念之间的关系。尽管3D场景图可以用作机器人的高级“心理模型”，但如何实时建立如此丰富的代表仍然是未知的领域 ...

0 0 0 0 2025/04/14 arXiv:2201.13360v2 蔡明方

Clio: Real-time Task-Driven Open-Set 3D Scene Graphs

现代的类不足图像分割的工具（例如，分割）和开放设定的语义理解（e ...

0 0 0 0 2025/04/14 arXiv:2404.13696v4 蔡明方

RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

我们介绍了交互式场景探索的新颖任务，其中机器人自主探索环境并产生一个由动作条件的场景图（ACSG）捕获基础环境的结构。 ACSG在场景中既说明了低级信息（几何和语义）以及高级信息（不同实体之间的动作条件关系）。为此，我们介绍了机器人探索（RoboExp）系统，该系统结合了大型多模式（LMM）和明确的内存设计，以增强系统的功能 ...

0 0 0 0 2025/04/14 arXiv:2402.15487v2 蔡明方

SG-Tailor: Inter-Object Commonsense Relationship Reasoning for Scene Graph Manipulation

场景图捕获了对象之间的复杂关系，作为内容生成和操纵的强大先验。然而，无论是添加节点还是修改边缘，合理地操纵场景图 - 仍然是一项具有挑战性且没有触及的任务。诸如将节点添加到图形或有关节点与所有其他关系的关系的推理之类的任务在计算上是棘手的，因为即使是单个边缘修改也可能触发冲突，因为图形中的复杂相互依赖性 ...

0 0 0 0 2025/04/14 arXiv:2503.18988v1 蔡明方

Evolution 6.0: Evolving Robotic Capabilities Through Generative Design

我们提出了一个新概念，即Evolution 6.0，它代表了由生成AI驱动的机器人技术的演变。当机器人缺乏完成人类要求的任务的必要工具时，它会自主设计所需的工具并学习如何使用它们来实现目标 ...

0 0 0 0 2025/04/08 arXiv:2502.17034v4 蔡明方

Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning

在现实环境中运行的体现的代理必须解释模棱两可的人类指示。有能力的家用机器人应认识到歧义并提出相关的澄清问题以准确推断用户意图，从而导致更有效的任务执行。为了研究此问题，我们介绍了询问任务，其中具体的代理必须在家庭环境中进行模棱两可的指导进行特定的对象实例 ...

0 0 0 0 2025/04/02 arXiv:2504.00907v1 蔡明方

OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model

我们提出了OpenDriveVLA，这是一种旨在端到端自动驾驶的视觉动作（VLA）模型。 OpenDriveVLA建立在开源预培训的大型视觉模型（VLMS）的基础上，以生成可靠的驾驶动作，以3D环境感知，EGO车辆状态和驾驶员命令为条件。为了弥合驱动视觉表示和语言嵌入之间的模态差距，我们提出了一个层次的视觉对齐过程，将2D和3D结构化的视觉 Token 投影到统一的语义空间中 ...

0 0 0 0 2025/04/01 arXiv:2503.23463v1 蔡明方