场景图生成(SGG)在许多计算机视觉应用中提供了至关重要的结构化表示。但是,传统的SGG方法受到封闭式假设的限制,从而限制了他们仅识别预定义的对象和关系类别的能力。为了克服这一点,我们将SGG方案分为基于节点和边缘的四个不同的设置:封闭设置的SGG,开放词汇(对象)基于检测的SGG(OVD-SGG),基于开放的词汇关系的SGG(OVR-SGG),以及开放式词汇量检测 + RELAKERARY DETECTION + RELATECTION + RELATED BAINCECTION +基于RelationBlate Basitebase Based SGG(OVD + R-SGG) ...

0 0 0 0 2025/04/19 arXiv:2311.10988v2 蔡明方

广义类别发现(GCD)是一个务实但尚未充满疏忽的问题,它要求模型通过利用旧类的标记样本来自动群集和发现新型类别。挑战是未标记的数据都包含旧类和新类。与参数分类器一起利用伪标记的早期作品分别处理新旧类,这使它们之间的准确性不平衡 ...

0 0 0 0 2025/04/17 arXiv:2504.03755v1 蔡明方

这项工作介绍了OVIR-3D,这是一种直接而无需使用任何3D数据进行培训的开放式摄氏3D对象实例检索的简单而有效的方法。给定语言查询,提出的方法能够根据实例和文本查询的特征相似性返回一组3D对象实例段。这是通过将文本分配的2D区域建议融合到3D空间的多视图融合来实现的,其中2D区域建议网络可以利用2D数据集,这些数据集更容易访问,并且通常大于3D数据集 ...

0 0 0 0 2025/04/16 arXiv:2311.02873v1 蔡明方

随着大型语言模型(LLM),视觉语言模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,只能在自然语言作为输入的情况下可以在不同的环境中运行。一个这样的应用区是使用自然语言说明的室内导航。但是,尽管最近进展了,但由于所需的空间推理和语义理解,这个问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的物体的任意场景中 ...

0 1 0 0 2025/04/14 arXiv:2411.03540v1 蔡明方

3D场景图最近已成为一种表现力的高级图表示,将3D环境描述为分层图,其中节点代表多个抽象(例如对象,房间,建筑物)的空间概念,并且边缘代表概念之间的关系(e ...

0 0 0 0 2025/04/14 arXiv:2304.13487v1 蔡明方

3D场景图最近已成为3D环境的强大高级表示。 3D场景图将环境描述为一个分层图,其中节点在多个级别的抽象和边缘表示概念之间的关系。尽管3D场景图可以用作机器人的高级“心理模型”,但如何实时建立如此丰富的代表仍然是未知的领域 ...

0 0 0 0 2025/04/14 arXiv:2201.13360v2 蔡明方

现代的类不足图像分割的工具(例如,分割)和开放设定的语义理解(e ...

0 0 0 0 2025/04/14 arXiv:2404.13696v4 蔡明方

我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个由动作条件的场景图(ACSG)捕获基础环境的结构。 ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们介绍了机器人探索(RoboExp)系统,该系统结合了大型多模式(LMM)和明确的内存设计,以增强系统的功能 ...

0 0 0 0 2025/04/14 arXiv:2402.15487v2 蔡明方

场景图捕获了对象之间的复杂关系,作为内容生成和操纵的强大先验。然而,无论是添加节点还是修改边缘,合理地操纵场景图 - 仍然是一项具有挑战性且没有触及的任务。诸如将节点添加到图形或有关节点与所有其他关系的关系的推理之类的任务在计算上是棘手的,因为即使是单个边缘修改也可能触发冲突,因为图形中的复杂相互依赖性 ...

0 0 0 0 2025/04/14 arXiv:2503.18988v1 蔡明方

我们提出了一个新概念,即Evolution 6.0,它代表了由生成AI驱动的机器人技术的演变。当机器人缺乏完成人类要求的任务的必要工具时,它会自主设计所需的工具并学习如何使用它们来实现目标 ...

0 0 0 0 2025/04/08 arXiv:2502.17034v4 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)