Segment Anything Model (SAM) 作为强大的视觉基础模型出现,可生成高质量的 2D 分割结果。本文旨在将 SAM 推广到分割 3D 对象。我们没有重复 3D 中昂贵的数据采集和注释过程,而是设计了一种高效的解决方案,利用辐射场作为廉价且现成的先验,将多视图 2D 图像连接到 3D 空间 ...
在这项工作中,我们介绍了 Unique3D,这是一种新颖的图像到 3D 框架,用于从单视图图像高效生成高质量的 3D 网格,具有最先进的生成保真度和强大的通用性。先前基于分数蒸馏采样 (SDS) 的方法可以通过从大型 2D 扩散模型中提取 3D 知识来产生多样化的 3D 结果,但它们通常会遇到个案优化时间较长且不一致的问题。最近的工作通过微调多视图扩散模型或训练快速前馈模型来解决该问题并生成更好的 3D 结果 ...
以对象为中心的机器人操作的设备本体学习是设备本体人工智能中快速发展且充满挑战的领域。它对于推进下一代智能机器人至关重要,并且最近引起了人们的极大兴趣。与数据驱动的机器学习方法不同,说明学习托盘通过与环境的物理和装载反馈来进行机器人学习,布置特别适合机器人操作... ...
嵌入式人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并且是连接网络空间和物理世界的各种应用的基础。最近,多模态大型模型(MLM)和世界模型(WM)的出现因其卓越的感知、交互和推理能力而引起了极大的关注,使它们成为具身智能体大脑的有前途的架构。然而,目前还没有针对传销时代的嵌入式人工智能的全面调查 ...
嵌入式人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并且是连接网络空间和物理世界的各种应用的基础。最近,多模态大型模型(MLM)和世界模型(WM)的出现因其卓越的感知、交互和推理能力而引起了极大的关注,使它们成为具身智能体大脑的有前途的架构。然而,目前还没有针对传销时代的嵌入式人工智能的全面调查 ...
我们引入了一种轻量级且准确的架构,以实现资源高效的视觉对应。我们的方法被称为 XFeat(加速特征),重新审视了卷积神经网络中用于检测、提取和匹配局部特征的基本设计选择。我们的新模型满足了对适合资源有限设备的快速且强大的算法的关键需求 ...
3D 分割是计算机视觉中的一个基本且具有挑战性的问题,在自动驾驶、机器人、增强现实和医学图像分析中都有应用。它受到了计算机视觉、图形和机器学习社区的极大关注。传统的 3D 分割方法基于手工制作的特征和机器学习分类器,缺乏泛化能力 ...
3D重建是一个长期存在的不确定性问题,计算机视觉、计算机图形学和机器学习社区已经对此进行了近几年的探索。自2015年以来,利用三维神经网络(CNN)进行基于图像的3D重建引起了越来越多的兴趣,并表现出令人印象深刻的表现。在这个快速发展的新时代,论文主题领域的最新发展进行了全面的调查... ...
神经辐射场 (NeRF) 已成为 3D 场景表示的强大范例,可根据一组稀疏且非结构化的传感器数据提供高保真渲染和重建。在自主机器人领域,对环境的感知和理解至关重要,NeRF 在提高性能方面拥有巨大的希望。在本文中,我们对利用 NeRF 增强自主机器人能力的最先进技术进行了全面的调查和分析 ...
本次调查旨在研究基于深度学习 (DL) 的基础 3D 重建技术,这些技术可生成逼真的 3D 模型和场景,重点介绍神经辐射场 (NeRF)、潜在扩散模型 (LDM) 和 3D 高斯分布。我们剖析底层算法,评估它们的优势和权衡,并预测这个快速发展的领域的未来研究轨迹。我们全面概述了 DL 驱动的 3D 场景重建的基础知识,深入了解其潜在应用和局限性 ...