我们提出了一种近实时方法,用于从单目 RGBD 视频序列中对未知对象进行 6 自由度跟踪,同时执行对象的神经 3D 重建。我们的方法适用于任意刚性物体,即使视觉纹理基本上不存在。假设对象仅在第一帧中被分割 ...
文本或图像转 3D 生成器和 3D 扫描仪现在可以生成具有高质量形状和纹理的 3D 资源。这些资产通常由单个融合表示组成,例如隐式神经场、高斯混合或网格,没有任何有用的结构。然而,大多数应用程序和创意工作流程要求资产由几个可以独立操作的有意义的部分组成 ...
高效、准确的物体姿态估计是增强现实、自动驾驶和机器人等许多应用中现代视觉系统的重要组成部分。虽然基于模型的 6D 物体姿态估计研究已经取得了有希望的结果,但无模型方法受到渲染和推断实时 RGB-D 视频流中任意物体的一致姿态的高计算负载的阻碍。为了解决这个问题,我们提出了 6DOPE-GS,这是一种通过有效利用高斯泼溅技术的进步,使用单个 RGB-D 相机进行在线 6D 物体姿态估计和跟踪的新颖方法 ...
我们建议通过使用合成数据进行训练来扩大 3D 场景重建规模。我们工作的核心是 MegaSynth,这是一个程序生成的 3D 数据集,包含 700K 个场景 - 比之前的真实数据集 DL3DV 大 50 倍以上 - 极大地扩展了训练数据。为了实现可扩展的数据生成,我们的关键思想是消除语义信息,消除对复杂语义先验(例如对象可供性和场景组合)进行建模的需要 ...
由于数据采集不完整和视角改变等多种原因,缺失值仍然是深度数据在广泛应用中的常见挑战。这项工作通过 DepthLab 弥补了这一差距,DepthLab 是一种由图像扩散先验支持的基础深度修复模型。我们的模型具有两个显着的优点:(1)它表现出对深度不足区域的弹性,为连续区域和孤立点提供可靠的补全,(2)在填充缺失值时,它忠实地保持了与条件已知深度的尺度一致性 ...
3D 重建旨在恢复场景的密集 3D 结构。它在增强/虚拟现实(AR/VR)、自动驾驶和机器人等各种应用中发挥着重要作用。多视图立体 (MVS) 算法利用从不同视点捕获的场景的多个视图,合成全面的 3D 表示,从而能够在复杂环境中进行精确重建 ...
视觉里程计 (VO) 旨在根据视觉输入估计相机姿势,这是 VR/AR 和机器人等许多应用的基本构建模块。这项工作重点关注单目 RGB VO,其中输入是不带 IMU 或 3D 传感器的单目 RGB 视频。现有方法在这种具有挑战性的情况下缺乏鲁棒性,并且无法推广到看不见的数据(尤其是户外);他们也无法恢复公制尺度的姿势 ...
最近的 3D 生成模型通常依赖于有限规模的 3D“黄金标签”或 2D 扩散先验来创建 3D 内容。然而,由于缺乏可扩展的学习范式,它们的性能受到 3D 先验的限制。在这项工作中,我们提出了 See3D,这是一种视觉条件多视图扩散模型,在大规模互联网视频上进行训练,用于开放世界 3D 创作 ...
Mamba 正在成为一种克服计算机视觉中卷积神经网络 (CNN) 和视觉变换器 (ViT) 所面临挑战的新颖方法。虽然 CNN 擅长提取局部特征,但它们通常很难在不进行复杂架构修改的情况下捕获远程依赖关系。相比之下,ViT 可以有效地模拟全局关系,但由于其自注意力机制的二次复杂性,计算成本很高 ...
传统上,3D 室内数据集通常优先考虑尺度而不是地面实况精度,以获得改进的泛化能力。然而,使用这些数据集来评估密集几何任务(例如深度渲染)可能会出现问题,因为数据集的网格通常不完整,并且可能会产生错误的地面实况来评估细节。在本文中,我们提出了 SCRREAM,一个数据集注释框架,它允许对场景中对象的完全密集网格进行注释,并在真实图像序列上注册相机姿势,这可以为稀疏 3D 和密集 3D 任务生成准确的地面实况 ...