我们建议通过使用合成数据进行训练来扩大 3D 场景重建规模。我们工作的核心是 MegaSynth,这是一个程序生成的 3D 数据集,包含 700K 个场景 - 比之前的真实数据集 DL3DV 大 50 倍以上 - 极大地扩展了训练数据。为了实现可扩展的数据生成,我们的关键思想是消除语义信息,消除对复杂语义先验(例如对象可供性和场景组合)进行建模的需要 ...
由于数据采集不完整和视角改变等多种原因,缺失值仍然是深度数据在广泛应用中的常见挑战。这项工作通过 DepthLab 弥补了这一差距,DepthLab 是一种由图像扩散先验支持的基础深度修复模型。我们的模型具有两个显着的优点:(1)它表现出对深度不足区域的弹性,为连续区域和孤立点提供可靠的补全,(2)在填充缺失值时,它忠实地保持了与条件已知深度的尺度一致性 ...
3D 重建旨在恢复场景的密集 3D 结构。它在增强/虚拟现实(AR/VR)、自动驾驶和机器人等各种应用中发挥着重要作用。多视图立体 (MVS) 算法利用从不同视点捕获的场景的多个视图,合成全面的 3D 表示,从而能够在复杂环境中进行精确重建 ...
视觉里程计 (VO) 旨在根据视觉输入估计相机姿势,这是 VR/AR 和机器人等许多应用的基本构建模块。这项工作重点关注单目 RGB VO,其中输入是不带 IMU 或 3D 传感器的单目 RGB 视频。现有方法在这种具有挑战性的情况下缺乏鲁棒性,并且无法推广到看不见的数据(尤其是户外);他们也无法恢复公制尺度的姿势 ...
最近的 3D 生成模型通常依赖于有限规模的 3D“黄金标签”或 2D 扩散先验来创建 3D 内容。然而,由于缺乏可扩展的学习范式,它们的性能受到 3D 先验的限制。在这项工作中,我们提出了 See3D,这是一种视觉条件多视图扩散模型,在大规模互联网视频上进行训练,用于开放世界 3D 创作 ...
Mamba 正在成为一种克服计算机视觉中卷积神经网络 (CNN) 和视觉变换器 (ViT) 所面临挑战的新颖方法。虽然 CNN 擅长提取局部特征,但它们通常很难在不进行复杂架构修改的情况下捕获远程依赖关系。相比之下,ViT 可以有效地模拟全局关系,但由于其自注意力机制的二次复杂性,计算成本很高 ...
传统上,3D 室内数据集通常优先考虑尺度而不是地面实况精度,以获得改进的泛化能力。然而,使用这些数据集来评估密集几何任务(例如深度渲染)可能会出现问题,因为数据集的网格通常不完整,并且可能会产生错误的地面实况来评估细节。在本文中,我们提出了 SCRREAM,一个数据集注释框架,它允许对场景中对象的完全密集网格进行注释,并在真实图像序列上注册相机姿势,这可以为稀疏 3D 和密集 3D 任务生成准确的地面实况 ...
本文介绍了 SuperGlue,一种神经网络,它通过共同寻找对应点并拒绝不可匹配的点来匹配两组局部特征。通过解决可微的最优传输问题来估计分配,其成本由图神经网络预测。我们引入了一种基于注意力的灵活上下文聚合机制,使 SuperGlue 能够联合推理底层 3D 场景和特征分配 ...
我们提出了 GSD,一种基于高斯分布 (GS) 表示的扩散模型方法,用于从单个视图重建 3D 对象。之前的作品由于表示不当而存在 3D 几何不一致或渲染质量平庸的问题。我们通过利用最近最先进的 3D 显式表示、高斯分布和无条件扩散模型,朝着解决这些缺点迈出了一步 ...
真实的对象交互对于创建沉浸式虚拟体验至关重要,但合成真实的 3D 对象动态以响应新颖的交互仍然是一项重大挑战。与无条件或文本条件动力学生成不同,动作条件动力学需要感知对象的物理材料属性,并将 3D 运动预测建立在这些属性(例如对象刚度)的基础上。然而,由于缺乏材料的真实数据,估计物理材料属性是一个悬而未决的问题,因为测量真实物体的这些属性非常困难 ...