本文提出了一种将 2D 视频转换为沉浸式立体 3D 的新颖框架,满足沉浸式体验中对 3D 内容不断增长的需求。我们的方法利用基础模型作为先验,克服了传统方法的局限性并提高了性能,以确保显示设备所需的高保真生成。所提出的系统由两个主要步骤组成:用于扭曲和提取遮挡掩模的基于深度的视频泼溅,以及立体视频修复。我们利用预先训练的稳定视频扩散作为骨干,并为立体视频修复任务引入微调协议。为了处理不同长度和分辨率的输入视频,我们探索了自回归策略和平铺处理。最后,开发了一个复杂的数据处理管道来重建大规模、高质量的数据集以支持我们的训练。我们的框架展示了 2D 到 3D 视频转换的显着改进,为为 Apple Vision Pro 和 3D 显示器等 3D 设备创建沉浸式内容提供了实用的解决方案。总之,这项工作通过提出一种从单眼输入生成高质量立体视频的有效方法对该领域做出了贡献,有可能改变我们体验数字媒体的方式 ...

0 0 0 0 2025/12/15 arXiv:2409.07447v1 jevonhhh

XR 设备的日益普及推动了对高质量立体视频的强劲需求,但其生产成本仍然很高且容易出现伪影。为了应对这一挑战,我们提出了 StereoWorld,这是一个端到端框架,它重新利用预训练的视频生成器来生成高保真单目到立体视频。我们的框架在单目视频输入上联合调节模型,同时通过几何感知正则化明确监督生成,以确保 3D 结构保真度。进一步集成时空切片方案,以实现高效、高分辨率的合成。为了实现大规模训练和评估,我们策划了一个高清立体视频数据集,其中包含超过 11M 帧,与自然人类瞳距 (IPD) 对齐。大量实验表明,StereoWorld 的性能大大优于现有方法,可生成具有卓越视觉保真度和几何一致性的立体视频。项目网页可通过此 https URL 获取 ...

0 0 0 0 2025/12/15 arXiv:2512.09363v2 jevonhhh

深度估计是无人系统中实现3D感知的关键技术之一。单目深度估计因其低成本优势而被广泛研究,但现有方法在嵌入式系统上面临着深度估计性能差和物体边界模糊的挑战。在本文中,我们提出了一种新颖的单目深度估计模型 BoRe-Depth,它仅包含 870 万个参数。它可以准确估计嵌入式系统上的深度图并显着提高边界质量。首先,我们设计了增强型特征自适应融合模块(EFAF),它自适应地融合深度特征以增强边界细节表示。其次,我们将语义知识融入编码器中,以提高物体识别和边界感知能力。最后,BoRe-Depth 部署在 NVIDIA Jetson Orin 上,并以 50.7 FPS 的速度高效运行。我们证明,所提出的模型在多个具有挑战性的数据集上显着优于以前的轻量级模型,并且我们为所提出的方法提供了详细的消融研究。该代码可从此 https URL 获取 ...

0 0 0 0 2025/12/05 arXiv:2511.04388v1 jevonhhh

Depth Anything在单目深度估计方面取得了显着的成功,具有很强的泛化能力。然而,它存在视频时间不一致的问题,阻碍了其实际应用。人们已经提出了各种方法来通过利用视频生成模型或引入光流和相机姿势的先验来缓解这个问题。尽管如此,这些方法仅适用于短视频(< 10 秒),并且需要在质量和计算效率之间进行权衡。我们提出 Video Depth Anything,以在不牺牲效率的情况下对超长视频(超过几分钟)进行高质量、一致的深度估计。我们的模型基于 Depth Anything V2,并用高效的时空头部替换其头部。我们通过限制时间深度梯度来设计一种简单而有效的时间一致性损失,从而消除了对额外几何先验的需要。该模型在视频深度和未标记图像的联合数据集上进行训练,类似于 Depth Anything V2。此外,还为长视频推理开发了一种新颖的基于关键帧的策略。实验表明,我们的模型可以应用于任意长的视频,而不会影响质量、一致性或泛化能力。对多个视频基准的综合评估表明,我们的方法在零镜头视频深度估计方面树立了新的最先进技术。我们提供不同规模的模型来支持各种场景,最小的模型能够实现 30 FPS 的实时性能 ...

0 0 0 0 2025/11/24 arXiv:2501.12375v3 jevonhhh

多功能视频深度估计模型应该(1)跨帧准确且一致,(2)生成高分辨率深度图,以及(3)支持实时流。我们提出了 FlashDepth,这是一种满足所有三个要求的方法,可以对 24 FPS 的 2044x1148 流视频执行深度估计。我们表明,通过对预训练的单图像深度模型进行仔细修改,这些功能可以通过相对较少的数据和训练来实现。我们针对最先进的深度模型在多个未见过的数据集上评估我们的方法,发现我们的方法在边界锐度和速度方面明显优于它们,同时保持有竞争力的准确性。我们希望我们的模型能够支持需要高分辨率深度的各种应用,例如视频编辑和在线决策,例如机器人技术。我们在此 https URL 发布所有代码和模型权重 ...

0 0 0 0 2025/11/20 arXiv:2504.07093v2 jevonhhh

本文提出了 Pixel-Perfect Depth,这是一种基于像素空间扩散生成的单目深度估计模型,可从估计的深度图生成高质量、无飞行像素的点云。当前的生成深度估计模型对稳定扩散进行了微调,并取得了令人印象深刻的性能。然而,它们需要 VAE 将深度图压缩到潜在空间,这不可避免地在边缘和细节处引入 \textit{飞行像素}。我们的模型通过直接在像素空间中执行扩散生成来解决这一挑战,避免 VAE 引起的伪影。为了克服与像素空间生成相关的高复杂性,我们引入了两种新颖的设计:1)语义提示扩散变换器(SP-DiT),它将视觉基础模型的语义表示合并到 DiT 中以促进扩散过程,从而保持全局语义一致性,同时增强细粒度的视觉细节; 2)级联DiT设计,逐步增加 Token 数量,进一步提高效率和准确性。我们的模型在五个基准测试中实现了所有已发布的生成模型中的最佳性能,并且在边缘感知点云评估中显着优于所有其他模型 ...

0 0 0 0 2025/11/11 arXiv:2510.07316v2 jevonhhh

图像介绍涉及填补损坏图像的缺失区域。尽管最近取得了令人印象深刻的结果,但还恢复具有生动纹理和合理结构的图像仍然是一个重大挑战。先前的方法主要解决了正常纹理,同时由于卷积神经网络(CNN)的接受田而忽略了整体结构 ...

0 0 0 0 2025/08/12 arXiv:2210.05950v3 jevonhhh

视频深度估计通过在每个框架上推断密度深度来将单眼视频剪辑提升到3D。大型基础模型的兴起以及合成训练数据的使用引起了对视频深度的新兴趣,这是由于大型基础模型的兴起和使用合成训练数据所带来的最新进展。但是,天真地将单图像深度估计器应用于视频的每个帧无视时间连续性,这不仅会导致闪烁,而且当摄像机运动导致深度范围的突然变化时,可能会破裂 ...

0 0 0 0 2025/05/22 arXiv:2411.19189v2 jevonhhh

单眼深度估计(MDE)旨在预测单个RGB图像的场景深度,并在3D场景的理解中起着至关重要的作用。零拍摄MDE的最新进展利用了标准化的深度表示和基于蒸馏的学习来改善各种场景的概括。但是,依靠全局归一化的蒸馏的当前深度归一化方法可以放大嘈杂的伪标记,从而降低蒸馏效果 ...

0 0 0 0 2025/04/08 arXiv:2502.19204v1 jevonhhh

我们引入了 Metric3D v2,这是一种用于从单个图像进行零样本度量深度和表面法线估计的几何基础模型,这对于度量 3D 恢复至关重要。虽然深度和法线在几何上是相关的并且高度互补,但它们提出了独特的挑战。 SoTA 单目深度方法通过学习仿射不变深度来实现零样本泛化,但无法恢复真实世界的度量 ...

0 0 0 0 2025/03/10 arXiv:2404.15506v4 jevonhhh