jevonhhh的文档

StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

本文提出了一种将 2D 视频转换为沉浸式立体 3D 的新颖框架，满足沉浸式体验中对 3D 内容不断增长的需求。我们的方法利用基础模型作为先验，克服了传统方法的局限性并提高了性能，以确保显示设备所需的高保真生成。所提出的系统由两个主要步骤组成：用于扭曲和提取遮挡掩模的基于深度的视频泼溅，以及立体视频修复。我们利用预先训练的稳定视频扩散作为骨干，并为立体视频修复任务引入微调协议。为了处理不同长度和分辨率的输入视频，我们探索了自回归策略和平铺处理。最后，开发了一个复杂的数据处理管道来重建大规模、高质量的数据集以支持我们的训练。我们的框架展示了 2D 到 3D 视频转换的显着改进，为为 Apple Vision Pro 和 3D 显示器等 3D 设备创建沉浸式内容提供了实用的解决方案。总之，这项工作通过提出一种从单眼输入生成高质量立体视频的有效方法对该领域做出了贡献，有可能改变我们体验数字媒体的方式 ...

0 0 0 0 2025/12/15 arXiv:2409.07447v1 jevonhhh

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

XR 设备的日益普及推动了对高质量立体视频的强劲需求，但其生产成本仍然很高且容易出现伪影。为了应对这一挑战，我们提出了 StereoWorld，这是一个端到端框架，它重新利用预训练的视频生成器来生成高保真单目到立体视频。我们的框架在单目视频输入上联合调节模型，同时通过几何感知正则化明确监督生成，以确保 3D 结构保真度。进一步集成时空切片方案，以实现高效、高分辨率的合成。为了实现大规模训练和评估，我们策划了一个高清立体视频数据集，其中包含超过 11M 帧，与自然人类瞳距 (IPD) 对齐。大量实验表明，StereoWorld 的性能大大优于现有方法，可生成具有卓越视觉保真度和几何一致性的立体视频。项目网页可通过此 https URL 获取 ...

0 0 0 0 2025/12/15 arXiv:2512.09363v2 jevonhhh

BoRe-Depth: Self-supervised Monocular Depth Estimation with Boundary Refinement for Embedded Systems

深度估计是无人系统中实现3D感知的关键技术之一。单目深度估计因其低成本优势而被广泛研究，但现有方法在嵌入式系统上面临着深度估计性能差和物体边界模糊的挑战。在本文中，我们提出了一种新颖的单目深度估计模型 BoRe-Depth，它仅包含 870 万个参数。它可以准确估计嵌入式系统上的深度图并显着提高边界质量。首先，我们设计了增强型特征自适应融合模块（EFAF），它自适应地融合深度特征以增强边界细节表示。其次，我们将语义知识融入编码器中，以提高物体识别和边界感知能力。最后，BoRe-Depth 部署在 NVIDIA Jetson Orin 上，并以 50.7 FPS 的速度高效运行。我们证明，所提出的模型在多个具有挑战性的数据集上显着优于以前的轻量级模型，并且我们为所提出的方法提供了详细的消融研究。该代码可从此 https URL 获取 ...

0 0 0 0 2025/12/05 arXiv:2511.04388v1 jevonhhh

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Depth Anything在单目深度估计方面取得了显着的成功，具有很强的泛化能力。然而，它存在视频时间不一致的问题，阻碍了其实际应用。人们已经提出了各种方法来通过利用视频生成模型或引入光流和相机姿势的先验来缓解这个问题。尽管如此，这些方法仅适用于短视频(< 10 秒），并且需要在质量和计算效率之间进行权衡。我们提出 Video Depth Anything，以在不牺牲效率的情况下对超长视频（超过几分钟）进行高质量、一致的深度估计。我们的模型基于 Depth Anything V2，并用高效的时空头部替换其头部。我们通过限制时间深度梯度来设计一种简单而有效的时间一致性损失，从而消除了对额外几何先验的需要。该模型在视频深度和未标记图像的联合数据集上进行训练，类似于 Depth Anything V2。此外，还为长视频推理开发了一种新颖的基于关键帧的策略。实验表明，我们的模型可以应用于任意长的视频，而不会影响质量、一致性或泛化能力。对多个视频基准的综合评估表明，我们的方法在零镜头视频深度估计方面树立了新的最先进技术。我们提供不同规模的模型来支持各种场景，最小的模型能够实现 30 FPS 的实时性能 ...

0 0 0 0 2025/11/24 arXiv:2501.12375v3 jevonhhh

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution

多功能视频深度估计模型应该（1）跨帧准确且一致，（2）生成高分辨率深度图，以及（3）支持实时流。我们提出了 FlashDepth，这是一种满足所有三个要求的方法，可以对 24 FPS 的 2044x1148 流视频执行深度估计。我们表明，通过对预训练的单图像深度模型进行仔细修改，这些功能可以通过相对较少的数据和训练来实现。我们针对最先进的深度模型在多个未见过的数据集上评估我们的方法，发现我们的方法在边界锐度和速度方面明显优于它们，同时保持有竞争力的准确性。我们希望我们的模型能够支持需要高分辨率深度的各种应用，例如视频编辑和在线决策，例如机器人技术。我们在此 https URL 发布所有代码和模型权重 ...

0 0 0 0 2025/11/20 arXiv:2504.07093v2 jevonhhh

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

本文提出了 Pixel-Perfect Depth，这是一种基于像素空间扩散生成的单目深度估计模型，可从估计的深度图生成高质量、无飞行像素的点云。当前的生成深度估计模型对稳定扩散进行了微调，并取得了令人印象深刻的性能。然而，它们需要 VAE 将深度图压缩到潜在空间，这不可避免地在边缘和细节处引入 \textit{飞行像素}。我们的模型通过直接在像素空间中执行扩散生成来解决这一挑战，避免 VAE 引起的伪影。为了克服与像素空间生成相关的高复杂性，我们引入了两种新颖的设计：1）语义提示扩散变换器（SP-DiT），它将视觉基础模型的语义表示合并到 DiT 中以促进扩散过程，从而保持全局语义一致性，同时增强细粒度的视觉细节； 2）级联DiT设计，逐步增加 Token 数量，进一步提高效率和准确性。我们的模型在五个基准测试中实现了所有已发布的生成模型中的最佳性能，并且在边缘感知点云评估中显着优于所有其他模型 ...

0 0 0 0 2025/11/11 arXiv:2510.07316v2 jevonhhh

StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

BoRe-Depth: Self-supervised Monocular Depth Estimation with Boundary Refinement for Embedded Systems

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors

Video Depth without Video Models

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation