随着最近文本条件潜在扩散模型的出现,用户涂鸦的可控图像合成引起了公众的巨大兴趣。用户涂鸦控制颜色构成,而文本提示提供对整体图像语义的控制。然而,我们注意到这个方向的先前工作遇到了固有的域转移问题,其中生成的输出通常缺乏细节并且类似于目标域的简单表示。在本文中,我们提出了一种新颖的引导图像合成框架,该框架通过将输出图像建模为约束优化问题的解决方案来解决这个问题。我们表明,虽然计算优化的精确解是不可行的,但仅需要单遍反向扩散过程就可以实现相同的近似解。此外,我们表明,通过简单地定义输入文本标记和用户笔划绘画之间基于交叉注意的对应关系,用户还能够控制不同绘画区域的语义,而不需要任何条件训练或微调。人类用户研究结果表明,所提出的方法在总体用户满意度得分上优于之前最先进的方法 85.32% 以上。我们论文的项目页面可在此 https URL 上找到 ...
立体图像是众多应用的基础,包括扩展现实 (XR) 设备、自动驾驶和机器人技术。不幸的是,由于双摄像头设置的精确校准要求以及获取准确、密集视差图的复杂性,获取高质量立体图像仍然具有挑战性。现有的立体图像生成方法通常关注观看的视觉质量或匹配的几何精度,但不能同时关注两者。我们引入了 GenStereo,一种基于扩散的方法来弥补这一差距。该方法包括两项主要创新:(1) 在视差感知坐标嵌入和扭曲输入图像上调节扩散过程,从而实现比以前的方法更精确的立体对齐;(2) 自适应融合机制,将扩散生成的图像与扭曲图像智能地结合起来,提高真实感和视差一致性。通过对 11 个不同立体数据集的广泛训练,GenStereo 表现出了强大的泛化能力。 GenStereo 在立体图像生成和无监督立体匹配任务方面均实现了最先进的性能。项目页面可通过此 https URL 获取 ...
现有的深度估计方法从根本上仅限于预测离散图像网格上的深度。这种表示将其可扩展性限制为任意输出分辨率并阻碍几何细节恢复。本文介绍了 InfiniDepth,它将深度表示为神经隐式场。通过简单而有效的局部隐式解码器,我们可以查询连续二维坐标的深度,从而实现任意分辨率和细粒度的深度估计。为了更好地评估我们方法的能力,我们从五种不同的游戏中策划了高质量的 4K 合成基准,涵盖具有丰富几何和外观细节的不同场景。大量实验表明,InfiniDepth 在相对和度量深度估计任务的合成基准和现实基准上均实现了最先进的性能,尤其是在精细区域中表现出色。它还有利于在大视点变化下进行新颖的视图合成任务,从而产生具有更少孔洞和伪影的高质量结果 ...
单眼深度估计(MDE)旨在预测单个RGB图像的场景深度,并在3D场景的理解中起着至关重要的作用。零拍摄MDE的最新进展利用了标准化的深度表示和基于蒸馏的学习来改善各种场景的概括。但是,依靠全局归一化的蒸馏的当前深度归一化方法可以放大嘈杂的伪标记,从而降低蒸馏效果 ...
对沉浸式 3D 内容不断增长的需求需要自动单目到立体视频转换。我们提出了 Elastic3D,这是一种可控制的、直接的端到端方法,用于将传统视频升级为双眼视频。我们的方法基于(条件)潜在扩散,避免了由于显式深度估计和扭曲而产生的伪影。其高质量立体视频输出的关键是新颖的引导 VAE 解码器,可确保清晰且极线一致的立体视频输出。此外,我们的方法使用户可以通过直观的标量调谐旋钮在推理时控制立体声效果的强度(更准确地说,视差范围)。对现实世界立体视频的三个不同数据集的实验表明,我们的方法优于传统的基于变形的基线和最近的无变形基线,并为可靠、可控的立体视频转换设立了新标准。请检查项目页面以获取此 https URL 的视频示例 ...
最先进的监督立体匹配方法在各种基准测试中取得了显着的性能。然而,由于缺乏带注释的现实世界立体声数据,它们对现实世界场景的推广仍然具有挑战性。在本文中,我们提出了 ZeroStereo,一种用于零镜头立体匹配的新型立体图像生成管道。我们的方法利用单目深度估计模型生成的伪视差,从任意单张图像合成高质量的右图像。与之前通过用相邻像素或随机背景填充缺失区域来解决遮挡区域的方法不同,我们微调扩散修复模型以恢复缺失的细节,同时保留语义结构。此外,我们提出了免训练置信度生成(Training-Free Confidence Generation)和自适应视差选择(Adaptive Disparity Selection),前者可以减轻不可靠伪标签的影响,无需额外训练,后者可以确保多样化且真实的视差分布,同时防止过度遮挡和前景失真。实验表明,使用我们的管道训练的模型可以在多个数据集上实现最先进的零样本泛化,而数据集量仅与场景流相当。代码:此 https URL ...
随着制造商推出更多 XR 设备,对立体图像的需求也在增加。为了满足这一需求,我们引入了 StereoDiffusion,这种方法与传统的修复管道不同,无需训练,使用起来非常简单,并且可以无缝集成到原始的稳定扩散模型中。我们的方法修改了潜在变量,以提供端到端的轻量级功能,用于快速生成立体图像对,而不需要微调模型权重或任何图像后处理。使用原始输入生成左图像并估计其视差图,我们通过立体像素移位操作生成右图像的潜在向量,并辅以对称像素移位掩模去噪和自注意力层修改方法,以将右侧图像与左侧图像对齐。此外,我们提出的方法在整个立体生成过程中保持了高标准的图像质量,在各种定量评估中取得了最先进的分数 ...
VR 耳机和 3D 影院等立体显示器的快速增长导致对高质量立体视频内容的需求不断增加。然而,制作 3D 视频仍然成本高昂且复杂,而自动单目到立体转换则受到多级“深度扭曲修复”(DWI) 管道的限制的阻碍。这种范例存在错误传播、深度模糊以及并行和聚合立体声配置之间格式不一致的问题。为了应对这些挑战,我们引入了 UniStereo,这是第一个用于立体视频转换的大规模统一数据集,涵盖两种立体格式,以实现公平的基准测试和强大的模型训练。在此数据集的基础上,我们提出了 StereoPilot,这是一种高效的前馈模型,可以直接合成目标视图,而不依赖于显式深度图或迭代扩散采样。 StereoPilot 配备了可学习的域切换器和循环一致性损失,可无缝适应不同的立体声格式并提高一致性。大量实验表明,StereoPilot 在视觉保真度和计算效率方面均显着优于最先进的方法。项目页面:此 https URL ...
视频生成模型已经展示了生成令人印象深刻的单眼视频的强大能力,但是 3D 立体视频的生成仍处于探索之中。我们提出了一种无需姿势且无需训练的方法,使用现成的单目视频生成模型生成 3D 立体视频。我们的方法使用估计的视频深度将生成的单目视频变形为立体基线上的摄像机视图,并采用新颖的帧矩阵视频修复框架。该框架利用视频生成模型来修复从不同时间戳和视图观察到的帧。这种有效的方法无需场景优化或模型微调即可生成一致且语义连贯的立体视频。此外,我们开发了一种去除遮挡边界重新注入方案,通过减轻潜在空间中去除遮挡区域传播的负面影响,进一步提高视频修复的质量。我们通过对各种生成模型的视频进行实验来验证我们提出的方法的有效性,包括 Sora [4]、Lumiere [2]、WALT [8] 和 Zeroscope [42]。实验表明我们的方法比以前的方法有显着的改进。代码将在 \url{此 https URL} 发布 ...
本文介绍了 Stereo Any Video,这是一个强大的视频立体匹配框架。它可以估计空间精确且时间一致的视差,而不依赖于相机姿态或光流等辅助信息。这种强大的能力是由单目视频深度模型的丰富先验驱动的,这些先验与卷积特征相结合以产生稳定的表示。为了进一步提高性能,引入了关键的架构创新:所有对所有对的相关性,可构建平滑且稳健的匹配成本量,以及时间凸上采样,可提高时间一致性。这些组件共同确保了鲁棒性、准确性和时间一致性,为视频立体匹配树立了新标准。大量的实验表明,我们的方法在零样本设置下在多个数据集上定性和定量地实现了最先进的性能,并且对现实世界的室内和室外场景具有很强的泛化性 ...