(eccv) Package eccv Warning: Package ‘hyperref’ is loaded with option ‘pagebackref’, which is *not* recommended for camera-ready version

1 1institutetext: Inria, Univ. Rennes, CNRS, IRISA, M2S, France

GeoTransfer: Generalizable Few-Shot Multi-View Reconstruction via Transfer Learning

Shubhendu Jena Inria, Univ. Rennes, CNRS, IRISA, M2S, France    Franck Multon Inria, Univ. Rennes, CNRS, IRISA, M2S, France    Adnane Boukhayma Inria, Univ. Rennes, CNRS, IRISA, M2S, France
摘要

本文提出了一种利用神经辐射场 (NeRFs) [35] 的表达能力和快速特征迁移来学习精确占用场的稀疏 3D 重建新方法。 现有从稀疏输入进行 3D 重建的方法在捕捉复杂的几何细节方面仍然很困难,并且在处理遮挡区域方面存在局限性。 另一方面,NeRFs [35] 在对复杂场景建模方面表现出色,但没有提供提取有意义几何的方法。 我们提出的方法通过将编码在 NeRF [35] 特征中的信息迁移到推导出精确占用场表示,从而兼顾了两种方法的优点。 我们利用一个预训练的、可泛化的最先进的 NeRF 网络 [18] 来捕获详细的场景辐射信息,并快速将这些知识迁移到训练一个可泛化的隐式占用网络。 此过程有助于利用编码在可泛化的 NeRF [18] 先验中的场景几何知识,并将其细化以学习占用场,从而促进更精确的可泛化 3D 空间表示。 转移学习方法通过数量级地减少训练时间(i.e. 从几天到 3.5 小时),从而避免了从头开始训练可泛化的稀疏表面重建方法的需要。 此外,我们引入了一种关于体积渲染权重的新的损失,它有助于学习精确的占用场,以及一个法线损失,它有助于占用场的全局平滑。 我们在 DTU 数据集 [1] 上评估了我们的方法,并在重建精度方面展示了 最先进的性能,尤其是在具有稀疏输入数据和遮挡区域的具有挑战性的情况下。 我们进一步通过在 Blended MVS [59] 数据集上展示定性结果来证明我们方法的泛化能力,而无需任何重新训练。 项目页面: geotransfer.github.io

关键词:
3D 重建 体积渲染 稀疏视图

1 引言

从一组图像中创建三维结构是计算机视觉领域的一项基本任务,在机器人、增强现实和虚拟现实等领域有着广泛的应用。 解决这个问题的第一批有影响力的深度学习方法使用了多视图立体技术 (MVS),如 MVSNet [58] 及其后续方法 [57, 14, 50, 10] 所示。 这些方法基于相机视锥体构建 3D 成本体积,偏离传统的欧几里得空间,以实现准确的深度图估计。 但是,它们通常需要后续步骤,如深度图滤波、融合和网格重建,并且容易受到噪声、无纹理区域和间隙的影响。

与依赖于显式表示(例如 网格 [51, 19, 16] 和点云 [12, 2, 21])的开创性工作不同,神经隐式重建方法 [60, 52, 38, 37, 8] 构成另一种流行的策略来解决这一挑战,通过使用体积渲染和基于符号距离函数 (SDF) [44] 及其变体的 神经隐式表示,从多视图图像创建精确且逼真的几何图形。
然而,尽管这些方法很有效,但它们也存在着固有的局限性,包括缺乏跨场景泛化能力,以及需要大量的计算资源来从头开始训练每个场景。 此外,这些技术在很大程度上依赖于大量的输入视图。 然而,由于许多受限场景(例如 非工作室环境、低预算、等等)以及为了更广泛的适用性,人们对寻找在最小输入下也能提供解决方案的方法产生了浓厚的兴趣。

为了解决这些问题,最近的研究,在新型视图合成 [18, 56, 36] 和 3D 重建 [47, 29, 26] 的背景下,通过依靠跨多个训练场景的学习数据先验,通过可泛化的编码器从稀疏输入图像中获得的空间局部特征对隐式表示进行条件化,从而寻求解决方案。
这种方法已被证明在实现显着的跨场景泛化能力方面是有效的,即使输入是稀疏视图。 与我们方法最相关的是 GeoNeRF [18],它构建了一个成本体积,以实现几何感知场景推理,然后进行基于注意力的视图聚合和体积渲染,以学习场景的辐射场。

在本文中,与同时期的研究不同,我们探讨了使用这种预先存在的可泛化的最先进的 NeRF 通过迁移学习获得场景重建的想法。
在这种情况下,我们表明,在我们的场景由固体、非透明物体组成的假设下,可以快速地将从 GeoNeRF [18] 的密度场获得的可泛化的依赖于采样的不透明度转换为可泛化的独立于采样的占用。 此策略还将训练时间从几天缩短到几个小时,从而消除了从头开始训练可泛化稀疏重建方法 [47, 29, 26] 的必要性。 除了基于表面法线的平滑损失外,我们还引入了一种新颖的体积渲染权重损失,以进一步细化我们的占用场,从而在 DTU 数据集 [1] 上实现了稀疏 3D 重建的最新结果,无需任何测试时优化,并且在此过程中优于当前最新的可泛化基于 SDF 的 3D 重建网络 [47, 29, 26]

总之,我们的贡献可以概括为:

  • 我们探索了一种新颖的策略,通过迁移和微调其特征,快速适应现有的最先进的可泛化 NeRF 方法,以获得可泛化的占用网络。 这使得 DTU [1] 上从稀疏视图 1 重建的性能达到最先进水平。

  • 训练时长从几天缩短到几个小时,同时实现了最先进的性能,消除了从头开始训练计算密集型稀疏可泛化表面重建技术的必要性。

  • 在我们用于迁移学习框架的损失中,我们提出了一种新颖的体积渲染权重损失,以在体积渲染框架中施加理想占用场所遵循的属性,从而导致学习更准确的占用函数 (6)。

2 相关工作

在 3D 重建领域,存在大量关于该主题的工作,我们在这里回顾了我们认为与我们贡献的背景最相关的工作。

神经表面重建。 在神经表面重建领域,利用神经隐式表示能够将 3D 几何体描绘为连续函数,这些函数可以在任意空间位置计算。 由于它们能够以紧凑且高效的方式表示复杂且详细的形状,这些表示在 3D 重建 [62, 8, 17, 20, 37, 38, 52, 60, 61, 64]、形状表示 [3, 13, 33, 44] 和新视图合成 [27, 35, 49] 等任务中展现出巨大的潜力。 NeRF [35] 的出现,引发了将类似技术用于这些任务的范式发生了重大转变。 IDR [61] 利用表面渲染从多视图图像中获取几何体,但需要额外的对象掩码。 Unisurf [38],与我们的工作最相关,使用占用网络对 NeRF [35] 的局部不透明度进行建模,这使他们能够在包括 LLFF [34] 等涉及正向场景的多个数据集上进行训练。 不同的是,一些方法试图使用有符号距离函数 (SDF) 及其变体来重写 NeRF [35] 中的密度函数,从而成功地实现了合理的几何形状。 重要的是,NeuS [52] 通过使用逻辑 sigmoid 函数,制定了一个无偏且考虑遮挡的体积权重函数方程。 相反,Volsdf [60] 将有符号距离函数纳入密度公式,并引入了一种采样策略,该策略满足透明度函数上的确定误差界限。 HF-NeuS [54] 通过将透明度建模为估计有符号距离场的变换,改进了 NeuS [52],并建议将有符号距离函数分解为一个基础函数和一个位移函数,并采用粗到细的策略逐步增加高频细节。 这些方法为从 2D 图像进行多视图 3D 重建提供了一种稳健的方法。 但是,这些方法需要长时间的优化才能独立地训练每个场景,并且还需要大量的密集图像,这使得泛化到未知场景具有挑战性,并限制了部署。
可泛化 NeRF。 一些最近的方法 [9, 36, 55, 15, 22, 25, 62] 在单个场景中使用稀疏视图合成新视图,尽管在理解场景的潜在几何形状方面存在困难,他们试图使用几种基于几何的正则化策略来解决这个问题 [43, 40, 13, 4] 为了尝试解决这个问题,某些方法 [6, 18, 7, 28, 53, 24, 63] 通过泛化方法在未知场景中生成新视图,在稀疏视图上构建神经辐射场。 这些方法可以在训练多个已知场景后,无需微调即可推断未知场景,这涉及将从在多视图图像数据集上训练的更大模型中获得的先验信息整合在一起。 在这些方法中,PixelNeRF [63] 本身受 CNN 提取的特征的条件约束。 MVSNeRF [6] 通过扭曲图像特征获得的成本体积构建一个神经体积,并受此神经体积的条件约束。 IBRNet [53] 聚合来自附近视图的特征以推断几何形状,并采用基于图像的渲染方法。 NeuRay [28] 利用神经网络来建模和处理遮挡,从而提高基于图像的渲染的质量和准确性。 GeoNeRF [18] 是另一种最近的方法,也是我们所基于的方法,它使用级联成本体积和基于注意力的技术来聚合来自不同视图的信息。 然而,从这些基于 NeRF [35] 的方法的体积密度推导出场景几何形状,涉及对密度阈值的仔细调整,由于密度场中的固有模糊性,导致了伪影,正如 Unisurf [38] 中之前指出的那样。
可泛化神经表面重建。 点云输入模型 [46, 5, 39, 42, 41] 通常使用 SDF 真实值监督进行训练。 为了从稀疏图像中获得具有精确水平集的 3D 重建,目前的方法将可泛化的 NeRF 与基于符号距离函数 (SDF) 的变换函数结合在一起,这些函数对体积密度进行建模,从而实现体积渲染。 在这些方法中,SparseNeuS [29] 和 VolRecon [47] 都通过利用源图像中的信息作为先验来实现可泛化的神经表面重建。 SparseNeuS [29] 通过使用规则欧几里得体积来编码几何信息,而 VolRecon [47] 通过视图变换器引入多视图图像特征来推进这种方案。 最近的 ReTR [26] 工作利用混合提取器来获得多级欧几里得体积,然后使用重建变换器来提高性能。 与这些方法相反,我们采用基于 Unisurf [38] 的体积渲染框架,该框架通过预测占用率来重建表面,从而能够将来自预训练的 GeoNeRF [18] 的不透明度信息无缝转移到学习精炼的占用率场。

3 方法

Refer to caption
图 1: 我们迁移学习的概述:我们的最终模型(浅蓝色)由调优后的图像编码器 Ψ 和隐式占用和颜色解码器 fog𝕔 组成。 编码器 Ψ、颜色解码器 g𝕔 和密度解码器 gσ 被初始化为预训练的可泛化 NeRF。 红色虚线表示我们的调优损失。 我们在我们的占用率 fo 上应用多个正则化,同时使用密度和占用率引导的体积渲染来调整网络。

我们的目标是从稀疏的图像数组中获得前馈可泛化的 3D 重建网络。 即,此网络 (e.g. fo) 应该能够从观测到的图像 {Ii}i=1N 及其测试场景的校准 {πi}i=1N(在训练中未见过)中提供隐式形状表示,i.e. 例如二进制形状占用率场,而无需对该新场景进行任何优化。 推断出的形状 𝒮^ 可以作为学习到的占用率 fo 的水平集获得:

𝒮^={𝕩3fo(𝕩)=0.5}. (1)

实际上,通过查询神经网络 fo,可以使用 Marching Cubes 算法 [30] 获取 𝒮^ 的显式三角形网格。 我们建议采用现有的可泛化 NeRF 模型来实现这一目的。 我们选择名为 GeoNeRF [18] 的模型,不失一般性,因为它是在可泛化的新视图合成方面表现最好的模型之一。

可泛化 NeRF 模型

𝕣 为一条射线,. 𝕣(t)=𝕠+t𝕕,其中 𝕠 为相机原点,𝕕 为射线方向。 与射线 𝕣 相对应的像素颜色 C 可以通过沿射线积分来生成:

C(𝕣) =T(t)σ(𝕣(t))𝕔(𝕣(t),𝕕)𝑑t (2)
=w(t)𝕔(𝕣(t),𝕕)𝑑t. (3)

在上面的等式中,σ(𝕣(t)) 表示体积密度,它表示一个微分不透明度,表示通过点 𝕣(t) 的射线累积的辐射量。 T(t) 表示透明度,. 沿射线直至 t 的累积透射率,可以根据密度得出:

T(t)=exp(tσ(𝕣(s))𝑑s). (4)

此外,w(t) 通常被称为体积渲染加权函数。

在实践中,方程式 3 中的积分是使用离散样本 {ti} 和正交规则 [32] 近似计算的。 这导致了类似于 α 合成的方程,其中 α 表示不透明度,它控制场景中每个点吸收或传输的辐射量。 这导致了:

Cσ(𝕣) =iTi(1eσi(ti+1ti))𝕔(𝕣(ti),𝕕) (5)
=ij=0i1(1αj)αi𝕔(𝕣(ti),𝕕) (6)

其中 αi=1exp(σi(ti+1ti))

可泛化 NeRF 通常由一个编码器网络 (例如. Ψ) 组成,该网络生成空间局部特征。 这些特征随后被一个密度网络 (MLP) (例如. gσ) 和一个视角方向相关的颜色网络 (MLP) (例如. g𝕔) 映射。 (参见.1)。 推理是通过如上所示的体积渲染实现的。 因此,用于此渲染的颜色和密度如下建模:

𝕔(𝕣(t),𝕕) =gσ(Ψ(𝕣(t),{Ii}),𝕕) (7)
σ(𝕣(t)) =g𝕔(Ψ(𝕣(t),{Ii})). (8)

适应可泛化的 NeRF 模型

在测试时,可以通过对密度函数进行阈值处理来从 NeRF [35] 模型中提取几何信息,该密度函数与视图和采样无关。 但是,如何选择阈值尚不清楚,获得的几何信息往往存在噪声且不准确,相对于真实值而言,其 Chamfer 误差很高。

虽然不透明度是 NeRF [35] 中最接近占用率的度量,但在体积渲染框架中定义的不透明度与视图和射线采样有关。 因此,如何从其中提取仅与空间相关的几何信息尚不清楚。

然而,为了使可泛化的 NeRF 能够对 3D 进行正确推理以实现准确的新视图合成,我们假设它们必须包含一个良好的几何形状的高级表示,该表示本身可以被引导到准确且平滑的形状表示。 基于此,我们建议将可泛化的 NeRF(即 GeoNeRF [18])调整为可泛化的占用模型,该模型在收敛时提供与视图和射线采样无关的几何信息。

我们定义了一个新的 Sigmoid 激活的隐式解码器 fo,它将在特征空间中表示占用率场:

o(𝕣(t))=fo(Ψ(𝕣(t),{Ii}) (9)

我们建议调整编码器 Ψ 以使特征空间适应此新的预测任务。 这可以看作是一种迁移学习的形式。 由于这种调整是通过体积渲染实现的,因此我们使用基线模型颜色网络 (𝕔:=g𝕔) 来执行 fo 的体积渲染:

Co(𝕣)=ij=0i1(1oj)oi𝕔(𝕣(ti),𝕕). (10)

颜色网络 g𝕔 已使用体积渲染中基于密度的权重函数进行预训练。 因此,将其调整到这种新的基于占用率的渲染至关重要。 此外,由于我们也希望我们的初始可泛化的 NeRF 不要偏离其原始权重太多,因此不会丢失其原始知识,因此我们通过反向传播基于占用率的体积渲染损失和基于密度的原始体积渲染损失来进行训练:

volo(𝕣) =Co(𝕣)CGT(𝕣)2 (11)
volσ(𝕣) =Cσ(𝕣)CGT(𝕣)2. (12)

我们还保留了 GeoNeRF [18] 中的几何推理器使用的深度监督,如果可用,则使用真实深度,否则使用其自监督深度损失。 基于假设固体物体,α 成为一个离散占用指示器变量 o{0,1},它在自由空间中取值 o=0,在占用空间中取值 o=1,我们在训练开始时的几个迭代中用密度分支的 α 预测来引导我们的占用,作为一种预热或初始化形式:

o(𝕣)=ioiαi2. (13)

通过体积渲染学习几何形状的一个常见问题是,权重函数在表面 [38, 52] 处没有达到峰值。 这可以在图 6 中观察到,我们的基线模型和我们构建的通用 NeRF 模型都没有满足这个约束。 因此,我们提出了一种新的损失来弥补这个限制。 首先,对于当前光线 𝕣,我们执行光线追踪, 找到样本对 tktk+1,其中占用状态首次沿光线从“空”(fo(tk)<0.5)变为“占用”(fo(tk+1)0.5)。 然后,我们在这两个样本之间执行基于割线法的求根 [37, 38],以找到与表面-光线交点相对应的根 t 理想情况下,我们希望我们的权重函数在这个位置达到一个尖锐的 1-峰值。 因此,我们用一个以根 t 为中心的 Gaussian 函数来监督权重,该函数的标准差在训练过程中动态减小,遵循第 4 节中详细描述的调度:

w(𝕣)=tj=0i1(1oj)oie((tit)/a)22. (14)

为了减少重建中的噪声,我们遵循 [38],并在我们占用函数在表面上的归一化空间梯度上实现平滑, 使用根位置 t

o(𝕣)=o(𝕣(𝕥))o(𝕣(𝕥))2o(𝕣(𝕥)+ϵ)o(𝕣(𝕥)+ϵ)22, (15)

其中 ϵ3 是一个小的随机扰动,梯度可以通过自动微分 [45] 有效地计算。

最后,我们的完整训练是在遵循对光线批次求平均的组合目标的情况下完成的,我们使用与最初训练通用 NeRF 模型相同的多分辨率数据进行训练:

=𝕣volo(𝕣)+volσ(𝕣)+λo(𝕣)+μw(𝕣)+νo(𝕣). (16)

这些损失在第 4 节中分别进行了分析,我们展示了它们对整体性能的各自数值和定性贡献。

Scan 24 37 40 55 63 65 69 83 97 105 106 110 114 118 122 Mean
COLMAP [48] 0.9 2.89 1.63 1.08 2.18 1.94 1.61 1.3 2.34 1.28 1.1 1.42 0.76 1.17 1.14 1.52
MVSNet [58] 1.05 2.52 1.71 1.04 1.45 1.52 0.88 1.29 1.38 1.05 0.91 0.66 0.61 1.08 1.16 1.22
IDR [61] 4.01 6.4 3.52 1.91 3.96 2.36 4.85 1.62 6.37 5.97 1.23 4.73 0.91 1.72 1.26 3.39
VolSDF [60] 4.03 4.21 6.12 0.91 8.24 1.73 2.74 1.82 5.14 3.09 2.08 4.81 0.6 3.51 2.18 3.41
UNISURF [38] 5.08 7.18 3.96 5.3 4.61 2.24 3.94 3.14 5.63 3.4 5.09 6.38 2.98 4.05 2.81 4.39
NeuS [52] 4.57 4.49 3.97 4.32 4.63 1.95 4.68 3.83 4.15 2.5 1.52 6.47 1.26 5.57 6.11 4.00
IBRNet-ft [53] 1.67 2.97 2.26 1.56 2.52 2.30 1.50 2.05 2.02 1.73 1.66 1.63 1.17 1.84 1.61 1.90
SparseNeuS-ft [29] 1.29 2.27 1.57 0.88 1.61 1.86 1.06 1.27 1.42 1.07 0.99 0.87 0.54 1.15 1.18 1.27
PixelNerf [63] 5.13 8.07 5.85 4.4 7.11 4.64 5.68 6.76 9.05 6.11 3.95 5.92 6.26 6.89 6.93 6.28
IBRNet [53] 2.29 3.70 2.66 1.83 3.02 2.83 1.77 2.28 2.73 1.96 1.87 2.13 1.58 2.05 2.09 2.32
MVSNeRF [6] 1.96 3.27 2.54 1.93 2.57 2.71 1.82 1.72 2.29 1.75 1.72 1.47 1.29 2.09 2.26 2.09
GeoNeRF [18] 3.40 4.37 3.99 2.94 5.08 4.50 3.42 4.68 4.54 4.05 3.47 3.23 3.34 3.57 3.63 3.88
SparseNeuS [29] 1.68 3.06 2.25 1.1 2.37 2.18 1.28 1.47 1.8 1.23 1.19 1.17 0.75 1.56 1.55 1.64
VolRecon [47] 1.2 2.59 1.56 1.08 1.43 1.92 1.11 1.48 1.42 1.05 1.19 1.38 0.74 1.23 1.27 1.38
ReTR [26] 1.05 2.31 1.44 0.98 1.18 1.52 0.88 1.35 1.3 0.87 1.07 0.77 0.59 1.05 1.12 1.17
Ours 1.01 2.24 1.52 0.88 1.37 1.82 0.85 1.39 1.25 1.0 0.77 0.63 0.57 0.96 1.0 1.15
Ours 0.95 2.23 1.45 0.94 1.26 1.67 0.81 1.21 1.34 1.02 0.84 0.6 0.58 0.94 1.02 1.12
表 1 在 DTU 数据集 [1] 上的定量比较。 最佳和第二佳方法分别用 粗体下划线 表示。 Ours 指的是使用附加数据集训练的模型。

4 实验

Refer to caption
图 2: DTU 数据集中 3 个输入视图的重建结果的定性比较。
Refer to caption
图 3: BMVS 数据集中 3 个输入视图的重建结果的定性比较。 请注意,我们使用我们的方法重建了详细的表面,而无需进行任何微调。

在本节中,我们将展示我们提出的方法的有效性和优点。 首先,我们将提供对我们实验配置的详细概述,包括实现细节、数据集和基线方法。 其次,我们在两个广泛使用的数据集上展示了定量和定性比较,即 DTU [1] 和 BlendedMVS [59] 最后,我们进行彻底的消融研究,以仔细检查我们提出的方法中不同组件的影响。

数据集

与之前的研究 [29, 47, 26] 一致,我们在训练阶段使用 DTU 数据集 [1] 由于我们从 GeoNeRF [1](一个基于 NeRF 的框架)进行迁移学习,以学习可泛化的占用域,因此我们也能够利用对非以对象为中心的 数据集进行训练,例如来自 LLFF [34] 和 IBRNet [53] 的真实前向数据集,因此,我们还包括一个附加模型来展示在更多数据上训练的效果。 在这两种情况下(有无附加训练数据集),我们的骨干网络 GeoNeRF [1] 在与我们的完整模型相同的数据上进行了训练,以保持评估性能比较的公平性。 DTU 数据集 [1] 的特点是室内多视图立体数据,具有来自 124 个不同场景和 7 种不同光照条件下的地面真值点云。 在我们的所有实验中,我们使用与 [29, 47, 26] 相同的 15 个场景集进行测试,将剩余的场景保留用于训练。 关于 BlendedMVS 数据集 [59],我们根据 SparseNeuS [29] 选择了 7 个场景。 对于每个场景,我们使用与 SparseNeuS [29] 相同的 3 稀疏输入视图。 为了确保公正的评估,我们使用 IDR [61] 的前景掩码来评估我们的方法在测试集上的表现,与之前的研究 [29, 47, 26] 一致。 此外,为了评估我们提出的框架的泛化能力,我们在 BlendedMVS 数据集 [59] 上对我们的方法进行了定性比较,没有任何微调。 对于我们的新视图合成实验,我们遵循与 GeoNeRF [1] 中相同的场景内测试图像分割,并且测试场景与我们的 3D 重建实验相同。

基线

为了展示我们方法的有效性,我们与以下方法进行了比较:a) SparseNeus [29]、VolRecon [47] 和 ReTR [26],它们是领先的泛化神经表面重建方法,以及它们在稀疏图像上的微调 (ft) 版本;b) 泛化神经渲染方法 [63, 53, 6, 18];c) 神经隐式重建方法 [61, 60, 38, 52],它们需要从一开始就进行场景特定训练;最后,d) 知名的多视图立体 (MVS) [48, 58] 方法。

实现细节

我们的模型使用 PyTorch [45] 和 PyTorch Lightning [11] 实现。 在训练阶段,我们使用 800×600 的图像分辨率,其中 N(源图像数量)设置为 3 训练在 5400 步内使用 Adam 优化器 [23] 在单个 RTX A6000 GPU 上进行,初始学习率为 5×104 我们在最初的 100 个预热步内应用占用蒸馏损失。 此后,蒸馏损失的权重降低到 0 将余弦学习率调度器 [31] 应用于优化器。 每个批次采样的射线数和批次大小分别配置为 1281 使用分层采样策略,我们在训练和测试期间在射线上均匀采样 Ncoarse 个点。 随后,应用重要性采样在粗略概率估计的基础上额外采样 Nfine 个点。 在我们的实验中,我们将 Ncoarse 设置为 96Nfine 设置为 32 在测试期间,图像分辨率保持在 800×600 我们还解决了 w 的调度策略,如 14 中所述。 具体来说,我们遵循:

a=max(amaxekβ,amin). (17)

其中 k 表示全局迭代次数。 amaxaminβ 是超参数,分别设置为 10.040.001 最后,与损失相关的权重设置为 λ=0.1μ=0.2ν=0.2 我们使用 Marching Cubes 算法 [30],网格分辨率为 400,通过对占用域进行阈值化,在 0.5 处提取每个表面网格。

4.1 DTU 上的稀疏视图重建

我们使用稀疏视图(仅 3 个视图)在 DTU 数据集 [1] 上进行表面重建,并通过使用 Chamfer 距离度量将其与地面真实点云进行比较来评估预测的表面。 为了进行公平比较,我们遵循了 [29, 47, 26] 中使用的评估过程,并遵循了其中描述的相同测试分割。 如表 1 所示,我们的方法(仅经过 DTU 训练)大大超过了 SparseNeuS [29] 和 VolRecon [47],分别由30%17% 当我们使用其他数据集进行训练时,差距进一步扩大到 32%19% 此外,我们的方法在性能上优于知名的多视图立体 (MVS) 方法,如 Colmap [48] 和 MVSNet [58] 我们的方法在性能上也优于 ReTR [26],这是最新的最先进的通用神经隐式重建方法。 此外,我们在图 2 中展示了稀疏视图重建的定性结果,表明与当前最先进的方法相比,我们重建的几何图形具有更具表现力和细节的表面,更准确地代表了真实表面。 补充部分包含了使用 MVSNeRF [6] 作为主干的另一个 DTU 泛化实验,以说明所提出的方法可以扩展到其他可泛化的 NeRF 基线。

4.2 BlendedMVS 上的泛化

为了展示我们提出的方法的泛化能力,我们在 BlendedMVS 数据集 [59] 上进行了额外的评估,而无需进行任何微调。 3 展示了跨不同领域的,对大型场景和小物体的逼真重建,这证实了我们方法在泛化能力方面的有效性。 即使在对稀疏测试集进行微调后,我们的方法也能够获得比 SparseNeuS [29] 更详细的表面。

4.3 DTU 上的新视图合成性能

由于 GeoNeRF [18] 是稀疏新视图合成的最先进方法之一,因此可以合理地假设我们也继承了它的新视图合成性能,因为我们通过迁移其特征来训练我们的方法。 为了验证这一点,我们在 DTU [1] 数据集上评估了新视图合成结果。 我们将我们的方法与 GeoNeRF [18]、VolRecon [47] 和 ReTR [26] 在所有场景上的平均 PSNR、SSIM 和 LPIPS 指标进行了比较。 由于我们使用 3 输入源图像构建成本特征体积,为了比较的公平性,我们还评估了 VolRecon [47] 和 ReTR [26] 使用 3 输入源图像构建成本特征体积的新视图合成结果,而不是它们各自训练期间使用的 4 输入源图像。 我们的结果可以总结如下:

Method PSNR SSIM LPIPS
VolRecon [47] 19.61 0.81 0.23
ReTR [26] 19.53 0.79 0.24
GeoNeRF [18] 23.48 0.93 0.087
Ours 24.08 0.93 0.093
表 2 DTU [1] 上的新视图性能。

如表 2 所示,我们在新视图合成指标上的性能非常接近 GeoNeRF [18] 请注意,我们使用 3 输入视图,这与我们在其上进行新视图实验的相同设置。 然而,原始的 GeoNeRF [18] 是用 6 输入视图训练的。 此实验的目的是确保我们的训练范式不会牺牲 GeoNeRF [18] 优异的新视图合成性能。 总的来说,我们的方法在不牺牲我们从中转移特征的最新新视图合成方法之一的新视图合成性能的情况下,提供了最先进的重建性能。 这是因为我们学习的占用场,通过设计和通过利用占用损失 o 的惩罚,诱导了与 GeoNeRF [18] 的不透明度场相关的体积权重。 我们还注意到,我们在新视图合成性能方面远远超过了 VolRecon [47] 和 ReTR [26] 因此,我们提供了双重优势,导致我们的方法提供 最先进的 重建结果以及优越的新视图合成结果。 我们还在图 4 中展示了一些定性比较,以及在补充部分中的几个其他 DTU [1] 场景上的定性比较。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 4: 使用 3 源图像在 DTU [1] 上进行新视图合成定性评估。 我们注意到,可泛化的重建模型 (ReTR [26],VolRecon [47]) 在进行极端新视图外推时很困难。

4.4 消融研究

在本节中,我们进行了消融分析,以证明我们最终架构和损失选择的合理性。 我们使用 DTU 数据集 [1] 的所有测试场景,在完整训练场景中进行消融。

Method Chamfer
w/o tuning encoder 1.29
w tuning encoder 1.15
表 3: 微调编码器/特征卷的效应。 GeoNeRF [18]
w/o o w o
NC. 0.64 0.68
表 4: 正常一致性

微调策略的影响

在本研究中,我们展示了在微调 GeoNeRF [18] 的不同组件时,训练我们的占用模型的结果。 如表 4 所示,当预训练 GeoNeRF [18] 模型的编码器与占用网络一起进行微调时,可以学习到更好的占用场。 这是因为,如果不这样做,编码器更适合学习密度场,正如 GeoNeRF [18] 的情况一样,而我们的目标是学习占用场。

不同损失组件的影响

在本研究中,我们展示了各种损失组件的结果,以说明它们的有效性。 如表 61st 行所示,新颖的体积渲染权重损失 w 对学习一个清晰且准确的占用场至关重要。 没有它,chamfer 度量会下降,这证明了它的重要性。 2nd 行说明了用 α 预测对我们的占用进行自举的重要性。 此外,我们在表 6 中看到,由于 w 直接负责更清晰的表面,因此准确度 chamfer 度量在没有它的情况下会预料之外地受到更大影响,而对完整性度量的影响较小。

Method Chamfer
w/o w 1.22
w/o o 1.17
Full model 1.15
表 5: 丢弃不同损失组件的影响

    w/o w w w Acc. 0.77 0.67 Comp. 1.67 1.64 Overall. 1.22 1.15 表 6: 准确度和完整性的消融研究

这也在图 6 中有所说明,该图表明损失导致的权重分布与占用场 i.e 理论上产生的权重分布一致。 一个在表面边界 1 上达到峰值的权重分布,如 Unisurf [38] 中所讨论。 我们还在 2nd 行中看到,如果没有我们引导的占用损失 o,我们的表面重建性能会受到负面影响。 最后,我们研究了丢弃法线损失 o 的影响。 法线损失对于减少我们重建中的噪声非常重要,这在我们定性结果中可见一斑。 但是,这种平滑处理可能会影响点云距离,在这些相互冲突的目标之间取得完美的平衡可能具有挑战性。 为了说明法线损失的重要性,我们在表 4 中提供了法线一致性结果,该表表明我们的法线损失 o 使重建变得平滑,从而提高了重建网格和 GT 网格之间法线的一致性。 整项研究表明,所有损失对于模型的最终性能都是必不可少的。

Ours                Ours (w/o w)          Geonerf [18]

Refer to caption
Refer to caption
图 5: Geonerf [18] 和我们的方法之间的体积权重分布沿射线比较。

       Method Training duration SparseNeuS [29] 3 days ReTR [26] 3 days Ours (re-train) 3.5 hrs 图 6: 比较总训练时间。

训练时间

在这里,我们在表 6 中讨论了我们模型的训练时间。 给定一个完全训练的 GeoNeRF [18],我们的模型能够快速微调其特征。 虽然在单个 RTX A 6000 GPU 上完全训练 SparseNeuS [29] 和 ReTR [26] 需要近 3 天时间,但我们能够在约 3.5 小时内训练以适应预训练的 GeoNeRF [18] 的特征,以学习占用场。

5 Limitations

由于学习体积框架中占用率的潜在假设,我们的方法专门设计用于表示实体表面,而不是透明表面。 此外,重建的准确性在输入图像中很少可见的区域会降低。

6 Conclusions

我们介绍了一种新方法 GeoTransfer,它可以快速转移可泛化的 NeRF 的 3D 理解,从而获得用于隐式表面重建的精确占用场。 与之前针对可泛化的基于 SDF 的重建方法的编码器引入改进的方法不同,我们发现学习一个特征空间中的占用网络足以学习将从最先进的可泛化的 NeRF 获得的与采样相关的混浊度转换为与采样无关的占用场。 这种方法也被证明比从头开始训练可泛化的稀疏 3D 表面重建方法快得多。 我们的方法为稀疏输入实现了最先进的重建质量,展示了其有效性。

GeoTransfer: Generalizable Few-Shot Multi-View Reconstruction via Transfer Learning

– Supplementary Material –

Shubhendu Jena Franck Multon Adnane Boukhayma

我们首先将我们的方法应用于另一个基线模型,特别是 MVSNeRF [6],并证明其 3D 表面重建性能在数量和质量上都有显著提高。 之后,我们提供了额外的消融研究来证明我们的超参数选择,并展示了我们的重建结果与其他方法的定性视频比较,以直观地展示我们方法的影响以及相应的损失。 我们针对新颖的视图合成结果与 VolRecon [47] 和 ReTR [26] 的定性比较结果紧随其后,最后,我们在 DTU [1] 和 BlendedMVS [59] 的评估数据集上提供一些额外的实验细节。

7 Using MVSNeRF as backbone

为了证明我们方法的可泛化性,我们将它与 MVSNeRF [6] 作为我们的主干,并将结果模型命名为 MVSTransfer。 将 MVSNeRF [6] 调优到 MVSTransfer 只需 3 个小时即可完成,这在一个 RTX A6000 GPU 上完成。 请注意,在同一 GPU 上训练 MVSNeRF [6] 至少需要 3 天。 在以下对比分析中,我们使用的是在同一 DTU [1] 重建分割上训练的 MVSNeRF [6],以确保公平性。 然后,我们使用与基于 GeoNeRF [18] 的实验中相同的 Sigmoid 激活隐式解码器 fo,并利用相同的损失函数来获得:

=𝕣volo(𝕣)+volσ(𝕣)+λo(𝕣)+μw(𝕣)+νo(𝕣). (18)

损失的权重与原始论文中的权重完全相同,我们对解码器进行了 5400 次微调,以获得可泛化的占用网络。 在使用 400 的网格分辨率运行 Marching Cubes 算法 [30] 之后,通过在 0.5 处对占用场进行阈值处理来提取每个曲面网格,并计算相对于地面真实点云的 Chamfer 度量,我们得到:

Scan 24 37 40 55 63 65 69 83 97 105 106 110 114 118 122
MVSNeRF [6] 2.29 3.76 2.84 1.93 2.79 2.73 1.91 2.51 2.56 2.06 2.01 1.56 1.55 2.24 2.38
MVSTransfer 1.83 3.79 2.5 1.6 2.12 2.51 1.5 1.99 1.99 1.55 1.51 1.53 1.16 1.65 2.0
表 7 DTU 数据集 [1] 上的定量比较。 最佳方法 以粗体显示

从定性上看,我们的方法导致对占用场的全局学习更加准确,从而导致提取的网格更加紧密地包裹在真实网格周围(通过对真实点云运行筛选的泊松曲面重建获得)。 一些示例如下所示,见图 7

Refer to caption
图 7 MVSNeRF [6](红色)和 MVSTransfer(蓝色)在 DTU [1] 上使用 3 源图像的定性评估。 请注意,我们的网格(蓝色)比 MVSNeRF [6](红色)更接近真实网格(灰色)。

如上所述,与 MVSNeRF [6](红色网格)相比,MVSTransfer(蓝色网格)在全局上更接近真实网格。 这是因为我们的损失函数,特别是权重渲染损失 w(𝕣),它通过在光线与曲面交点位置达到尖锐的 1 峰值,确保在体积渲染框架中进行准确的占用场估计。

8 其他消融研究

基于我们的 GeoNeRF 实验 [18],我们消除了与损失 w(𝕣)amaxamin 相关的参数,这些参数分别代表指导高斯的初始宽度和最终宽度,这些高斯在通过割线法基于根查找获得的射线-表面交点处有一个峰值。 我们发现 amax=1 的初始值适合我们的训练。 我们在表 9 中消除了最终宽度 amin 我们还在表 9 中消除了衰减参数 β 后者控制着 a 在等式中进展的速度。 14 从 amaxamin

amin 0.002 0.004 0.008
Chamf. 1.16 1.15 1.20
表 8: amin 消融

    β 0.0005 0.001 0.002 Chamf. 1.23 1.15 1.17 表 9: β 消融

这些研究表明,我们选择的 aminβ 经过适当的选择,可以获得准确的可泛化的占用场。

9 3D 重建的额外定性比较

基于我们的 GeoNeRF 实验 [18],我们在附带的补充材料中加入了一些我们表面重建的额外视频可视化。 DTU [1]上有4,分别是DTU_Scan24.mp4、DTU_Scan55.mp4、DTU_Scan118

10 推理时间

我们使用占用表示,因为它类似于不透明假设下的采样和视图相关的 NeRF 不透明度(cf. Unisurf [38]),这通过迁移学习促进了我们的快速适应。 无论是 sdf/占用表示,基于体积渲染的推断速度都保持相似。 我们在此提供了我们以及主要基线 VolRecon [47] 和 ReTR [26] 的推断速度。 深度图推断时间约为 30 秒,如各自补充部分所述。 我们在 RTX A6000 上重现了这一点,我们获得了 32.4 秒,VolRecon [47]31.8 秒,ReTR [26]37.2 秒。

11 关于新视图合成的额外定性比较

在本节中,基于我们的 GeoNeRF 实验 [18],我们在图 89 中展示了与 VolRecon [47] 和 ReTR [26] 的额外定性比较,以证明我们的方法在 DTU [1] 数据集上的优越性能。 我们最终的适应模型保留了其初始主干的新视图能力,并与可泛化重建网络(e.g. VolRecon [47] 和 ReTR [26])相比,提供了良好的新视图外推结果。 我们注意到,在定性上,在稀疏 3 输入视图设置中,我们比竞争方法更清晰,并且伪影更少。 这表明了我们的方法在进行新视图合成任务时的鲁棒性,此外还展示了 最先进的 表面重建结果。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 8: 使用 3 源图像在 DTU [1] 上进行新视图合成定性评估。
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 9: 使用 3 源图像在 DTU [1] 上进行新视图合成定性评估。

12 附加实验细节

在这项工作中,我们评估了两组数据:DTU [1] 和 BlendedMVS [59] 对于 DTU [1],我们根据任务的性质遵循不同的协议,区分新视图合成和表面重建。

指标

对于新颖视图合成任务,涉及评估 PSNR 分数,假设最大像素值为 1,并使用公式 10log10(MSE)。 此外,我们使用 scikit-image 的 API 来计算结构相似性指数 (SSIM) 分数,以及 pip 包 lpips,利用一个经过学习的 VGG 模型来计算学习到的感知图像块相似性 (LPIPS) 分数。 在表面重建任务的背景下,我们通过比较预测的网格与 DTU 扫描的真实点云来衡量 Chamfer 距离。 评估过程遵循 SparseNeuS、VolRecon、ReTR [29, 47, 26] 所采用的方法,使用一个评估脚本,该脚本使用提供的对象掩码来细化生成的网格。 随后,该脚本评估在生成的网格上采样的点与真实点云之间的 Chamfer 距离,在提供总体平均值之前,在两个方向上生成距离,通常在评估中报告。 此外,对于每次扫描,使用两组 3 个不同的视图,我们对每组图像生成的两个网格的结果取平均值,并将其报告在比较中,如先前方法 [29, 47, 26] 中所述。

DTU 数据集

DTU 数据集 [1] 是一个广泛的多视图数据集,包含 124 个扫描,包含各种物体。 每个场景由 4964 个视图组成,分辨率为 1600×1200 我们遵循 [29, 47, 26] 中概述的程序,在这些方法中使用的相同场景上进行训练,然后在 15 个指定的测试场景上进行测试,用于重建和新颖视图合成任务。 新颖视图合成和表面重建的测试扫描 ID 为:243740556319265698397105106110114118122 对于表面重建,对于每个扫描,有两组 3 个视图,以下 ID 用作输入视图:set-0232433,然后是 set-1424344 所有的扫描。 我们使用训练视图的一半分辨率,. 800×600 对于新颖视图合成,我们测试了在训练期间未使用的相机视图,以便进行公平的评估,以下 ID 用作所有场景的目标和源视图 - 373936203839374039403736

BlendedMVS 数据集

BlendedMVS [59] 是一个用于广义多视图立体的大规模数据集,它包含各种 113 场景,包括具有复杂背景的建筑、雕塑和小物体。 对于表面重建,我们使用 7 具有挑战性的场景,符合 SparseNeuS [29] ,其中每个场景有 31143 张图像以 768×576 捕获。 选择的场景的 ID 是:Scan2 : 67, 29, 59; Scan3 : 1, 0, 2; Scan12 : 2, 8, 50; Scan13: 28, 4, 11; Scan14: 9, 109, 50; Scan22: 4, 3, 5; Scan24: 23, 39, 5. 我们使用测试视图的原始分辨率。

用于新视图合成的掩蔽评估

按照 [36] 提出的关于背景评估偏差的发现,我们采用他们为 DTU [1] 提出的掩蔽评估方法。 这涉及使用物体掩码并在定义的掩码内专门计算 PSNR。 在 SSIM 和 LPIPS 的情况下,我们使用掩码将预测的感兴趣物体叠加到黑色背景上,然后再进行度量计算。

参考文献

  • [1] Aanæs, H., Jensen, R.R., Vogiatzis, G., Tola, E., Dahl, A.B.: Large-scale data for multiple-view stereopsis. International Journal of Computer Vision 120(2), 153–168 (2016)
  • [2] Aliev, K.A., Sevastopolsky, A., Kolos, M., Ulyanov, D., Lempitsky, V.: Neural point-based graphics. In: Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXII 16. pp. 696–712. Springer (2020)
  • [3] Atzmon, M., Lipman, Y.: Sal: Sign agnostic learning of shapes from raw data. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 2565–2574 (2020)
  • [4] Ben-Shabat, Y., Koneputugodage, C.H., Gould, S.: Digs: Divergence guided shape implicit neural representation for unoriented point clouds. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 19323–19332 (2022)
  • [5] Boulch, A., Marlet, R.: Poco: Point convolution for surface reconstruction. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 6302–6314 (2022)
  • [6] Chen, A., Xu, Z., Zhao, F., Zhang, X., Xiang, F., Yu, J., Su, H.: Mvsnerf: Fast generalizable radiance field reconstruction from multi-view stereo. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 14124–14133 (2021)
  • [7] Chibane, J., Bansal, A., Lazova, V., Pons-Moll, G.: Stereo radiance fields (srf): Learning view synthesis for sparse views of novel scenes. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 7911–7920 (2021)
  • [8] Darmon, F., Bascle, B., Devaux, J.C., Monasse, P., Aubry, M.: Improving neural implicit surfaces geometry with patch warping. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 6260–6269 (2022)
  • [9] Deng, K., Liu, A., Zhu, J.Y., Ramanan, D.: Depth-supervised nerf: Fewer views and faster training for free. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 12882–12891 (2022)
  • [10] Ding, Y., Yuan, W., Zhu, Q., Zhang, H., Liu, X., Wang, Y., Liu, X.: Transmvsnet: Global context-aware multi-view stereo network with transformers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 8585–8594 (2022)
  • [11] Falcon, W.A.: Pytorch lightning. GitHub 3 (2019)
  • [12] Fan, H., Su, H., Guibas, L.J.: A point set generation network for 3d object reconstruction from a single image. In: CVPR (2017)
  • [13] Gropp, A., Yariv, L., Haim, N., Atzmon, M., Lipman, Y.: Implicit geometric regularization for learning shapes. arXiv preprint arXiv:2002.10099 (2020)
  • [14] Gu, X., Fan, Z., Zhu, S., Dai, Z., Tan, F., Tan, P.: Cascade cost volume for high-resolution multi-view stereo and stereo matching. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 2495–2504 (2020)
  • [15] Jain, A., Tancik, M., Abbeel, P.: Putting nerf on a diet: Semantically consistent few-shot view synthesis. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 5885–5894 (2021)
  • [16] Jena, S., Multon, F., Boukhayma, A.: Neural mesh-based graphics. In: European Conference on Computer Vision. pp. 739–757. Springer (2022)
  • [17] Jiang, Y., Ji, D., Han, Z., Zwicker, M.: Sdfdiff: Differentiable rendering of signed distance fields for 3d shape optimization. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 1251–1261 (2020)
  • [18] Johari, M.M., Lepoittevin, Y., Fleuret, F.: Geonerf: Generalizing nerf with geometry priors. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 18365–18375 (2022)
  • [19] Kato, H., Ushiku, Y., Harada, T.: Neural 3d mesh renderer. In: CVPR (2018)
  • [20] Kellnhofer, P., Jebe, L.C., Jones, A., Spicer, R., Pulli, K., Wetzstein, G.: Neural lumigraph rendering. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4287–4297 (2021)
  • [21] Kerbl, B., Kopanas, G., Leimkühler, T., Drettakis, G.: 3d gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics 42(4), 1–14 (2023)
  • [22] Kim, M., Seo, S., Han, B.: Infonerf: Ray entropy minimization for few-shot neural volume rendering. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 12912–12921 (2022)
  • [23] Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)
  • [24] Li, Q., Multon, F., Boukhayma, A.: Learning generalizable light field networks from few images. In: ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 1–5. IEEE (2023)
  • [25] Li, Q., Multon, F., Boukhayma, A.: Regularizing neural radiance fields from sparse rgb-d inputs. In: 2023 IEEE International Conference on Image Processing (ICIP). pp. 2320–2324. IEEE (2023)
  • [26] Liang, Y., He, H., Chen, Y.: Retr: Modeling rendering via transformer for generalizable neural surface reconstruction. Advances in Neural Information Processing Systems 36 (2024)
  • [27] Liu, L., Gu, J., Zaw Lin, K., Chua, T.S., Theobalt, C.: Neural sparse voxel fields. Advances in Neural Information Processing Systems 33, 15651–15663 (2020)
  • [28] Liu, Y., Peng, S., Liu, L., Wang, Q., Wang, P., Theobalt, C., Zhou, X., Wang, W.: Neural rays for occlusion-aware image-based rendering. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 7824–7833 (2022)
  • [29] Long, X., Lin, C., Wang, P., Komura, T., Wang, W.: Sparseneus: Fast generalizable neural surface reconstruction from sparse views. In: European Conference on Computer Vision. pp. 210–227. Springer (2022)
  • [30] Lorensen, W.E., Cline, H.E.: Marching cubes: A high resolution 3d surface construction algorithm. In: Seminal graphics: pioneering efforts that shaped the field, pp. 347–353 (1998)
  • [31] Loshchilov, I., Hutter, F.: Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983 (2016)
  • [32] Max, N.: Optical models for direct volume rendering. IEEE Transactions on Visualization and Computer Graphics 1(2), 99–108 (1995)
  • [33] Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A.: Occupancy networks: Learning 3d reconstruction in function space. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 4460–4470 (2019)
  • [34] Mildenhall, B., Srinivasan, P.P., Ortiz-Cayon, R., Kalantari, N.K., Ramamoorthi, R., Ng, R., Kar, A.: Local light field fusion: Practical view synthesis with prescriptive sampling guidelines. ACM Transactions on Graphics (TOG) 38(4), 1–14 (2019)
  • [35] Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R.: Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM 65(1), 99–106 (2021)
  • [36] Niemeyer, M., Barron, J.T., Mildenhall, B., Sajjadi, M.S., Geiger, A., Radwan, N.: Regnerf: Regularizing neural radiance fields for view synthesis from sparse inputs. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5480–5490 (2022)
  • [37] Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A.: Differentiable volumetric rendering: Learning implicit 3d representations without 3d supervision. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 3504–3515 (2020)
  • [38] Oechsle, M., Peng, S., Geiger, A.: Unisurf: Unifying neural implicit surfaces and radiance fields for multi-view reconstruction. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 5589–5599 (2021)
  • [39] Ouasfi, A., Boukhayma, A.: Few ‘zero level set’-shot learning of shape signed distance functions in feature space. In: European Conference on Computer Vision. pp. 561–578. Springer (2022)
  • [40] Ouasfi, A., Boukhayma, A.: Few-shot unsupervised implicit neural shape representation learning with spatial adversaries. In: Forty-first International Conference on Machine Learning (2024), https://openreview.net/forum?id=SLqdDWwibH
  • [41] Ouasfi, A., Boukhayma, A.: Mixing-denoising generalizable occupancy networks. In: 2024 International Conference on 3D Vision (3DV). pp. 1103–1114. IEEE (2024)
  • [42] Ouasfi, A., Boukhayma, A.: Robustifying generalizable implicit shape networks with a tunable non-parametric model. Advances in Neural Information Processing Systems 36 (2024)
  • [43] Ouasfi, A., Boukhayma, A.: Unsupervised occupancy learning from sparse point cloud. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 21729–21739 (June 2024)
  • [44] Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: Deepsdf: Learning continuous signed distance functions for shape representation. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 165–174 (2019)
  • [45] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., et al.: Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems 32 (2019)
  • [46] Peng, S., Niemeyer, M., Mescheder, L., Pollefeys, M., Geiger, A.: Convolutional occupancy networks. In: Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part III 16. pp. 523–540. Springer (2020)
  • [47] Ren, Y., Zhang, T., Pollefeys, M., Süsstrunk, S., Wang, F.: Volrecon: Volume rendering of signed ray distance functions for generalizable multi-view reconstruction. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 16685–16695 (2023)
  • [48] Schonberger, J.L., Frahm, J.M.: Structure-from-motion revisited. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 4104–4113 (2016)
  • [49] Trevithick, A., Yang, B.: Grf: Learning a general radiance field for 3d representation and rendering. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 15182–15192 (2021)
  • [50] Wang, F., Galliani, S., Vogel, C., Speciale, P., Pollefeys, M.: Patchmatchnet: Learned multi-view patchmatch stereo. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 14194–14203 (2021)
  • [51] Wang, N., Zhang, Y., Li, Z., Fu, Y., Liu, W., Jiang, Y.G.: Pixel2mesh: Generating 3d mesh models from single rgb images. In: ECCV (2018)
  • [52] Wang, P., Liu, L., Liu, Y., Theobalt, C., Komura, T., Wang, W.: Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. arXiv preprint arXiv:2106.10689 (2021)
  • [53] Wang, Q., Wang, Z., Genova, K., Srinivasan, P.P., Zhou, H., Barron, J.T., Martin-Brualla, R., Snavely, N., Funkhouser, T.: Ibrnet: Learning multi-view image-based rendering. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4690–4699 (2021)
  • [54] Wang, Y., Skorokhodov, I., Wonka, P.: Hf-neus: Improved surface reconstruction using high-frequency details. Advances in Neural Information Processing Systems 35, 1966–1978 (2022)
  • [55] Wynn, J., Turmukhambetov, D.: Diffusionerf: Regularizing neural radiance fields with denoising diffusion models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4180–4189 (2023)
  • [56] Yang, J., Pavone, M., Wang, Y.: Freenerf: Improving few-shot neural rendering with free frequency regularization. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 8254–8263 (2023)
  • [57] Yang, J., Mao, W., Alvarez, J.M., Liu, M.: Cost volume pyramid based depth inference for multi-view stereo. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4877–4886 (2020)
  • [58] Yao, Y., Luo, Z., Li, S., Fang, T., Quan, L.: Mvsnet: Depth inference for unstructured multi-view stereo. In: Proceedings of the European conference on computer vision (ECCV). pp. 767–783 (2018)
  • [59] Yao, Y., Luo, Z., Li, S., Zhang, J., Ren, Y., Zhou, L., Fang, T., Quan, L.: Blendedmvs: A large-scale dataset for generalized multi-view stereo networks. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 1790–1799 (2020)
  • [60] Yariv, L., Gu, J., Kasten, Y., Lipman, Y.: Volume rendering of neural implicit surfaces. Advances in Neural Information Processing Systems 34, 4805–4815 (2021)
  • [61] Yariv, L., Kasten, Y., Moran, D., Galun, M., Atzmon, M., Ronen, B., Lipman, Y.: Multiview neural surface reconstruction by disentangling geometry and appearance. Advances in Neural Information Processing Systems 33, 2492–2502 (2020)
  • [62] Younes, M., Ouasfi, A., Boukhayma, A.: Sparsecraft: Few-shot neural reconstruction through stereopsis guided geometric linearization. In: ECCV (2024)
  • [63] Yu, A., Ye, V., Tancik, M., Kanazawa, A.: pixelnerf: Neural radiance fields from one or few images. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4578–4587 (2021)
  • [64] Yu, Z., Peng, S., Niemeyer, M., Sattler, T., Geiger, A.: Monosdf: Exploring monocular geometric cues for neural implicit surface reconstruction. Advances in neural information processing systems 35, 25018–25032 (2022)