使用潜在扩散模型进行高分辨率图像合成

Robin Rombach1   Andreas Blattmann1   Dominik Lorenz1   Patrick Esser[Uncaptioned image]   Björn Ommer1
1Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany
  [Uncaptioned image]Runway ML
https://github.com/CompVis/latent-diffusion
The first two authors contributed equally to this work.
摘要

通过将图像形成过程分解为一系列去噪自动编码器的顺序应用,扩散模型 (DM) 在图像数据及其他领域取得了最先进的合成结果。 此外,它们的公式允许使用引导机制来控制图像生成过程,而无需重新训练。 然而,由于这些模型通常直接在像素空间中运行,因此优化强大的 DM 通常会消耗数百个 GPU 天,并且由于顺序评估,推理成本很高。 为了在保留其质量和灵活性的同时,在有限的计算资源上进行 DM 训练,我们将其应用于强大的预训练自动编码器的潜在空间。 与之前的工作相比,在这样的表示上训练扩散模型首次实现了接近最优的复杂度降低和细节保留之间的平衡点,从而极大地提高了视觉保真度。 通过在模型架构中引入交叉注意层,我们将扩散模型转变为强大且灵活的生成器,适用于文本或边界框等通用条件输入,并且可以在卷积方式下进行高分辨率合成。 我们的潜在扩散模型 (LDM) 在图像修复和类条件图像合成方面取得了新的最先进的得分,并且在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上取得了高度竞争的性能,同时与基于像素的 DM 相比,显着减少了计算需求。

1 介绍

Input ours (f=4) PSNR: 27.4 R-FID: 0.58 DALL-E (f=8) PSNR: 22.8 R-FID: 32.01 VQGAN (f=16) PSNR: 19.9 R-FID: 4.98 Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

图 1: 以较少侵略性的下采样来提高可实现质量的上限。 由于扩散模型为空间数据提供了极好的归纳偏差,因此我们不需要在潜在空间中对相关生成模型进行大量空间下采样,但仍然可以通过合适的自动编码模型大大降低数据的维数,参见第 3 节。 图像来自 DIV2K [1] 验证集,在 5122 像素处进行评估。 我们用 f 表示空间下采样因子。 重建 FID [29] 和 PSNR 在 ImageNet-val 上计算。 [12]; 另见表 8

图像合成是计算机视觉领域最近发展最显著的领域之一,但也属于计算需求最大的领域之一。 特别是,复杂自然场景的高分辨率合成目前主要由扩展基于似然的模型主导,这些模型可能包含数十亿个参数,用于自回归 (AR) Transformer [66, 67] 相比之下,GAN [27, 3, 40] 的良好结果被发现主要局限于数据变化相对有限的场景,因为其对抗性学习过程不容易扩展到对复杂的多模态分布进行建模。 最近,扩散模型 [82],它是从一系列降噪自动编码器构建的,在图像合成 [30, 85] 及其他领域 [45, 7, 48, 57] 取得了令人印象深刻的结果,并且在类条件图像合成 [15, 31] 和超分辨率 [72] 方面定义了最先进的技术。 此外,即使是无条件的 DM 也能很容易地应用于诸如修复和着色 [85] 或基于笔触的合成 [53] 等任务,这与其他类型的生成模型 [46, 69, 19] 形成对比。 作为基于似然的模型,它们不会像 GAN 那样出现模式崩溃和训练不稳定,并且通过大量利用参数共享,它们可以对自然图像的高度复杂分布进行建模,而无需像 AR 模型 [67] 那样涉及数十亿个参数。

使高分辨率图像合成民主化

DM 属于基于似然的模型类别,其模式覆盖行为使它们容易在对数据不可感知的细节进行建模时花费过多的容量(因此也需要过多的计算资源) [16, 73] 虽然重新加权变分目标 [30] 旨在通过对初始降噪步骤进行欠采样来解决这个问题, 但 DM 仍然计算量很大,因为训练和评估这种模型需要在 RGB 图像的高维空间中重复进行函数评估(和梯度计算)。 例如,训练最强大的 DM 通常需要数百个 GPU 天 (e.g.[15] 中为 150 - 1000 个 V100 天), 并且在输入空间的噪声版本上重复评估也会使推理变得昂贵,因此生成 50,000 个样本需要大约 5 天 [15] 的时间才能在单个 A100 GPU 上完成。 这对研究界和普通用户有两个后果: 首先,训练这样一个模型 需要大量的计算资源,而这些资源只有该领域一小部分人才能获得, 并且会留下巨大的碳足迹 [65, 86] 其次,评估一个已经训练好的模型在时间和内存上也是昂贵的,因为相同的模型架构必须 按顺序运行大量步骤 (e.g.[15] 中为 25 - 1000 个步骤)。

为了提高这种强大模型类的可访问性,并同时 减少其大量的资源消耗,需要一种方法来 降低训练和采样的计算复杂度。 因此,在不影响性能的情况下降低 DM 的计算需求是提高其可访问性的关键。

进入潜在空间

我们的方法从对像素空间中已经训练好的扩散模型的分析开始: 图 2 显示了训练好的模型的速率失真权衡。 与任何基于似然的模型一样,学习大致可以分为两个阶段:首先是 感知压缩 阶段,该阶段去除了高频细节,但仍然学习了很少的语义变化。 在第二阶段,实际的生成模型学习数据的语义和概念构成 (语义压缩)。 因此,我们首先旨在找到一个 在感知上等效,但在计算上更适合的空间,在这个空间中,我们将训练扩散模型以进行高分辨率图像合成。

遵循常见做法 [96, 67, 23, 11, 66], 我们将训练分为两个不同的阶段:首先,我们训练一个自动编码器,它提供了一个低维(从而高效)的表示空间,该空间在感知上等效于数据空间。 重要的是,与之前的工作 [23, 66] 相比, 我们不需要 依赖于过度的空间压缩,因为我们在学习到的潜在空间中训练 DMs,该空间 在空间维数方面表现出更好的缩放特性。 降低的复杂性还提供了一种高效的图像生成方法,该方法可以通过单个网络传递从潜在空间生成图像。 我们将生成的模型类称为 潜在扩散模型 (LDMs)。

一个值得注意的 这种方法的优势是我们只需要训练一次通用 自动编码阶段,因此可以将其重复用于多个 DM 训练或探索可能完全不同的任务 [81] 这使得能够有效地探索大量针对各种图像到图像和文本到图像任务的扩散模型。 对于后者,我们设计了一种架构,该架构将 Transformer 连接到 DM 的 UNet 主干 [71] 并支持任意类型的基于标记的条件机制,参见第 3.3 节。

Refer to caption
图 2: 说明感知和语义压缩:大多数数字图像的比特对应于不可察觉的细节。 虽然 DMs 允许通过最小化负责的损失项来抑制这种语义上无意义的信息,但梯度(在训练期间)和神经网络主干(训练和推理)仍然需要在所有像素上进行评估,从而导致多余的计算以及不必要昂贵的优化和推理。

我们提出 潜在扩散模型 (LDMs) 作为一种有效的生成模型和一个独立的轻度压缩阶段,该阶段仅消除不可察觉的细节。
数据和图像来自 [30]

总之,我们的工作做出了以下 贡献:

(i) 与纯粹基于 Transformer 的方法 [23, 66] 相比,我们的方法在更高维数据上的扩展性更强,因此可以 (a) 在压缩级别上工作,提供比以前工作更忠实和更详细的重建(见图 1),以及 (b) 有效地应用于兆像素图像的高分辨率合成。

(ii) 我们在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上取得了具有竞争力的性能,同时显著降低了计算成本。 与基于像素的扩散方法相比,我们也显著降低了推理成本。

(iii) 我们证明,与之前的工作 [93] 同时学习编码器/解码器架构和基于分数的先验不同,我们的方法不需要对重建和生成能力进行精细的加权。 这确保了极其忠实的重建,并且只需要很少的潜在空间正则化。

(iv) 我们发现,对于密集条件任务,例如超分辨率、修复和语义合成,我们的模型可以以卷积方式应用,并呈现 10242 像素的大型一致图像。

(v) 此外,我们设计了一种基于交叉注意力的通用条件机制,支持多模态训练。 我们使用它来训练类别条件、文本到图像和布局到图像模型。

(vi) 最后,我们在 https://github.com/CompVis/latent-diffusion 发布了预训练的潜在扩散和自动编码模型,这些模型可能可用于各种任务,除了训练 DM [81] 之外。

2 相关工作

用于图像合成的生成模型 图像的高维性对生成建模提出了独特的挑战。 生成对抗网络 (GAN) [27] 允许有效地对具有良好感知质量的高分辨率图像进行采样 [3, 42],但难以优化 [54, 2, 28],并且难以捕捉完整的数据分布 [55] 相比之下,基于似然的模型强调良好的密度估计,这使得优化更加规范。 变分自动编码器 (VAE) [46] 和基于流的模型 [18, 19] 使得有效地合成高分辨率图像 [9, 92, 44] 成为可能,但样本质量并不与 GAN 相媲美。 虽然自回归模型 (ARM) [95, 94, 6, 10] 在密度估计方面取得了良好的性能,但计算量大的架构 [97] 和顺序采样过程将它们限制在低分辨率图像。 因为图像的基于像素的表示包含几乎不可感知的高频细节 [16, 73],最大似然训练在建模它们方面花费了不成比例的容量,导致训练时间过长。 为了扩展到更高的分辨率,[101, 67, 23, 103] 几个两阶段方法使用 ARMs 来对压缩的潜在图像空间进行建模,而不是原始像素。

最近,Diffusion Probabilistic Models (DM) [82] 在密度估计 [45] 以及样本质量 [15] 方面取得了最先进的结果。 这些模型的生成能力源于当它们的底层神经骨干实现为 UNet [71, 30, 85, 15] 时对类似图像数据的归纳偏差的自然适应。 当使用重新加权目标 [30] 进行训练时,通常会实现最佳的合成质量。 在这种情况下,DM 对应于有损压缩器,并允许以图像质量为代价来换取压缩能力。 但是,在像素空间中评估和优化这些模型的缺点是推理速度慢且训练成本很高。 虽然前者可以通过高级采样策略 [84, 75, 47] 和分层方法 [31, 93] 部分解决,但在高分辨率图像数据上进行训练始终需要计算昂贵的梯度。 我们通过我们提出的 LDMs 来解决这两个缺点,它们在较低维度的压缩潜在空间中工作。 这使得训练在计算上更便宜,并加快了推理速度,几乎没有降低合成质量(参见图 1)。

两阶段图像合成 为了减轻单个生成方法的缺点,很多研究 [11, 70, 23, 103, 101, 67] 致力于将不同方法的优势通过两阶段方法组合到更高效且性能更好的模型中。 VQ-VAEs [101, 67] 使用自回归模型来学习离散潜在空间上的表达先验。 [66] 将这种方法扩展到文本到图像生成,方法是学习离散图像和文本表示上的联合分布。 更一般地说,[70] 使用条件可逆网络来提供不同域的潜在空间之间的通用转移。 与 VQ-VAEs 不同,VQGANs [23, 103] 采用第一阶段,使用对抗性和感知目标来将自回归转换器扩展到更大的图像。 但是,可行的 ARM 训练所需的较高压缩率,这引入了数十亿个可训练参数 [66, 23],限制了此类方法的整体性能,而较少的压缩则需要付出高计算成本的代价 [66, 23] 我们的工作避免了这种权衡,因为我们提出的 LDMs 由于它们的卷积骨干,可以更平滑地扩展到更高维度的潜在空间。 因此,我们可以自由地选择最佳地介于学习强大的第一阶段(在不将过多的感知压缩留给生成扩散模型的情况下)和保证高保真重建(见图 1)之间的压缩级别。

虽然联合 [93] 或分别 [80] 学习编码/解码模型与基于分数的先验存在,但前者仍然需要在重建和生成能力之间进行艰难的权衡 [11],并且被我们的方法(第 4 节)超越,而后者则关注高度结构化的图像,如人脸。

3 方法

为了降低训练扩散模型以实现高分辨率图像合成的计算需求,我们观察到,尽管扩散模型允许通过对相应的损失项进行欠采样 [30] 来忽略感知上不相关的细节,但它们仍然需要在像素空间进行代价高昂的函数评估,这会导致巨大的计算时间和能源消耗。

我们建议通过引入压缩学习阶段与生成学习阶段的明确分离来规避这一缺陷(见图 2)。 为了实现这一点,我们利用一个自动编码模型,该模型学习一个在感知上等同于图像空间的空间,但提供了显著降低的计算复杂度。

这种方法提供了几个优势:(i)通过离开高维图像空间,我们获得了计算效率更高的 DM,因为采样是在低维空间上执行的。 (ii)我们利用从其 UNet 架构 [71] 继承的 DM 的归纳偏差,这使得它们对于具有空间结构的数据特别有效,因此减轻了对先前方法 [23, 66] 所需的积极的、降低质量的压缩级别的需求。 (iii)最后,我们获得了通用压缩模型,其潜在空间可以用于训练多个生成模型,并且也可以用于其他下游应用,例如单图像 CLIP 引导合成 [25]

3.1 感知图像压缩

我们的感知压缩模型基于先前的工作 [23],并且由一个自动编码器组成,该编码器通过感知损失 [106] 和基于补丁的 [33] 对抗目标 [20, 23, 103] 的组合进行训练。 这确保了重建通过强制执行局部真实性而被限制在图像流形中,并且避免了仅依赖像素空间损失(例如 L2L1 目标)所引入的模糊。

更准确地说,给定 RGB 空间中的图像 xH×W×3,编码器 x 编码为潜在表示 z=(x),解码器 𝒟 从潜在表示中重建图像,得到 x~=𝒟(z)=𝒟((x)),其中 zh×w×c 重要的是,编码器 下采样 图像的倍数为 f=H/h=W/w,我们研究了不同的下采样因子 f=2m,其中 m

为了避免任意的高方差潜在空间,我们尝试了两种不同的正则化。 第一个变体,KL-reg.,对学习到的潜在变量施加了一个轻微的 KL 惩罚,使其接近标准正态分布,类似于 VAE [46, 69],而 VQ-reg. 在解码器中使用了一个向量量化层 [96] 该模型可以被解释为一个 VQGAN [23],但量化层被解码器吸收。 由于我们随后的 DM 是为我们学习的潜在空间的二维结构而设计的 z=(x),我们可以使用相对温和的压缩率并实现非常好的重建。 这与之前的工作 [23, 66] 形成对比,这些工作依赖于学习空间的任意一维排序 z 以自回归地建模其分布,从而忽略了 z 的大部分内在结构。 因此,我们的压缩模型更好地保留了 x 的细节(见表 8)。 完整的目标和训练细节可以在补充材料中找到。

3.2 潜在扩散模型

扩散模型 [82] 是概率模型,旨在通过逐渐去噪一个正态分布变量来学习数据分布 p(x),这对应于学习长度为 T 的固定马尔可夫链的逆过程。 对于图像合成,最成功的模型 [30, 15, 72] 依赖于 p(x) 上变分下界的重新加权变体,它反映了去噪得分匹配 [85] 这些模型可以解释为一系列等权重的去噪自动编码器 ϵθ(xt,t);t=1T, 它们经过训练可以预测其输入 xt 的去噪变体,其中 xt 是输入 x 的噪声版本。 相应的目标可以简化为(第 B 节)

LDM=𝔼x,ϵ𝒩(0,1),t[ϵϵθ(xt,t)22], (1)

其中 t{1,,T} 中均匀采样。

潜在表示的生成建模 有了我们训练好的感知压缩模型,包括 𝒟, 我们现在可以使用一个高效的低维潜在空间,其中高频、不可感知的细节被抽象掉了。 与高维像素空间相比,该空间更适合 基于似然的生成模型,因为它们现在可以 (i) 专注于数据的重要的语义位 并且 (ii) 在更低维的、计算效率高得多的空间中进行训练。

与以前依赖于高度压缩的离散潜在空间中的自回归、基于注意力的转换器模型的工作 [66, 23, 103] 不同, 我们可以利用我们的模型提供的特定于图像的归纳偏差。 这包括能够主要从二维卷积层构建底层的 UNet, 并进一步将目标集中在使用重新加权界限的感知上最相关的位,现在读作

Refer to caption
图 3: 我们通过串联或更通用的交叉注意力机制对 LDM 进行条件化。 参见第 3.3 节。
LLDM:=𝔼(x),ϵ𝒩(0,1),t[ϵϵθ(zt,t)22]. (2)

我们模型的 ϵθ(,t) 神经主干 通过时间条件 UNet 实现 [71] 由于前向过程是固定的,zt 可以从 在训练期间有效地获得, 并且来自 p(z) 的样本可以通过 𝒟 的单次传递解码到图像空间。

CelebAHQ FFHQ LSUN-Churches LSUN-Beds ImageNet
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 4: 来自在 CelebAHQ [39]、FFHQ [41]、LSUN-Churches [102]、LSUN-Bedrooms [102] 和类条件 ImageNet [12] 上训练的 LDM 的样本,每个样本的分辨率为 256×256 放大观看效果最佳。 更多样本请 cf. 补充材料。

3.3 条件机制

与其他类型的生成模型类似 [56, 83],扩散模型 原则上能够对以下形式的条件分布进行建模 p(z|y) 这可以通过 条件去噪自动编码器 ϵθ(zt,t,y) 实现, 并为通过 输入 y(如文本 [68]、语义地图 [61, 33] 或其他图像到图像转换任务 [34])控制合成过程铺平了道路。

然而,在图像合成的背景下,将 DM 的生成能力与其他类型的条件化相结合,超出了类标签 [15] 或输入图像的模糊变体 [72] 迄今为止,这还是一个研究不足的领域。

我们通过 用交叉注意力机制增强其底层的 UNet 主干,将 DM 转变为更灵活的条件图像生成器 [97], 它 对学习各种输入模态的基于注意力的模型非常有效 [36, 35] 为了预处理来自各种模态(如语言提示)的 y,我们引入了一个特定于领域的 编码器 τθ,它将 y 投影到中间表示 τθ(y)M×dτ,然后通过交叉注意力 层将其映射到 UNet 的中间层,实现 Attention(Q,K,V)=softmax(QKTd)V,其中

Q=WQ(i)φi(zt),K=WK(i)τθ(y),V=WV(i)τθ(y).

这里,φi(zt)N×dϵi 表示实现 ϵθWV(i)d×dϵi 的 UNet 的(扁平化)中间表示,WQ(i)d×dτWK(i)d×dτ 是可学习的投影矩阵 [97, 36] 参见图 3 以获得视觉描述。

基于图像条件配对,我们随后通过学习条件 LDM

LLDM:=𝔼(x),y,ϵ𝒩(0,1),t[ϵϵθ(zt,t,τθ(y))22], (3)

其中 τθϵθ 均通过等式 3 联合优化。 这种条件机制是灵活的,因为 τθ 可以用特定领域的专家参数化, e.g.(未掩码)transformer [97]y 为 文本提示时(参见第 4.3.1 节)

4 实验

Text-to-Image Synthesis on LAION. 1.45B Model.
’A street sign that reads “Latent Diffusion” ’ ’A zombie in the style of Picasso’ ’An image of an animal half mouse half octopus’ ’An illustration of a slightly conscious neural network’ ’A painting of a squirrel eating a burger’ ’A watercolor painting of a chair that looks like an octopus’ ’A shirt with the inscription: “I love generative models!” ’
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 5: 我们模型用于文本到图像合成的用户定义文本提示的样本,LDM-8 (KL),该模型是在 LAION [78] 数据库上训练的。 使用 200 个 DDIM 步生成的样本,并使用 η=1.0 我们使用无条件指导 [32],并使用 s=10.0
Refer to caption
Refer to caption
图 6: 分析在 ImageNet 数据集上经过 200 万个训练步后,使用不同下采样因子 f 的类条件 LDM 的训练。 基于像素的 LDM-1 与具有较大下采样因子 (LDM-{4-16}) 的模型相比,需要长得多的训练时间。 LDM-32 这样过度的感知压缩限制了样本的整体质量。 所有模型都在同一台 NVIDIA A100 上训练,具有相同的计算预算。 使用 100 个 DDIM 步 [84]κ=0 获得的结果。
Refer to caption
Refer to caption
图 7: LDM 与 CelebA-HQ(左)和 ImageNet(右)数据集上的不同压缩进行比较。 不同的标记表示{10,20,50,100,200}使用 DDIM 的采样步骤,从每行右侧到左侧。 虚线显示了 200 步的 FID 分数,表明LDM-{4-8}的强劲性能。 FID 分数在 5000 个样本上进行评估。 所有模型都在 A100 上训练了 500k(CelebA)/2M(ImageNet)步。

LDMs提供了一种灵活且计算上易处理的基于扩散的图像合成方法,可以合成各种图像模态,我们在下面进行了实证说明。 然而,首先我们分析了与基于像素的扩散模型相比,我们的模型在训练和推理方面的优势。 有趣的是,我们发现LDMsVQ正则化的潜在空间中训练时,有时可以获得更好的样本质量,即使VQ正则化的第一阶段模型的重建能力略逊于其连续对应模型,cf. 表格 8 可以从附录D.1中找到关于第一阶段正则化方案对LDM训练的影响及其对分辨率>2562的泛化能力的视觉比较。 E.2中,我们列出了本节中介绍的所有结果的体系结构、实现、训练和评估的详细信息。

4.1 关于感知压缩权衡

本节分析了我们的 LDMs 在不同下采样因子f{1,2,4,8,16,32}(简称为LDM-f,其中LDM-1对应于基于像素的 DMs)下的行为。 为了获得一个可比的测试场,我们将计算资源固定在一个 NVIDIA A100 上,用于本节中的所有实验,并对所有模型进行相同数量的步骤训练,并且使用相同数量的参数。

表格 8显示了本节中比较的LDMs所使用的第一阶段模型的超参数和重建性能。 6显示了在 ImageNet [12] 数据集上针对类条件模型的 2M 步训练过程中,样本质量与训练进度的关系。 我们看到,i)LDM-{1,2} 的下采样因子较小,会导致训练进度缓慢,而 ii)f 的值过大,会导致在经过相对较少的训练步骤后,保真度停滞不前。 回顾上述分析(图 12),我们将此归因于 i)将大部分感知压缩留给扩散模型,以及 ii)第一阶段压缩过强,导致信息丢失,从而限制了可实现的质量。 LDM-{4-16} 在效率和感知保真度结果之间取得良好的平衡, 这表现在基于像素的扩散 (LDM-1) 和 LDM-8 在 200 万次训练步骤后,FID [29] 差距为 38。

在图 7 中,我们比较了在 CelebA-HQ [39] 和 ImageNet 上训练的模型,使用 DDIM 采样器 [84],针对不同数量的去噪步骤比较了采样速度,并将采样速度与 FID 分数 [29] 作图。 LDM-{4-8} 优于具有不合适感知和概念压缩比例的模型。 特别是与 基于像素的 LDM-1 相比,它们实现了更低的 FID 分数,同时显著提高了样本吞吐量。 像 ImageNet 这样的复杂数据集需要降低压缩率以避免 降低质量。 总之,LDM-4-8 为实现高质量合成结果提供了最佳条件。

CelebA-HQ 256×256 FFHQ 256×256 Method FID Prec. Recall Method FID Prec. Recall DC-VAE [63] 15.8 - - ImageBART [21] 9.57 - - VQGAN+T. [23] (k=400) 10.2 - - U-Net GAN (+aug) [77] 10.9 (7.6) - - PGGAN [39] 8.0 - - UDM [43] 5.54 - - LSGM [93] 7.22 - - StyleGAN [41] 4.16 0.71 0.46 UDM [43] 7.16 - - ProjectedGAN[76] 3.08 0.65 0.46 LDM-4 (ours, 500-s) 5.11 0.72 0.49 LDM-4 (ours, 200-s) 4.98 0.73 0.50

LSUN-Churches 256×256 LSUN-Bedrooms 256×256 Method FID Prec. Recall Method FID Prec. Recall DDPM [30] 7.89 - - ImageBART [21] 5.51 - - ImageBART[21] 7.32 - - DDPM [30] 4.9 - - PGGAN [39] 6.42 - - UDM [43] 4.57 - - StyleGAN[41] 4.21 - - StyleGAN[41] 2.35 0.59 0.48 StyleGAN2[42] 3.86 - - ADM [15] 1.90 0.66 0.51 ProjectedGAN[76] 1.59 0.61 0.44 ProjectedGAN[76] 1.52 0.61 0.34 LDM-8 (ours, 200-s) 4.02 0.64 0.52 LDM-4 (ours, 200-s) 2.95 0.66 0.48

表 1: 无条件图像 合成的评估指标。 来自 [63, 100, 43] 的 CelebA-HQ 结果, 来自 [42, 43] 的 FFHQ。 : N-s 指的是使用 DDIM [84] 采样器进行的 N 采样步骤。 : 在 KL 正则化潜空间中训练。 可以在补充材料中找到其他结果。

Text-Conditional Image Synthesis Method FID IS Nparams CogView [17] 27.10 18.20 4B self-ranking, rejection rate 0.017 LAFITE [109] 26.94 26.02 75M GLIDE [59] 12.24 - 6B 277 DDIM steps, c.f.g. [32] s=3 Make-A-Scene [26] 11.84 - 4B c.f.g for AR models [98] s=5 LDM-KL-8 23.31 20.03±0.33 1.45B 250 DDIM steps LDM-KL-8-G 12.63 30.29±0.42 1.45B 250 DDIM steps, c.f.g. [32] s=1.5

表 2: 256×256 大小的 MS-COCO [51] 数据集上评估文本条件图像合成的结果:使用 250 个 DDIM [84] 步骤,我们的模型与最新的扩散 [59] 和自回归 [26] 方法相当,尽管使用明显更少的参数。 /: 来自 [109]/ [26] 的数字

4.2 使用潜在扩散进行图像生成

我们在 CelebA-HQ [39]、FFHQ [41]、LSUN-Churches 和 -Bedrooms [102] 上训练了 2562 图像的无条件模型,并评估了 i) 样本质量和 ii) 它们对数据流形的覆盖率,使用 ii) FID [29] 和 ii) 精度和召回率 [50] 1 总结了我们的结果。 在 CelebA-HQ 上,我们报告了一个新的最先进的 FID 为 5.11,优于之前的基于似然的模型以及 GAN。 我们也优于 LSGM [93],其中一个潜在扩散模型与第一阶段一起训练。 相反,我们在固定空间中训练扩散模型,并避免了在学习潜在空间先验时权衡重建质量的困难,见图 1-2

在除了 LSUN-Bedrooms 数据集之外的所有数据集上,我们都优于之前的基于扩散的方法,在该数据集上,我们的得分接近 ADM [15],尽管使用了其参数的一半,并且所需的训练资源减少了 4 倍(见附录 E.3.5)。 此外,LDM 在精度和召回率方面始终优于基于 GAN 的方法,从而证实了它们的基于模式覆盖的似然训练目标相对于对抗方法的优势。 在图 4 中,我们还展示了每个数据集上的定性结果。

4.3 条件潜在扩散

Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 8 在 COCO [4] 上使用 LDM 进行布局到图像的合成,见第 4.3.1 节。 定量评估见补充材料 D.3

4.3.1 用于 LDM 的 Transformer 编码器

通过将基于交叉注意力的条件引入 LDM,我们为它们打开了以前未在扩散模型中探索过的各种条件模式。 对于 文本到图像 图像建模,我们在 LAION-400M [78] 上训练了一个 14.5 亿参数的 KL 正则化 LDM,该模型以语言提示为条件。 我们采用了 BERT 词汇器 [14] 并将 τθ 实现为一个 Transformer [97] 来推断一个潜在代码,该代码通过(多头)交叉注意力(第 3.3 节)映射到 UNet。 这种将特定领域专家用于学习语言表示和视觉合成相结合的方法,产生了功能强大的模型,该模型能够很好地推广到复杂的用户定义文本提示, cf.85 为了进行定量分析,我们遵循先前工作并评估了 MS-COCO [51] 验证集上的文本到图像生成,我们的模型在强大的 AR [66, 17] 和基于 GAN 的 [109] 方法上有所改进, cf.2 我们注意到,应用无分类器扩散引导 [32] 极大地提高了样本质量,使得引导的 LDM-KL-8-G 与最近的文本到图像合成的最先进的 AR [26] 和扩散模型 [59] 相当,同时大大减少了参数数量。 为了进一步分析基于交叉注意力的条件机制的灵活性,我们还训练模型根据 语义布局 在 OpenImages [49] 上合成图像,并在 COCO [4] 上进行微调,参见图 8 请参阅第 D.3 节了解定量评估和实现细节。

最后,遵循先前工作 [15, 3, 23, 21],我们在表 3、图 4 和第 D.4 节中评估了我们性能最佳的 类别条件 ImageNet 模型 f{4,8},来自第 4.1 节。 在这里,我们超越了最先进的扩散模型 ADM [15],同时显著减少了计算需求和参数数量,cf.18

Method FID IS Precision Recall Nparams BigGan-deep [3] 6.95 203.6±2.6 0.87 0.28 340M - ADM [15] 10.94 100.98 0.69 0.63 554M 250 DDIM steps ADM-G [15] 4.59 186.7 0.82 0.52 608M 250 DDIM steps LDM-4 (ours) 10.56 103.49±1.24 0.71 0.62 400M 250 DDIM steps LDM-4-G (ours) 3.60 247.67±5.59 0.87 0.48 400M 250 steps, c.f.g [32], s=1.5

表 3 类别条件 ImageNet LDM 与 ImageNet [12] 上类别条件图像生成最新最先进方法的比较。 可以在 D.4、表 10F 中找到与其他基准的更详细的比较。 c.f.g. 表示使用尺度 s 的无分类器引导,如 [32] 中所提出。

4.3.2 超越 2562 的卷积采样

通过将空间对齐的条件信息连接到 ϵθ 的输入,LDM 可以用作有效的通用图像到图像转换模型。 我们使用它来训练用于语义合成、超分辨率(第 4.4 节)和修复(第 4.5 节)的模型。 对于语义合成,我们使用与语义地图 [61, 23] 配对的景观图像,并将语义地图的降采样版本与 f=4 模型(VQ-reg,参见表 8)的潜在图像表示连接起来。 我们在 2562 的输入分辨率上进行训练(来自 3842 的裁剪),但发现我们的模型可以推广到更大的分辨率,并且可以在以卷积方式评估时生成高达百万像素级别的图像(参见图 9)。 我们利用这种行为,也将第 4.4 节中的超分辨率模型和第 4.5 节中的修复模型应用于在 512210242 之间生成大型图像。 对于此应用,信噪比(由潜在空间的大小引起)会显著影响结果。 在第 D.1 节中,我们说明了当在 (i) 由 f=4 模型提供的潜在空间(KL-reg,见表 8)和 (ii) 按分量标准差缩放的重新缩放版本上学习 LDM 时的情况。

后者与无分类器引导 [32] 相结合,也允许直接合成文本条件 LDM-KL-8-G>2562 图像,如 图 13 所示。

Refer to caption
图 9: 2562 分辨率上训练的 LDM 可以推广到更大的分辨率(此处为:512×1024),用于空间条件任务,例如景观图像的语义合成。 见第 4.3.2 节。

4.4 利用潜在扩散进行超分辨率

LDMs 可以通过直接对低分辨率图像进行条件化(cf3.3 节)来有效地训练用于超分辨率。 在第一个实验中,我们遵循 SR3 [72],并将图像退化固定为具有 4× 下采样的双三次插值,并在 ImageNet 上训练,遵循 SR3 的数据处理流水线。 我们使用在 OpenImages 上预训练的 f=4 自动编码模型(VQ-reg,cf8),并将低分辨率条件化 y 和输入连接到 UNet,i.e τθ 是恒等式。 我们的定性和定量结果(见 图 10 和 表 5)显示出具有竞争力的性能,并且 LDM-SR 在 FID 上优于 SR3,而 SR3 在 IS 上表现更好。 一个简单的图像回归模型实现了最高的 PSNR 和 SSIM 分数;但是,这些指标与人类感知并不一致 [106],并且更偏向于模糊,而不是不完美对齐的高频细节 [72] 此外,我们进行了一项用户研究,比较了像素基线与 LDM-SR。我们遵循 SR3 [72],其中受试者被展示了一个低分辨率图像,该图像位于两个高分辨率图像之间,并被要求选择他们更喜欢的图像。 4 中的结果证实了 LDM-SR 的良好性能。 PSNR 和 SSIM 可以通过使用事后引导机制 [15] 来提高,我们通过感知损失实现了这种 基于图像的引导器,见第 D.6 节。

bicubic LDM-SR SR3
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
图 10: ImageNet 64256 超分辨率在 ImageNet-Val 上。 LDM-SR 在渲染逼真的纹理方面具有优势,但 SR3 可以合成更连贯的精细结构。 请参见附录以获取更多样本和裁剪。 SR3 的结果来自 [72]

SR on ImageNet Inpainting on Places User Study Pixel-DM (f1) LDM-4 LAMA [88] LDM-4 Task 1: Preference vs GT 16.0% 30.4% 13.6% 21.0% Task 2: Preference Score 29.4% 70.6% 31.9% 68.1%

表 4 任务 1:向受试者展示真实图像和生成的图像,并要求他们选择更喜欢的图像。 任务 2:受试者必须在两张生成的图像之间做出选择。 更多详情请见 E.3.6

由于双三次降级过程并不适用于不遵循此预处理的图像,因此我们还通过使用更多样化的降级训练了一个通用模型 LDM-BSR 结果见第 D.6.1 节。

Method FID IS PSNR SSIM Nparams [sampless]() Image Regression [72] 15.2 121.1 27.9 0.801 625M N/A SR3 [72] 5.2 180.1 26.4 0.762 625M N/A LDM-4 (ours, 100 steps) 2.8/4.8 166.3 24.4±3.8 0.69±0.14 169M 4.62 emphLDM-4 (ours, big, 100 steps) 2.4/4.3 174.9 24.7±4.1 0.71±0.15 552M 4.5 LDM-4 (ours, 50 steps, guiding) 4.4/6.4 153.7 25.8±3.7 0.74±0.12 184M 0.38

表 5 ×4 上采样结果在 ImageNet-Val 上。 (2562); :在验证集上计算的 FID 特征,:在训练集上计算的 FID 特征; :在 NVIDIA A100 上评估

4.5 用潜在扩散进行修复

修复是使用新内容填充图像中被遮蔽区域的任务,无论是由于图像的一部分被损坏,还是为了替换图像中现有的但不需要的内容。 我们评估了我们 用于条件图像生成的通用方法与针对该任务的更专业、 最先进的方法的比较。 我们的评估遵循 LaMa[88] 的协议,LaMa 是一种最近提出的图像修复模型,它引入了一种依赖于快速傅里叶卷积[8] 的专用架构。 Places[108] 上的精确训练和评估协议在第 E.2.2 节中描述。

我们首先分析了第一阶段不同设计选择的影响。

train throughput sampling throughput train+val FID@2k Model (reg.-type) samples/sec. @256 @512 hours/epoch epoch 6 LDM-1 (no first stage) 0.11 0.26 0.07 20.66 24.74 LDM-4 (KL, w/ attn) 0.32 0.97 0.34 7.66 15.21 LDM-4 (VQ, w/ attn) 0.33 0.97 0.34 7.04 14.99 LDM-4 (VQ, w/o attn) 0.35 0.99 0.36 6.66 15.95

表 6: 评估图像修复效率。 : 图 7 中的偏差,原因是不同的 GPU 设置/批次大小cf. 补充材料。
input result
Refer to caption Refer to caption
Refer to caption Refer to caption
Refer to caption Refer to caption
图 11: 我们大型,带微调图像修复模型在物体移除方面的定性结果。 更多结果请参见图 22

特别地,我们将 LDM-1 (. 基于像素的条件 DM) 与 LDM-4 的图像修复效率进行了比较,分别针对 KLVQ 正则化, 以及没有第一阶段注意力的 VQ-LDM-4 (参见表 8),其中后者减少了高分辨率解码的 GPU 内存。 为了可比性,我们为所有模型固定了参数数量。 6 报告了在 25625122 分辨率下的训练和采样吞吐量,每个 epoch 的总训练时间(以小时计)以及六个 epoch 后验证集上的 FID 分数。 总体而言, 我们观察到基于像素的扩散模型和基于潜在的扩散模型之间至少有 2.7× 倍的速度提升,同时将 FID 分数提高了至少 1.6× 倍。

与表 7 中的其他图像修复方法的比较表明,我们具有注意力的模型在 FID 方面提高了整体图像质量,优于 [88] 未掩盖图像和我们样本之间的 LPIPS 比 [88] 稍高。 我们将此归因于 [88] 仅产生单个结果,该结果往往会恢复更多平均图像,与我们的 LDM 生成的多样化结果相比 cf.21 此外,在用户研究(表 4)中,人类受试者更倾向于我们的结果,而不是 [88] 中的结果。

基于这些初步结果,我们还在 VQ 正则化第一阶段的潜在空间中训练了一个更大的扩散模型(表 7 中的 big),该模型不使用注意力机制。 遵循 [15],该扩散模型的 UNet 在其特征层次结构的三个级别上使用注意力层,BigGAN [3] 残差块用于上采样和下采样,并且具有 387M 个参数,而不是 215M 个。 训练后,我们注意到在分辨率 25625122 上生成的样本质量存在差异,我们推测这是由额外的注意力模块引起的。 然而,对模型进行半轮的微调,在分辨率 5122 上进行,可以让模型适应新的特征统计,并为图像修复设置了一个新的最先进的 FID(表 7,图 11 中的 big, w/o attn, w/ ft)。 )。

40-50% masked All samples Method FID LPIPS FID LPIPS LDM-4 (ours, big, w/ ft) 9.39 0.246± 0.042 1.50 0.137± 0.080 LDM-4 (ours, big, w/o ft) 12.89 0.257± 0.047 2.40 0.142± 0.085 LDM-4 (ours, w/ attn) 11.87 0.257± 0.042 2.15 0.144± 0.084 LDM-4 (ours, w/o attn) 12.60 0.259± 0.041 2.37 0.145± 0.084 LaMa[88] 12.31 0.243± 0.038 2.23 0.134± 0.080 LaMa[88] 12.0 0.24± 0.000 2.21 0.14± 0.000 CoModGAN[107] 10.4 0.26± 0.000 1.82 0.15± 0.000 RegionWise[52] 21.3 0.27± 0.000 4.75 0.15± 0.000 DeepFill v2[104] 22.1 0.28± 0.000 5.20 0.16± 0.000 EdgeConnect[58] 30.5 0.28± 0.000 8.37 0.16± 0.000

表 7 对 Places[108] 测试图像中大小为 512×512 的 30k 个裁剪进行图像修复性能比较。 40-50% 列报告了在图像区域有 40-50% 需要修复的困难样本上计算的指标。 在我们测试集上重新计算,因为 [88] 中使用的原始测试集不可用。

5 局限性与社会影响

局限性

虽然 LDMs 与基于像素的方法相比显著降低了计算需求,但它们的顺序采样过程仍然比 GANs 慢。 此外,当需要高精度时,使用 LDMs 可能会存在疑问:虽然在我们的 f=4 自动编码模型中图像质量的损失非常小(参见图 1),但它们的重建能力可能会成为需要在像素空间中进行细粒度精度的任务的瓶颈。 我们假设我们的超分辨率模型(第 4.4 节)在这方面已经有一些限制。

社会影响

用于媒体(如图像)的生成模型是一把双刃剑:一方面,它们可以实现各种创意应用,特别是像我们这样的方法,可以降低训练和推理成本,有可能促进对这项技术的访问,并使它的探索民主化。 另一方面,这也意味着更容易创建和传播操纵的数据,或者传播虚假信息和垃圾邮件。 特别是,图像的故意操纵(“深度伪造”)在这个背景下是一个常见问题,而女性受到的影响尤为严重 [13, 24]

生成模型还可以揭示它们的训练数据 [5, 90],当数据包含敏感或个人信息,并且是在没有明确同意的情况下收集的时,这令人非常担忧。 然而,这在多大程度上也适用于图像的 DM 尚不清楚。

最后,深度学习模块往往会复制或加剧数据中已经存在的偏差 [91, 38, 22] 虽然扩散模型比 e.g. 基于 GAN 的方法实现了对数据分布的更好的覆盖,但我们的两阶段方法将对抗性训练和基于似然的目标相结合,在多大程度上误解了数据仍然是一个重要的研究问题。

有关深度生成模型的伦理考量更一般、更详细的讨论,参见 e.g. [13]

6 结论

我们介绍了潜在扩散模型,这是一种简单而有效的方法,可以显着提高去噪扩散模型的训练和采样效率,而不会降低它们的质量。 基于此以及我们的交叉注意力条件机制,我们的实验表明,与最先进的方法相比,在广泛的条件图像合成任务中,无需特定于任务的体系结构,可以获得良好的结果。 这项工作得到了德国联邦经济事务和能源部在项目“KI-Absicherung - 自动驾驶安全人工智能”中的支持,并得到了德国研究基金会 (DFG) 项目 421703927 的支持。

参考文献

  • [1] Eirikur Agustsson and Radu Timofte. NTIRE 2017 challenge on single image super-resolution: Dataset and study. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2017, Honolulu, HI, USA, July 21-26, 2017, pages 1122–1131. IEEE Computer Society, 2017.
  • [2] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein gan, 2017.
  • [3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. In Int. Conf. Learn. Represent., 2019.
  • [4] Holger Caesar, Jasper R. R. Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018, pages 1209–1218. Computer Vision Foundation / IEEE Computer Society, 2018.
  • [5] Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, et al. Extracting training data from large language models. In 30th USENIX Security Symposium (USENIX Security 21), pages 2633–2650, 2021.
  • [6] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. Generative pretraining from pixels. In ICML, volume 119 of Proceedings of Machine Learning Research, pages 1691–1703. PMLR, 2020.
  • [7] Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, and William Chan. Wavegrad: Estimating gradients for waveform generation. In ICLR. OpenReview.net, 2021.
  • [8] Lu Chi, Borui Jiang, and Yadong Mu. Fast fourier convolution. In NeurIPS, 2020.
  • [9] Rewon Child. Very deep vaes generalize autoregressive models and can outperform them on images. CoRR, abs/2011.10650, 2020.
  • [10] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. CoRR, abs/1904.10509, 2019.
  • [11] Bin Dai and David P. Wipf. Diagnosing and enhancing VAE models. In ICLR (Poster). OpenReview.net, 2019.
  • [12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255. IEEE Computer Society, 2009.
  • [13] Emily Denton. Ethical considerations of generative ai. AI for Content Creation Workshop, CVPR, 2021.
  • [14] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018.
  • [15] Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. CoRR, abs/2105.05233, 2021.
  • [16] Sander Dieleman. Musings on typicality, 2020.
  • [17] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, and Jie Tang. Cogview: Mastering text-to-image generation via transformers. CoRR, abs/2105.13290, 2021.
  • [18] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice: Non-linear independent components estimation, 2015.
  • [19] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio. Density estimation using real NVP. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017.
  • [20] Alexey Dosovitskiy and Thomas Brox. Generating images with perceptual similarity metrics based on deep networks. In Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, Adv. Neural Inform. Process. Syst., pages 658–666, 2016.
  • [21] Patrick Esser, Robin Rombach, Andreas Blattmann, and Björn Ommer. Imagebart: Bidirectional context with multinomial diffusion for autoregressive image synthesis. CoRR, abs/2108.08827, 2021.
  • [22] Patrick Esser, Robin Rombach, and Björn Ommer. A note on data biases in generative models. arXiv preprint arXiv:2012.02516, 2020.
  • [23] Patrick Esser, Robin Rombach, and Björn Ommer. Taming transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020.
  • [24] Mary Anne Franks and Ari Ezra Waldman. Sex, lies, and videotape: Deep fakes and free speech delusions. Md. L. Rev., 78:892, 2018.
  • [25] Kevin Frans, Lisa B. Soros, and Olaf Witkowski. Clipdraw: Exploring text-to-drawing synthesis through language-image encoders. ArXiv, abs/2106.14843, 2021.
  • [26] Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, and Yaniv Taigman. Make-a-scene: Scene-based text-to-image generation with human priors. CoRR, abs/2203.13131, 2022.
  • [27] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. Generative adversarial networks. CoRR, 2014.
  • [28] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron Courville. Improved training of wasserstein gans, 2017.
  • [29] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Adv. Neural Inform. Process. Syst., pages 6626–6637, 2017.
  • [30] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
  • [31] Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. CoRR, abs/2106.15282, 2021.
  • [32] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021.
  • [33] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, pages 5967–5976. IEEE Computer Society, 2017.
  • [34] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967–5976, 2017.
  • [35] Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier J. Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, and João Carreira. Perceiver IO: A general architecture for structured inputs &outputs. CoRR, abs/2107.14795, 2021.
  • [36] Andrew Jaegle, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman, and João Carreira. Perceiver: General perception with iterative attention. In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event, volume 139 of Proceedings of Machine Learning Research, pages 4651–4664. PMLR, 2021.
  • [37] Manuel Jahn, Robin Rombach, and Björn Ommer. High-resolution complex scene synthesis with transformers. CoRR, abs/2105.06458, 2021.
  • [38] Niharika Jain, Alberto Olmo, Sailik Sengupta, Lydia Manikonda, and Subbarao Kambhampati. Imperfect imaganation: Implications of gans exacerbating biases on facial data augmentation and snapchat selfie lenses. arXiv preprint arXiv:2001.09528, 2020.
  • [39] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. CoRR, abs/1710.10196, 2017.
  • [40] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In IEEE Conf. Comput. Vis. Pattern Recog., pages 4401–4410, 2019.
  • [41] T. Karras, S. Laine, and T. Aila. A style-based generator architecture for generative adversarial networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
  • [42] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. CoRR, abs/1912.04958, 2019.
  • [43] Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, and Il-Chul Moon. Score matching model for unbounded data score. CoRR, abs/2106.05527, 2021.
  • [44] Durk P Kingma and Prafulla Dhariwal. Glow: Generative flow with invertible 1x1 convolutions. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, 2018.
  • [45] Diederik P. Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. CoRR, abs/2107.00630, 2021.
  • [46] Diederik P. Kingma and Max Welling. Auto-Encoding Variational Bayes. In 2nd International Conference on Learning Representations, ICLR, 2014.
  • [47] Zhifeng Kong and Wei Ping. On fast sampling of diffusion probabilistic models. CoRR, abs/2106.00132, 2021.
  • [48] Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile diffusion model for audio synthesis. In ICLR. OpenReview.net, 2021.
  • [49] Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper R. R. Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan Popov, Matteo Malloci, Tom Duerig, and Vittorio Ferrari. The open images dataset V4: unified image classification, object detection, and visual relationship detection at scale. CoRR, abs/1811.00982, 2018.
  • [50] Tuomas Kynkäänniemi, Tero Karras, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Improved precision and recall metric for assessing generative models. CoRR, abs/1904.06991, 2019.
  • [51] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, Lubomir D. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. Microsoft COCO: common objects in context. CoRR, abs/1405.0312, 2014.
  • [52] Yuqing Ma, Xianglong Liu, Shihao Bai, Le-Yi Wang, Aishan Liu, Dacheng Tao, and Edwin Hancock. Region-wise generative adversarial imageinpainting for large missing areas. ArXiv, abs/1909.12507, 2019.
  • [53] Chenlin Meng, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. Sdedit: Image synthesis and editing with stochastic differential equations. CoRR, abs/2108.01073, 2021.
  • [54] Lars M. Mescheder. On the convergence properties of GAN training. CoRR, abs/1801.04406, 2018.
  • [55] Luke Metz, Ben Poole, David Pfau, and Jascha Sohl-Dickstein. Unrolled generative adversarial networks. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017.
  • [56] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. CoRR, abs/1411.1784, 2014.
  • [57] Gautam Mittal, Jesse H. Engel, Curtis Hawthorne, and Ian Simon. Symbolic music generation with diffusion models. CoRR, abs/2103.16091, 2021.
  • [58] Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, and Mehran Ebrahimi. Edgeconnect: Generative image inpainting with adversarial edge learning. ArXiv, abs/1901.00212, 2019.
  • [59] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. CoRR, abs/2112.10741, 2021.
  • [60] Anton Obukhov, Maximilian Seitzer, Po-Wei Wu, Semen Zhydenko, Jonathan Kyl, and Elvis Yu-Jing Lin. High-fidelity performance metrics for generative models in pytorch, 2020. Version: 0.3.0, DOI: 10.5281/zenodo.4957738.
  • [61] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019.
  • [62] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.
  • [63] Gaurav Parmar, Dacheng Li, Kwonjoon Lee, and Zhuowen Tu. Dual contradistinctive generative autoencoder. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021, pages 823–832. Computer Vision Foundation / IEEE, 2021.
  • [64] Gaurav Parmar, Richard Zhang, and Jun-Yan Zhu. On buggy resizing libraries and surprising subtleties in fid calculation. arXiv preprint arXiv:2104.11222, 2021.
  • [65] David A. Patterson, Joseph Gonzalez, Quoc V. Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David R. So, Maud Texier, and Jeff Dean. Carbon emissions and large neural network training. CoRR, abs/2104.10350, 2021.
  • [66] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. CoRR, abs/2102.12092, 2021.
  • [67] Ali Razavi, Aäron van den Oord, and Oriol Vinyals. Generating diverse high-fidelity images with VQ-VAE-2. In NeurIPS, pages 14837–14847, 2019.
  • [68] Scott E. Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, and Honglak Lee. Generative adversarial text to image synthesis. In ICML, 2016.
  • [69] Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic backpropagation and approximate inference in deep generative models. In Proceedings of the 31st International Conference on International Conference on Machine Learning, ICML, 2014.
  • [70] Robin Rombach, Patrick Esser, and Björn Ommer. Network-to-network translation with conditional invertible neural networks. In NeurIPS, 2020.
  • [71] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI (3), volume 9351 of Lecture Notes in Computer Science, pages 234–241. Springer, 2015.
  • [72] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. CoRR, abs/2104.07636, 2021.
  • [73] Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P. Kingma. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications. CoRR, abs/1701.05517, 2017.
  • [74] Dave Salvator. NVIDIA Developer Blog. https://developer.nvidia.com/blog/getting-immediate-speedups-with-a100-tf32, 2020.
  • [75] Robin San-Roman, Eliya Nachmani, and Lior Wolf. Noise estimation for generative diffusion models. CoRR, abs/2104.02600, 2021.
  • [76] Axel Sauer, Kashyap Chitta, Jens Müller, and Andreas Geiger. Projected gans converge faster. CoRR, abs/2111.01007, 2021.
  • [77] Edgar Schönfeld, Bernt Schiele, and Anna Khoreva. A u-net based discriminator for generative adversarial networks. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020, pages 8204–8213. Computer Vision Foundation / IEEE, 2020.
  • [78] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs, 2021.
  • [79] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In Yoshua Bengio and Yann LeCun, editors, Int. Conf. Learn. Represent., 2015.
  • [80] Abhishek Sinha, Jiaming Song, Chenlin Meng, and Stefano Ermon. D2C: diffusion-denoising models for few-shot conditional generation. CoRR, abs/2106.06819, 2021.
  • [81] Charlie Snell. Alien Dreams: An Emerging Art Scene. https://ml.berkeley.edu/blog/posts/clip-art/, 2021. [Online; accessed November-2021].
  • [82] Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015.
  • [83] Kihyuk Sohn, Honglak Lee, and Xinchen Yan. Learning structured output representation using deep conditional generative models. In C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 28. Curran Associates, Inc., 2015.
  • [84] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR. OpenReview.net, 2021.
  • [85] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. CoRR, abs/2011.13456, 2020.
  • [86] Emma Strubell, Ananya Ganesh, and Andrew McCallum. Energy and policy considerations for modern deep learning research. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 13693–13696. AAAI Press, 2020.
  • [87] Wei Sun and Tianfu Wu. Learning layout and style reconfigurable gans for controllable image synthesis. CoRR, abs/2003.11571, 2020.
  • [88] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor S. Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. ArXiv, abs/2109.07161, 2021.
  • [89] Tristan Sylvain, Pengchuan Zhang, Yoshua Bengio, R. Devon Hjelm, and Shikhar Sharma. Object-centric image generation from layouts. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021, pages 2647–2655. AAAI Press, 2021.
  • [90] Patrick Tinsley, Adam Czajka, and Patrick Flynn. This face does not exist… but it might be yours! identity leakage in generative models. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1320–1328, 2021.
  • [91] Antonio Torralba and Alexei A Efros. Unbiased look at dataset bias. In CVPR 2011, pages 1521–1528. IEEE, 2011.
  • [92] Arash Vahdat and Jan Kautz. NVAE: A deep hierarchical variational autoencoder. In NeurIPS, 2020.
  • [93] Arash Vahdat, Karsten Kreis, and Jan Kautz. Score-based generative modeling in latent space. CoRR, abs/2106.05931, 2021.
  • [94] Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, koray kavukcuoglu, Oriol Vinyals, and Alex Graves. Conditional image generation with pixelcnn decoders. In Advances in Neural Information Processing Systems, 2016.
  • [95] Aäron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. CoRR, abs/1601.06759, 2016.
  • [96] Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In NIPS, pages 6306–6315, 2017.
  • [97] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.
  • [98] Rivers Have Wings. Tweet on Classifier-free guidance for autoregressive models. https://twitter.com/RiversHaveWings/status/1478093658716966912, 2022.
  • [99] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, and Jamie Brew. Huggingface’s transformers: State-of-the-art natural language processing. CoRR, abs/1910.03771, 2019.
  • [100] Zhisheng Xiao, Karsten Kreis, Jan Kautz, and Arash Vahdat. VAEBM: A symbiosis between variational autoencoders and energy-based models. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net, 2021.
  • [101] Wilson Yan, Yunzhi Zhang, Pieter Abbeel, and Aravind Srinivas. Videogpt: Video generation using VQ-VAE and transformers. CoRR, abs/2104.10157, 2021.
  • [102] Fisher Yu, Yinda Zhang, Shuran Song, Ari Seff, and Jianxiong Xiao. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. CoRR, abs/1506.03365, 2015.
  • [103] Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan, 2021.
  • [104] Jiahui Yu, Zhe L. Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S. Huang. Free-form image inpainting with gated convolution. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 4470–4479, 2019.
  • [105] K. Zhang, Jingyun Liang, Luc Van Gool, and Radu Timofte. Designing a practical degradation model for deep blind image super-resolution. ArXiv, abs/2103.14006, 2021.
  • [106] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
  • [107] Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. ArXiv, abs/2103.10428, 2021.
  • [108] Bolei Zhou, Àgata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40:1452–1464, 2018.
  • [109] Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu, Jiuxiang Gu, Jinhui Xu, and Tong Sun. LAFITE: towards language-free training for text-to-image generation. CoRR, abs/2111.13792, 2021.

附录

Refer to caption
Refer to caption
Refer to caption
图 12: 来自语义景观模型的卷积样本,如第 4.3.2 节所示,在 5122 图像上微调。
’A painting of the last supper by Picasso.’
Refer to caption
’An oil painting of a latent space.’ ’An epic painting of Gandalf the Black summoning thunder and lightning in the mountains.’
Refer to caption Refer to caption
’A sunset over a mountain range, vector image.’
Refer to caption
图 13: 将无分类器扩散引导与第 4.3.2 节中的卷积采样策略相结合,我们的 1.45B 参数文本到图像模型可用于渲染比模型训练的原始 2562 分辨率更大的图像。

附录 A 变更日志

这里列出了本文的这个版本 (https://arxiv.org/abs/2112.10752v2) 与之前版本之间的更改,即 i.e. https://arxiv.org/abs/2112.10752v1

  • 我们更新了第 4.3 节中关于文本到图像合成的结果,这些结果是通过训练一个新的更大的模型 (1.45B 参数) 获得的。 这还包括一项新的比较,比较了在 arXiv 上与我们的工作同时 ([59, 109]) 或之后 ([26]) 发布的这项任务的最新竞争方法。

  • 我们更新了第 4.1 节中 ImageNet 上关于类条件合成的结果,表 3 (另请参见第 D.4 节),这些结果是通过使用更大的批次大小重新训练模型获得的。 26 和图 27 中相应的定性结果也进行了更新。 更新后的文本到图像模型和类条件模型现在都使用无分类器引导 [32] 作为提高视觉保真度的措施。

  • 我们进行了一项用户研究 (遵循 Saharia 等人 [72] 提出的方案),该研究为我们的修复 (第 4.5 节) 和超分辨率模型 (第 4.4 节) 提供了额外的评估。

  • 将图 5 添加到正文中,将图 18 移至附录中,将图 13 添加到附录中。

附录 B 关于去噪扩散模型的详细信息

扩散模型可以用信噪比表示 SNR(t)=αt2σt2 由 序列 (αt)t=1T(σt)t=1T 组成,这些序列从 数据样本 x0 开始,定义了一个前向扩散过程 q 如下

q(xt|x0)=𝒩(xt|αtx0,σt2𝕀) (4)

s<t 的马尔可夫结构为:

q(xt|xs) =𝒩(xt|αt|sxs,σt|s2𝕀) (5)
αt|s =αtαs (6)
σt|s2 =σt2αt|s2σs2 (7)

去噪扩散模型是生成模型 p(x0),它们以类似的马尔可夫结构逆转这个过程,时间倒流,即 i.e. 它们被指定为

p(x0)=zp(xT)t=1Tp(xt1|xt) (8)

与此模型相关的证据下界 (ELBO) 然后在 离散时间步长上分解为

logp(x0)𝕂𝕃(q(xT|x0)|p(xT))+t=1T𝔼q(xt|x0)𝕂𝕃(q(xt1|xt,x0)|p(xt1|xt)) (9)

先前的 p(xT) 通常被选择为标准正态分布,并且 ELBO 的第一项仅取决于最终的信噪比 SNR(T) 为了最小化剩余项,对 p(xt1|xt) 进行参数化的常用选择是在真后验 q(xt1|xt,x0) 的基础上指定它,但用基于当前步骤 xt 的估计值 xθ(xt,t) 代替未知的 x0 这给出了 [45]

p(xt1|xt) q(xt1|xt,xθ(xt,t)) (10)
=𝒩(xt1|μθ(xt,t),σt|t12σt12σt2𝕀), (11)

其中均值可以表示为

μθ(xt,t)=αt|t1σt12σt2xt+αt1σt|t12σt2xθ(xt,t). (12)

在这种情况下,ELBO 的总和简化为

t=1T𝔼q(xt|x0)𝕂𝕃(q(xt1|xt,x0)|p(xt1)=t=1T𝔼𝒩(ϵ|0,𝕀)12(SNR(t1)SNR(t))x0xθ(αtx0+σtϵ,t)2 (13)

遵循 [30],我们使用重参数化

ϵθ(xt,t)=(xtαtxθ(xt,t))/σt (14)

将重建项表示为去噪目标,

x0xθ(αtx0+σtϵ,t)2=σt2αt2ϵϵθ(αtx0+σtϵ,t)2 (15)

以及重新加权,它为每个项分配相同的权重,并得到公式 ( 1 )。

附录 C 图像引导机制

Samples 2562 Guided Convolutional Samples 5122 Convolutional Samples 5122
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
图 14 在景观上,使用无条件模型进行卷积采样会导致均匀且不连贯的全局结构(参见第 2 列)。 L2-引导使用低分辨率图像可以帮助重建连贯的全局结构。

扩散模型的一个引人注目的特征是无条件模型可以在测试时进行条件化 [85, 82, 15] 特别是,[15] 提出了一种算法,用于指导使用分类器 logpΦ(y|xt) 在 ImageNet 数据集上训练的无条件和条件模型,该分类器在每个 xt 上进行训练扩散过程。 我们直接基于这种公式并引入了事后 图像引导

对于具有固定方差的 epsilon 参数化模型,[15] 中介绍的引导算法如下:

ϵ^ϵθ(zt,t)+1αt2ztlogpΦ(y|zt). (16)

这可以解释为用条件分布更新“分数” ϵθlogpΦ(y|zt)

到目前为止,这种情况只应用于单类分类模型。 我们将指导分布 pΦ(y|T(𝒟(z0(zt)))) 重新解释为给定目标图像 y 的通用图像到图像转换任务, 其中 T 可以是任何可微分的转换,适用于手头的图像到图像转换任务, 例如恒等式、下采样操作或类似操作。

例如,我们可以假设一个具有固定方差 σ2=1 的高斯引导器,这样

logpΦ(y|zt)=12yT(𝒟(z0(zt)))22 (17)

成为一个 L2 回归目标。

14 说明了这种公式如何作为在 2562 图像上训练的无条件模型的向上采样机制,其中大小为 2562 的无条件样本引导 5122 图像的卷积合成, 而 T 是一个 2× 双三次下采样。 遵循这一动机, 我们还尝试了感知相似性引导,并将 L2 目标替换为 LPIPS [106] 度量,参见第 4.4 节。

附录 D 其他结果

D.1 为高分辨率合成选择信噪比

KL-reg, w/o rescaling KL-reg, w/ rescaling VQ-reg, w/o rescaling
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
图 15: 说明了潜在空间重新缩放对卷积采样的影响,这里针对景观上的语义图像合成。 参见第 4.3.2 节和第 D.1 节。

正如第 4.3.2 节所讨论的,由潜在空间的方差引起的信噪比 ( Var(z)/σt2) 会显著影响卷积采样的结果。 例如,当直接在 KL 正则化模型的潜在空间中训练 LDM 时(参见表 8), 这种比率非常高,以至于模型在反向去噪过程的早期阶段分配了大量的语义细节。 相反,当按潜在变量的逐分量标准差对潜在空间进行重新缩放时,如第 G 节所述, 信噪比会降低。 我们在图 15 中说明了对语义图像合成的卷积采样的影响。 请注意,VQ 正则化的空间方差接近 1,因此无需重新缩放。

D.2 所有第一阶段模型的完整列表

我们提供了在 OpenImages 数据集上训练的各种自动编码模型的完整列表,如表 8 所示。

f |𝒵| c R-FID R-IS PSNR PSIM SSIM 16 VQGAN [23] 16384 256 4.98 19.9 ±3.4 1.83 ±0.42 0.51 ±0.18 16 VQGAN [23] 1024 256 7.94 19.4 ±3.3 1.98 ±0.43 0.50 ±0.18 8 DALL-E [66] 8192 - 32.01 22.8 ±2.1 1.95 ±0.51 0.73 ±0.13 32 16384 16 31.83 40.40 ±1.07 17.45 ±2.90 2.58 ±0.48 0.41 ±0.18 16 16384 8 5.15 144.55 ±3.74 20.83 ±3.61 1.73 ±0.43 0.54 ±0.18 8 16384 4 1.14 201.92 ±3.97 23.07 ±3.99 1.17 ±0.36 0.65 ±0.16 8 256 4 1.49 194.20 ±3.87 22.35 ±3.81 1.26 ±0.37 0.62 ±0.16 4 8192 3 0.58 224.78 ±5.35 27.43 ±4.26 0.53 ±0.21 0.82 ±0.10 4 8192 3 1.06 221.94 ±4.58 25.21 ±4.17 0.72 ±0.26 0.76 ±0.12 4 256 3 0.47 223.81 ±4.58 26.43 ±4.22 0.62 ±0.24 0.80 ±0.11 2 2048 2 0.16 232.75 ±5.09 30.85 ±4.12 0.27 ±0.12 0.91 ±0.05 2 64 2 0.40 226.62 ±4.83 29.13 ±3.46 0.38 ±0.13 0.90 ±0.05 32 KL 64 2.04 189.53 ±3.68 22.27 ±3.93 1.41 ±0.40 0.61 ±0.17 32 KL 16 7.3 132.75 ±2.71 20.38 ±3.56 1.88 ±0.45 0.53 ±0.18 16 KL 16 0.87 210.31 ±3.97 24.08 ±4.22 1.07 ±0.36 0.68 ±0.15 16 KL 8 2.63 178.68 ±4.08 21.94 ±3.92 1.49 ±0.42 0.59 ±0.17 8 KL 4 0.90 209.90 ±4.92 24.19 ±4.19 1.02 ±0.35 0.69 ±0.15 4 KL 3 0.27 227.57 ±4.89 27.53 ±4.54 0.55 ±0.24 0.82 ±0.11 2 KL 2 0.086 232.66 ±5.16 32.47 ±4.19 0.20 ±0.09 0.93 ±0.04

表 8 在 OpenImages 上训练的完整自动编码器动物园,在 ImageNet-Val 上进行评估。 表示无注意力的自动编码器。

D.3 布局到图像合成

layout-to-image synthesis on the COCO dataset
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 16 来自我们用于布局到图像合成的最佳模型 LDM-4 的更多样本,该模型在 OpenImages 数据集上训练并在 COCO 数据集上微调。 使用 100 个 DDIM 步长和 η=0 生成的样本。 布局来自 COCO 验证集。

COCO256×256 OpenImages 256×256 OpenImages 512×512 Method FID FID FID LostGAN-V2 [87] 42.55 - - OC-GAN [89] 41.65 - - SPADE [62] 41.11 - - VQGAN+T [37] 56.58 45.33 48.11 LDM-8 (100 steps, ours) 42.06 - - LDM-4 (200 steps, ours) 40.91 32.02 35.80

表 9 我们在 COCO [4] 和 OpenImages [49] 数据集上的布局到图像模型的定量比较。 :从 COCO 开始训练;:从 OpenImages 微调。

在这里,我们提供了第 4.3.1 节中布局到图像模型的定量评估和附加样本。 我们在 COCO [4] 上训练了一个模型,在 OpenImages [49] 上训练了一个模型,随后我们还对 COCO 进行了微调。 表格 9 显示了结果。 我们的 COCO 模型在遵循其训练和评估协议 [89] 时,在布局到图像合成方面达到了最近最先进模型的性能。 当从 OpenImages 模型微调时,我们超越了这些工作。 我们的 OpenImages 模型在 FID 方面,超过了 Jahn 等人 [37] 的结果近 11 个点。 在图 16 中,我们展示了在 COCO 上微调的模型的更多样本。

D.4 在 ImageNet 上进行类别条件图像合成

表格 10 包含了我们用 FID 和 Inception 分数 (IS) 衡量的类别条件 LDM 的结果。 LDM-8 需要明显更少的参数和计算要求(见表 18)才能实现极具竞争力的性能。 与之前的工作类似,我们可以通过在每个噪声尺度上训练一个分类器并用它进行引导来进一步提高性能,参见第 C 节。 与基于像素的方法不同,这种分类器在潜在空间中非常便宜地进行训练。 有关其他定性结果,请参见图 26 和图 27

Method FID IS Precision Recall Nparams SR3 [72] 11.30 - - - 625M - ImageBART [21] 21.19 - - - 3.5B - ImageBART [21] 7.44 - - - 3.5B 0.05 acc. rate VQGAN+T [23] 17.04 70.6±1.8 - - 1.3B - VQGAN+T [23] 5.88 304.8±3.6 - - 1.3B 0.05 acc. rate BigGan-deep [3] 6.95 203.6±2.6 0.87 0.28 340M - ADM [15] 10.94 100.98 0.69 0.63 554M 250 DDIM steps ADM-G [15] 4.59 186.7 0.82 0.52 608M 250 DDIM steps ADM-G,ADM-U [15] 3.85 221.72 0.84 0.53 n/a 2 × 250 DDIM steps CDM [31] 4.88 158.71±2.26 - - n/a 2 × 100 DDIM steps LDM-8 (ours) 17.41 72.92±2.6 0.65 0.62 395M 200 DDIM steps, 2.9M train steps, batch size 64 LDM-8-G (ours) 8.11 190.43±2.60 0.83 0.36 506M 200 DDIM steps, classifier scale 10, 2.9M train steps, batch size 64 LDM-8 (ours) 15.51 79.03±1.03 0.65 0.63 395M 200 DDIM steps, 4.8M train steps, batch size 64 LDM-8-G (ours) 7.76 209.52±4.24 0.84 0.35 506M 200 DDIM steps, classifier scale 10, 4.8M train steps, batch size 64 LDM-4 (ours) 10.56 103.49±1.24 0.71 0.62 400M 250 DDIM steps, 178K train steps, batch size 1200 LDM-4-G (ours) 3.95 178.22±2.43 0.81 0.55 400M 250 DDIM steps, unconditional guidance [32] scale 1.25, 178K train steps, batch size 1200 LDM-4-G (ours) 3.60 247.67±5.59 0.87 0.48 400M 250 DDIM steps, unconditional guidance [32] scale 1.5, 178K train steps, batch size 1200

表 10: 将类别条件 ImageNet LDM 与最近在 ImageNet [12] 数据集上进行类别条件图像生成的最新方法进行比较。: 分类器拒绝采样,使用给定的拒绝率,如 [67] 中所述。

D.5 样本质量与 V100 天(续自第 4.1 节)

Refer to caption
Refer to caption
图 17: 为了完整起见,我们还报告了类别条件 LDMs 在 ImageNet 数据集上训练进度,固定为 35 个 V100 天。 通过 100 个 DDIM 步骤 [84]κ=0 获得的结果。 为了提高效率,FIDs 在 5000 个样本上计算。

为了评估训练过程中样本质量(第 4.1 节),我们将 FID 和 IS 分数作为训练步数的函数进行报告。 另一种可能性是在 V100 天内报告这些指标。 17 中还提供了此类分析,显示出定性相似的结果。

D.6 超分辨率

Method FID IS PSNR SSIM Image Regression [72] 15.2 121.1 27.9 0.801 SR3 [72] 5.2 180.1 26.4 0.762 LDM-4 (ours, 100 steps) 2.8/4.8 166.3 24.4±3.8 0.69±0.14 LDM-4 (ours, 50 steps, guiding) 4.4/6.4 153.7 25.8±3.7 0.74±0.12 LDM-4 (ours, 100 steps, guiding) 4.4/6.4 154.1 25.7±3.7 0.73±0.12 LDM-4 (ours, 100 steps, +15 ep.) 2.6 / 4.6 169.76±5.03 24.4±3.8 0.69±0.14 Pixel-DM (100 steps, +15 ep.) 5.1 / 7.1 163.06±4.67 24.1±3.3 0.59±0.12

表 11 ×4 ImageNet-Val 上的超分辨率结果。 (2562);:在验证集上计算的 FID 特征,:在训练集上计算的 FID 特征。 我们还包括一个像素空间基线,它接收与 LDM-4 相同数量的计算资源。 最后两行与前一个结果相比,经过了 15 个 epochs 的额外训练。

为了更好地比较像素空间中的 LDM 和扩散模型,我们扩展了来自表 5 的分析,比较了经过相同步数训练且参数数量可比111It is not possible to exactly match both architectures since the diffusion model operates in the pixel space的扩散模型和 LDM。 这种比较的结果显示在表 11 的最后两行,表明 LDM 实现了更好的性能,同时允许显著更快的采样。 20 给出了一个定性比较,它显示了 LDM 和像素空间中的扩散模型的随机样本。

D.6.1 LDM-BSR:通过多样化的图像退化实现通用 SR 模型

bicubic LDM-SR LDM-BSR
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
图 18 LDM-BSR 泛化到任意输入,可以作为通用上采样器使用,将来自类条件 LDM(图像 cf.4)的样本上采样到 10242 分辨率。 相反, 使用固定降级过程(参见第 4.4 节)会阻碍泛化。

为了评估 LDM-SR 的泛化能力,我们将其应用于来自类条件 ImageNet 模型(第 4.1 节)的合成 LDM 样本以及从互联网抓取的图像。 有趣的是,我们观察到 LDM-SR 仅使用双三次降采样条件(如 [72] 中)进行训练,不能很好地泛化到不遵循此预处理的图像。 因此,为了获得适用于各种真实世界图像的超分辨率模型,这些图像可能包含摄像机噪声、压缩伪影、模糊和插值的复杂叠加,我们将 LDM-SR 中的双三次降采样操作替换为 [105] 中的降级管道。 BSR 降级过程是一个降级管道,它对图像以随机顺序应用 JPEG 压缩噪声、相机传感器噪声、用于降采样的不同图像插值、高斯模糊核和高斯噪声。 我们发现,使用 [105] 中的原始参数的 bsr 降级过程会导致非常强的降级过程。 由于适度的降级过程更适合我们的应用,我们调整了 bsr 降级的参数(我们调整后的降级过程可以在我们的代码库中找到:https://github.com/CompVis/latent-diffusion)。 18 通过直接比较 LDM-SRLDM-BSR 说明了这种方法的有效性。 后者产生的图像比局限于固定预处理的模型的图像清晰得多,使其适合现实世界的应用。 19 显示了 LDM-BSR 的更多结果。

bicubic LDM-BSR
Refer to caption Refer to caption
Refer to caption Refer to caption
Refer to caption Refer to caption
图 19: LDM-BSR 可以泛化到任意输入,可以用作通用上采样器,将来自 LSUN-Cows 数据集的样本上采样到 10242 分辨率。
input GT Pixel Baseline #1 Pixel Baseline #2 LDM #1 LDM #2
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 20: 在像素空间中,LDM-SR 和基线扩散模型的两个随机样本的定性超分辨率比较。 在相同训练步骤数量后,在 ImageNet 验证集上进行评估。

附录 E 实现细节和超参数

E.1 超参数

我们在表 12、表 13、表 14 和表 15 中概述了所有训练过的 LDM 模型的超参数。

CelebA-HQ 256×256 FFHQ 256×256 LSUN-Churches 256×256 LSUN-Bedrooms 256×256 f 4 4 8 4 z-shape 64×64×3 64×64×3 - 64×64×3 |𝒵| 8192 8192 - 8192 Diffusion steps 1000 1000 1000 1000 Noise Schedule linear linear linear linear Nparams 274M 274M 294M 274M Channels 224 224 192 224 Depth 2 2 2 2 Channel Multiplier 1,2,3,4 1,2,3,4 1,2,2,4,4 1,2,3,4 Attention resolutions 32, 16, 8 32, 16, 8 32, 16, 8, 4 32, 16, 8 Head Channels 32 32 24 32 Batch Size 48 42 96 48 Iterations 410k 635k 500k 1.9M Learning Rate 9.6e-5 8.4e-5 5.e-5 9.6e-5

表 12: 无条件 LDMs 的超参数,用于生成表 1 中显示的数字。 所有模型都在单个 NVIDIA A100 上训练。

LDM-1 LDM-2 LDM-4 LDM-8 LDM-16 LDM-32 z-shape 256×256×3 128×128×2 64×64×3 32×32×4 16×16×8 88×8×32 |𝒵| - 2048 8192 16384 16384 16384 Diffusion steps 1000 1000 1000 1000 1000 1000 Noise Schedule linear linear linear linear linear linear Model Size 396M 391M 391M 395M 395M 395M Channels 192 192 192 256 256 256 Depth 2 2 2 2 2 2 Channel Multiplier 1,1,2,2,4,4 1,2,2,4,4 1,2,3,5 1,2,4 1,2,4 1,2,4 Number of Heads 1 1 1 1 1 1 Batch Size 7 9 40 64 112 112 Iterations 2M 2M 2M 2M 2M 2M Learning Rate 4.9e-5 6.3e-5 8e-5 6.4e-5 4.5e-5 4.5e-5 Conditioning CA CA CA CA CA CA CA-resolutions 32, 16, 8 32, 16, 8 32, 16, 8 32, 16, 8 16, 8, 4 8, 4, 2 Embedding Dimension 512 512 512 512 512 512 Transformers Depth 1 1 1 1 1 1

表 13: 在 ImageNet 数据集上训练的条件 LDMs 的超参数,用于第 4.1 节的分析。 所有模型都在单个 NVIDIA A100 上训练。

LDM-1 LDM-2 LDM-4 LDM-8 LDM-16 LDM-32 z-shape 256×256×3 128×128×2 64×64×3 32×32×4 16×16×8 88×8×32 |𝒵| - 2048 8192 16384 16384 16384 Diffusion steps 1000 1000 1000 1000 1000 1000 Noise Schedule linear linear linear linear linear linear Model Size 270M 265M 274M 258M 260M 258M Channels 192 192 224 256 256 256 Depth 2 2 2 2 2 2 Channel Multiplier 1,1,2,2,4,4 1,2,2,4,4 1,2,3,4 1,2,4 1,2,4 1,2,4 Attention resolutions 32, 16, 8 32, 16, 8 32, 16, 8 32, 16, 8 16, 8, 4 8, 4, 2 Head Channels 32 32 32 32 32 32 Batch Size 9 11 48 96 128 128 Iterations 500k 500k 500k 500k 500k 500k Learning Rate 9e-5 1.1e-4 9.6e-5 9.6e-5 1.3e-4 1.3e-4

表 14: 在 CelebA 数据集上训练的无条件 LDMs 的超参数,用于图 7 中的分析。 所有模型都在单个 NVIDIA A100 上训练。 : 所有模型都训练了 500k 次迭代。 如果收敛得早,我们使用最佳检查点来评估提供的 FID 分数。

Task Text-to-Image Layout-to-Image Class-Label-to-Image Super Resolution Inpainting Semantic-Map-to-Image Dataset LAION OpenImages COCO ImageNet ImageNet Places Landscapes f 8 4 8 4 4 4 8 z-shape 32×32×4 64×64×3 32×32×4 64×64×3 64×64×3 64×64×3 32×32×4 |𝒵| - 8192 16384 8192 8192 8192 16384 Diffusion steps 1000 1000 1000 1000 1000 1000 1000 Noise Schedule linear linear linear linear linear linear linear Model Size 1.45B 306M 345M 395M 169M 215M 215M Channels 320 128 192 192 160 128 128 Depth 2 2 2 2 2 2 2 Channel Multiplier 1,2,4,4 1,2,3,4 1,2,4 1,2,3,5 1,2,2,4 1,4,8 1,4,8 Number of Heads 8 1 1 1 1 1 1 Dropout - - 0.1 - - - - Batch Size 680 24 48 1200 64 128 48 Iterations 390K 4.4M 170K 178K 860K 360K 360K Learning Rate 1.0e-4 4.8e-5 4.8e-5 1.0e-4 6.4e-5 1.0e-6 4.8e-5 Conditioning CA CA CA CA concat concat concat (C)A-resolutions 32, 16, 8 32, 16, 8 32, 16, 8 32, 16, 8 - - - Embedding Dimension 1280 512 512 512 - - - Transformer Depth 1 3 2 1 - - -

表 15: 第 4 节中条件 LDMs 的超参数。 所有模型都在单个 NVIDIA A100 上训练,除了在八个 V100 上训练的修复模型。

E.2 实现细节

E.2.1 条件化LDMsτθ实现

对于文本到图像和布局到图像(第4.3.1节)合成方面的实验,我们将条件化器τθ实现为一个未掩盖的Transformer,它处理输入y的词元化版本并生成输出ζ:=τθ(y),其中ζM×dτ 更具体地说,Transformer 的实现源于由全局自注意力层、层归一化和位置感知 MLP 组成的N 个 Transformer 模块,如下所示222adapted from https://github.com/lucidrains/x-transformers

ζTokEmb(y)+PosEmb(y) (18)
for i=1,,N:
ζ1LayerNorm(ζ) (19)
ζ2MultiHeadSelfAttention(ζ1)+ζ (20)
ζ3LayerNorm(ζ2) (21)
ζMLP(ζ3)+ζ2 (22)
ζLayerNorm(ζ) (23)

利用ζ,条件化通过交叉注意力机制映射到 UNet 中,如图3所示。 我们修改了“消融 UNet”[15] 架构,并将自注意力层替换为一个浅层(未掩盖)Transformer,它由T 个模块组成,模块包含交替的自注意力层 (i)、位置感知 MLP (ii) 和交叉注意力层 (iii);参见表16 请注意,如果没有 (ii) 和 (iii),该架构将等同于“消融 UNet”。

虽然可以通过附加地对时间步长t进行条件化来提高τθ 的表示能力,但我们并没有采用这种选择,因为它会降低推理速度。 我们将在未来的工作中对这种修改进行更详细的分析。

对于文本到图像模型,我们依赖于一个公开可用的333https://huggingface.co/transformers/model_doc/bert.html#berttokenizerfast 词元化器 [99] 布局到图像模型对边界框的空间位置进行离散化,并将每个框编码为一个(l,b,c) 元组,其中l 表示(离散)左上角,而b 表示右下角位置。 类信息包含在c 中。

参见表17,了解τθ 的超参数,参见表13,了解上述两项任务的 UNet 的超参数。

请注意,第4.1 节中描述的类条件模型也是通过交叉注意力实现的,其中τθ 是一个具有 512 维度的单个可学习嵌入层,将类y 映射到 ζ1×512

input h×w×c LayerNorm h×w×c Conv1x1 h×w×dnh Reshape hw×dnh ×T{SelfAttentionMLPCrossAttention hw×dnh hw×dnh hw×dnh Reshape h×w×dnh Conv1x1 h×w×c

表 16 如第E.2.1 节所述,Transformer 模块的架构替换了标准“消融 UNet”架构[15] 的自注意力层。 这里,nh 表示注意力头的数量,而d 表示每个头的维度。

Text-to-Image Layout-to-Image seq-length 77 92 depth N 32 16 dim 1280 512

表 17: Transformer 编码器在第 4.3 节中实验的超参数。

E.2.2 图像修复

input GT LaMa[88] LDM #1 LDM #2 LDM #3
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图 21: 图像修复的定性结果。 [88] 相比,我们的生成方法能够为给定输入生成多个不同的样本。
input result input result
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption Refer to caption
图 22: 如图 11 所示,在物体移除方面更多定性结果。

对于我们在第 4.5 节中进行的图像修复实验,我们使用 [88] 的代码来生成合成掩码。 我们使用从 Places[108] 中提取的固定集合,其中包含 2k 个验证样本和 30k 个测试样本。 在训练期间,我们使用大小为 256×256 的随机裁剪,并在大小为 512×512 的裁剪上进行评估。 这遵循 [88] 中的训练和测试协议,并重现了其报告的指标(参见表 7 中的 )。 我们在图 21 中包含了 LDM-4,带注意力 的附加定性结果,以及在图 22 中包含了 LDM-4,无注意力,大,带微调 的附加定性结果。

E.3 评估详细信息

本节提供了关于第 4 节中显示的实验评估的更多详细信息。

E.3.1 无条件和有条件图像合成的定量结果

我们遵循常见做法,并根据模型的 50k 个样本和每个显示数据集的完整训练集,估计用于计算 FID 分数、精确度分数和召回率分数的统计数据 [29, 50],如表 110 中所示。 为了计算 FID 分数,我们使用 torch-fidelity[60] 然而,由于不同的数据处理流程可能会导致不同的结果 [64],我们也使用 Dhariwal 和 Nichol 提供的脚本 [15] 对我们的模型进行评估。 我们发现结果基本一致,除了 ImageNet 和 LSUN-Bedrooms 数据集,我们注意到略微不同的分数为 7.76 (torch-fidelity) 与 7.77 (Nichol 和 Dhariwal) 以及 2.95 与 3.0。 对于未来,我们强调统一样本质量评估程序的重要性。 精确度和召回率也是使用 Nichol 和 Dhariwal 提供的脚本计算的。

E.3.2 文本到图像合成

遵循 [66] 的评估协议,我们通过将生成的样本与 MS-COCO 数据集验证集的 30000 个样本 [51] 进行比较,计算表 2 中文本到图像模型的 FID 和 Inception 分数。 FID 和 Inception 分数使用 torch-fidelity 计算。

E.3.3 布局到图像合成

为了评估我们表 9 中 COCO 数据集上的布局到图像模型的样本质量,我们遵循常见做法 [89, 37, 87],并计算 COCO Segmentation Challenge 分割的 2048 个未增强示例的 FID 分数。 为了获得更好的可比性,我们使用与 [37] 中完全相同的样本。 对于 OpenImages 数据集,我们同样遵循其协议,并使用验证集中的 2048 个中心裁剪的测试图像。

E.3.4 超分辨率

我们在 ImageNet 上评估超分辨率模型,遵循 [72] 中建议的流程, 尺寸小于 256 px 的图像被移除(训练和评估均如此)。 在 ImageNet 上,低分辨率图像使用带有抗锯齿的双三次插值生成。 使用 torch-fidelity [60] 评估 FIDs,我们在验证集上生成样本。 对于 FID 分数,我们还与在训练集上计算的参考特征进行比较,参见表 5 和表 11

E.3.5 效率分析

出于效率原因,我们基于 5k 个样本计算了图 6177 中绘制的样本质量指标。 因此,结果可能与表 110 中显示的结果有所不同。 所有模型的参数数量都如表 1314 所示。 我们最大化各个模型的学习率,以确保它们能够稳定地训练。 因此,学习率在不同运行之间略有不同 cf.1314

E.3.6 用户研究

对于表 4 中展示的用户研究结果,我们遵循了 [72] 的协议,并使用二元强制选择范式来评估两个不同任务的人类偏好评分。 在任务 1 中,向受试者展示了对应地面实况高分辨率/未遮挡版本和合成图像之间的低分辨率/遮挡图像,合成图像通过使用中间图像作为条件生成的。 对于超分辨率,受试者被问到:“这两个图像中哪个是中间低分辨率图像的更好质量版本?” 对于修复,我们问到“这两个图像中哪个包含中间图像中更逼真的修复区域?” 在任务 2 中,人类同样会看到低分辨率/遮挡版本,并要求他们对两种竞争方法生成的两个对应图像进行偏好选择。 [72] 中一样,人类在做出反应之前会观看图像 3 秒钟。

附录 F 计算要求

Method Generator Classifier Overall Inference Nparams FID IS Precision Recall Compute Compute Compute Throughput LSUN Churches 2562 StyleGAN2 [42] 64 - 64 - 59M 3.86 - - - LDM-8 (ours, 100 steps, 410K) 18 - 18 6.80 256M 4.02 - 0.64 0.52 LSUN Bedrooms 2562 ADM [15] (1000 steps) 232 - 232 0.03 552M 1.9 - 0.66 0.51 LDM-4 (ours, 200 steps, 1.9M) 60 - 55 1.07 274M 2.95 - 0.66 0.48 CelebA-HQ 2562 LDM-4 (ours, 500 steps, 410K) 14.4 - 14.4 0.43 274M 5.11 - 0.72 0.49 FFHQ 2562 StyleGAN2 [42] 32.13 - 32.13 - 59M 3.8 - - - LDM-4 (ours, 200 steps, 635K) 26 - 26 1.07 274M 4.98 - 0.73 0.50 ImageNet 2562 VQGAN-f-4 (ours, first stage) 29 - 29 - 55M 0.58†† - - - VQGAN-f-8 (ours, first stage) 66 - 66 - 68M 1.14†† - - - BigGAN-deep [3] 128-256 128-256 - 340M 6.95 203.6±2.6 0.87 0.28 ADM [15] (250 steps) 916 - 916 0.12 554M 10.94 100.98 0.69 0.63 ADM-G [15] (25 steps) 916 46 962 0.7 608M 5.58 - 0.81 0.49 ADM-G [15] (250 steps) 916 46 962 0.07 608M 4.59 186.7 0.82 0.52 ADM-G,ADM-U [15] (250 steps) 329 30 349 n/a n/a 3.85 221.72 0.84 0.53 LDM-8-G (ours, 100, 2.9M) 79 12 91 1.93 506M 8.11 190.4±2.6 0.83 0.36 LDM-8 (ours, 200 ddim steps 2.9M, batch size 64) 79 - 79 1.9 395M 17.41 72.92 0.65 0.62 LDM-4 (ours, 250 ddim steps 178K, batch size 1200) 271 - 271 0.7 400M 10.56 103.49±1.24 0.71 0.62 LDM-4-G (ours, 250 ddim steps 178K, batch size 1200, classifier-free guidance [32] scale 1.25) 271 - 271 0.4 400M 3.95 178.22±2.43 0.81 0.55 LDM-4-G (ours, 250 ddim steps 178K, batch size 1200, classifier-free guidance [32] scale 1.5) 271 - 271 0.4 400M 3.60 247.67±5.59 0.87 0.48

表 18: 比较最先进的生成模型在训练和推理期间的计算需求。 训练期间的计算量以 V100 天为单位,除非另有说明,否则竞争方法的数量来自 [15]: 通过量以样本/秒为单位,在单个 NVIDIA A100 上测量;: 数字来自 [15]: 假设在 2500 万个训练样本上进行训练;††: R-FID 与 ImageNet 验证集

在 Tab 18 中,我们对使用的计算资源进行了更详细的分析,并通过使用它们提供的数字,将我们性能最好的模型在 CelebA-HQ、FFHQ、LSUN 和 ImageNet 数据集上的表现与最新的模型进行了比较,cf. [15]. 由于它们报告使用的计算量以 V100 天为单位,而我们在单个 NVIDIA A100 GPU 上训练所有模型,因此我们通过假设 A100 比 V100 的速度提高了 ×2.2 倍将 A100 天转换为 V100 天 [74]444This factor corresponds to the speedup of the A100 over the V100 for a U-Net, as defined in Fig. 1 in  [74]. 为了评估样本质量,我们还报告了报告数据集上的 FID 分数。 我们几乎达到了 StyleGAN2 [42] 和 ADM [15] 等最新方法的性能,同时显着减少了所需的计算资源。

附录 G 自动编码器模型的详细信息

我们以对抗方式训练所有自动编码器模型,遵循 [23],使得一个基于补丁的判别器 Dψ 经过优化以区分原始图像和重建图像 𝒟((x)). 为了避免任意缩放的潜在空间,我们对潜在的 z 进行正则化,使其以零为中心,并通过引入一个正则化损失项 Lreg 来获得较小的方差。

我们研究了两种不同的正则化方法:(i) q(z|x)=𝒩(z;μ,σ2) 与标准正态分布之间的低权重 Kullback-Leibler 项 𝒩(z;0,1),如同标准变分自动编码器 [46, 69],以及 (ii) 通过学习 |𝒵| 个不同样本的代码本,用向量量化层对潜在空间进行正则化 [96].


为了获得高保真重建,我们只对两种情况使用非常小的正则化,i.e. 我们要么用一个因子 106𝕂𝕃 项加权,要么选择一个高代码本维数 |𝒵|.

训练自动编码模型 (,𝒟) 的完整目标为:

LAutoencoder=min,𝒟maxψ(Lrec(x,𝒟((x)))Ladv(𝒟((x)))+logDψ(x)+Lreg(x;,𝒟)) (25)
潜在空间中的 DM 训练

请注意,对于在学习的潜在空间上训练扩散模型,当学习 p(z)p(z|y) 时,我们再次区分两种情况(第 4.3 节): (i) 对于 KL 正则化的潜在空间,我们对 z=μ(x)+σ(x)ε=:(x) 进行采样,其中 ε𝒩(0,1). 当重新缩放潜在变量时,我们估计按分量计算的方差

σ^2=1bchwb,c,h,w(zb,c,h,wμ^)2

从数据的第一批中,μ^=1bchwb,c,h,wzb,c,h,w 的输出被缩放,使得重新缩放的潜在变量具有单位标准差, zzσ^=(x)σ^ (ii) 对于一个 VQ 正则化的潜在空间,我们提取 z 量化层之前,并将量化操作吸收 到解码器中, 它可以被解释为 𝒟 的第一层。

附录 H 其他定性结果

最后,我们提供了我们景观模型的额外定性结果(图 12232425),我们的类条件 ImageNet 模型(图 26 - 27)以及我们针对 CelebA-HQ、FFHQ 和 LSUN 数据集的无条件模型(图 28 - 31)。 与第 4.5 节中的修复模型类似,我们还对来自第 4.3.2 节的语义景观模型直接进行微调,并在 5122 图像上进行定性 结果显示在图 12 和图 23 中。 对于我们那些在相当小的数据集上训练的模型,我们还展示了来自我们模型的样本在 VGG [79] 特征空间中的最近邻,如图 32 - 34 所示。

Semantic Synthesis on Flickr-Landscapes [23] (5122 finetuning)
Refer to caption
Refer to caption
Refer to caption
图 23 来自语义景观模型的卷积样本,如第 4.3.2 节所示,在 5122 图像上进行了微调。
Refer to caption
图 24 一个在 2562 分辨率上训练的 LDM 可以推广到 更大的分辨率,用于空间条件的任务, 例如景观图像的语义合成。 请参阅 第 4.3.2 节。
Semantic Synthesis on Flickr-Landscapes [23]
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 25 当提供语义地图作为条件时,我们的 LDMs 会推广到比训练期间看到的要大得多的分辨率。 虽然该模型是在 2562 大小的输入上训练的,但它可以用于创建高分辨率样本,如这里所示,这些样本的分辨率为 1024×384
Random class conditional samples on the ImageNet dataset
Refer to caption
图 26 在 ImageNet 数据集上训练的 LDM-4 的随机样本。 使用无分类器引导 [32] 缩放 s=5.0 和 200 个 DDIM 步长,以及 η=1.0 进行采样。
Random class conditional samples on the ImageNet dataset
Refer to caption
图 27: 在 ImageNet 数据集上训练的 LDM-4 的随机样本。 使用无分类器引导 [32] 缩放 s=3.0 和 200 个 DDIM 步长,以及 η=1.0 进行采样。
Random samples on the CelebA-HQ dataset
Refer to caption
图 28: 我们在 CelebA-HQ 数据集上表现最好的模型 LDM-4 的随机样本。 使用 500 个 DDIM 步长和 η=0 进行采样(FID = 5.15)。
Random samples on the FFHQ dataset
Refer to caption
图 29: 我们在 FFHQ 数据集上表现最好的模型 LDM-4 的随机样本。 使用 200 个 DDIM 步长和 η=1 进行采样(FID = 4.98)。
Random samples on the LSUN-Churches dataset
Refer to caption
图 30: 我们在 LSUN-Churches 数据集上表现最好的模型 LDM-8 的随机样本。 使用 200 个 DDIM 步长和 η=0 进行采样(FID = 4.48)。
Random samples on the LSUN-Bedrooms dataset
Refer to caption
图 31: 我们在 LSUN-Bedrooms 数据集上表现最好的模型 LDM-4 的随机样本。 使用 200 个 DDIM 步长进行采样,以及 η=1(FID = 2.95)。
Nearest Neighbors on the CelebA-HQ dataset
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 32 我们最佳 CelebA-HQ 模型的最近邻,在 VGG-16 [79] 的特征空间中计算。 最左侧样本来自我们的模型。 每行中剩余的样本是其 10 个最近邻。
Nearest Neighbors on the FFHQ dataset
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 33 我们最佳 FFHQ 模型的最近邻,在 VGG-16 [79] 的特征空间中计算。 最左侧样本来自我们的模型。 每行中剩余的样本是其 10 个最近邻。
Nearest Neighbors on the LSUN-Churches dataset
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图 34 我们最佳 LSUN-Churches 模型的最近邻,在 VGG-16 [79] 的特征空间中计算。 最左侧样本来自我们的模型。 每行中剩余的样本是其 10 个最近邻。