License: CC BY 4.0
arXiv:2401.00110v5 [cs.CV] 06 Mar 2024

具有感知损失的扩散模型

Shanchuan Lin  Xiao Yang
ByteDance Inc.
{peterlin,yangxiao.0}@bytedance.com
摘要

使用均方误差损失训练的扩散模型倾向于生成不真实的样本。 目前最先进的模型依赖于无分类器引导来提高样本质量,但其令人惊讶的有效性尚未完全理解。 在本文中,我们表明无分类器引导的有效性部分源于它是一种隐式感知引导的形式。 因此,我们可以直接在扩散训练中加入感知损失来提高样本质量。 由于扩散训练中使用的分数匹配目标与感知网络无监督训练中使用的去噪自动编码器目标非常相似,因此扩散模型本身就是一个感知网络,可以用来生成有意义的感知损失。 我们提出了一种新颖的自我感知目标,它可以产生能够生成更逼真样本的扩散模型。 对于条件生成,我们的方法仅提高样本质量,而不会与条件输入纠缠,因此不会牺牲样本多样性。 我们的方法还可以提高无条件生成的样本质量,这在以前使用无分类器引导是无法实现的。

footnotetext: Model: hf.co/ByteDance/sd2.1-base-zsnr-laionaes6-perceptual 脚注: 代码:参见 算法 1

1 介绍

扩散模型 [10, 35, 37] 是一类新兴的生成模型。 从概念上讲,它们的工作原理是通过重复去噪将纯噪声转换为数据样本。 从形式上讲,每个去噪步骤都可以从得分匹配 [37] 的角度来观察,这样模型就可以学习预测将样本从一种分布(噪声)转换为另一种分布(图像、视频、等等.) [18] 的常微分方程 (ODE) 或随机微分方程 (SDE) 的梯度(得分)。 在本文中,我们关注图像生成,但这些发现也适用于其他模态。

扩散模型通常被参数化为神经网络,训练目标通过随机梯度下降 [12] 最小化模型预测与真实得分之间的平方距离。 这也通常被称为均方误差 (MSE) 损失。

尽管扩散模型理论上应该将样本从噪声传输到图像分布,但由扩散模型生成的原始形式的图像通常质量很差,尽管模型架构 [4, 14, 22, 24, 29, 27, 28]、公式 [17, 18, 13] 和采样策略 [36, 19, 20, 13] 都有改进。

推动扩散模型走向主流的是分类器引导 [5] 和无分类器引导 [11] 的出现。 分类器引导表明,我们可以在推理过程中将分类器梯度添加到预测的得分之上,以引导样本生成朝向分类器的方向。 因此,它可以将无条件扩散模型变为条件模型。 然而,令人惊讶的是,将分类器引导应用于已经条件化的扩散模型可以显著提高样本质量。 无分类器引导 [11] 通过消除对外部分类器网络的需求来改进分类器引导。 它通过以一定概率放弃条件,同时将扩散模型训练为条件模型和无条件模型。 在推理时,它在每一步都以条件和无条件的方式查询模型,并将它们的差异用作条件梯度方向。 然后,得分预测被放大到这个条件方向。

无分类器引导在跨模态的最新扩散模型中几乎无处不在,例如. 文本到图像 [24, 28, 29, 4, 27, 45, 23]、文本到视频 [7, 2, 46, 9, 34, 1]、文本到 3D [33, 41, 25]、图像到视频 [1, 43]、视频到视频 [3, 6]等等 然而,它在提高样本质量方面的惊人效果尚未得到完全理解。 无分类器引导也有许多局限性,例如具有敏感的超参数,会导致图像过度曝光和过度饱和,等等. [15, 29],但没有其他可行的替代方案。

本文阐明,无分类器引导在提高样本质量方面的有效性部分源于它是一种隐式的感知引导形式。 我们表明,感知损失可以直接应用于扩散训练以提高样本质量。 我们发现,扩散模型本身就是一个训练有素的感知网络,而不是使用外部感知网络。 我们提出了一种新颖的自我感知目标,它利用扩散模型本身来生成有意义的感知损失。 我们的训练目标导致样本质量的提高。 与无分类器引导不同,我们的方法不依赖于条件输入,因此不会牺牲样本多样性。

2 问题

2.1 扩散模型生成不良样本

让我们首先阐明为什么扩散模型在其原始形式下会生成不良样本。  1 所示,在有限的训练样本下,底层数据分布是不确定的。 最大似然估计 (MLE) 是一个分布,它只对观察到的样本分配均匀概率,而其他地方为零。 一个理想的分数模型将学习这个真实概率流,始终产生观察到的样本,并且不生成任何新数据。 在实践中,神经网络不会完全过度拟合到这个流,从而允许泛化,进而生成新数据。

Refer to caption
图 1: 在有限的训练数据下,底层数据分布是不确定的。
Refer to caption
(a)
Refer to caption
(b)
图 2: 扩散模型从训练样本中学习到一个合理的像素分布,但它与真实图像的分布不一致。

然而,学习到的分布可能与真实的底层分布不匹配。  1(a) 所示,考虑一个简单的分布,其中图像始终包含一个位于任意位置的实心圆。 给定有限的训练样本(顶行),我们希望从该分布中生成一个新样本(左下角),但实际的生成可能远远超出该分布(右下角)。 这个问题在实际图像中也存在,如  1(b) 所示。 扩散模型试图从有限的训练样本中学习一个合理的像素分布,但它与真实感图像的预期分布不一致。

真实概率流仅由数据集和正向扩散函数决定,而学习到的分布由模型容量和损失函数决定。 现有工作重点在于扩展数据集 [32, 4],改进模型架构 [24, 4, 14, 22, 29, 27],简化 ODE 轨迹 [18, 17, 13],以及改进采样器 [36, 19, 20] 但是,几乎所有工作都在训练中使用均方误差 (MSE) 损失,并且没有研究探索感知损失的使用。

2.2 感知损失是隐藏的宝石

之前的工作表明,均方误差 (MSE) 指标与人类感知的匹配度很差 [40, 42, 44] 例如,当比较两张脸时,如果眼睛之间存在不匹配,人类会比头发之间的不匹配更敏感。 另一个例子是,将图像移动几个像素几乎无法被人类感知到,但会导致较大的 MSE 值。 因此,当使用 MSE 损失训练扩散模型时,它会比可感知的结构特征更大地惩罚不可感知的像素失配。 这显然不是模型容量的理想利用方式。

以前的研究发现,在深度神经网络的隐藏特征上计算的距离可以作为一种指标,比直接在图像像素上计算的距离更能反映人类的感知 [44] 这是因为深度神经网络可以学习高级语义,而不仅仅关注像素差异。

事实上,我们将在以下部分展示,这种神经感知属性已经在分类器引导 [5] 和无分类器引导 [11] 中得到隐式应用。

2.3 分类器引导中的感知

最初,分类器引导 [5] 被提出来引导无条件扩散模型生成类别条件样本,但以前的研究发现,它也可以帮助已经条件化的扩散模型提高样本质量,并将其归因于样本多样性的权衡的副作用。

但是,我们认为,分类器引导的惊人有效性也部分源于它是一种感知引导形式。 具体来说,分类器网络, CLIP [26],是一个经过训练的感知神经网络,可以提供感知引导。 分类器梯度引导朝向感知上更可能的图像,作为更好地与文本对齐的先决条件。 这导致生成更逼真的图像。

2.4 无分类器引导中的感知

无分类器引导 (CFG) [11] 发现,可以使用贝叶斯规则推导出一个隐式分类器:p(c|xt)p(xt|c)/p(xt),并且评分模型本身可以用来提供引导 logp(c|xt)s(xt|c)s(xt) 因此,无分类器引导也可以从感知引导的角度来看。

2.5 无分类器引导的局限性

无分类器引导有许多局限性。 这激励我们探索直接将感知损失纳入扩散训练。 具体来说:

  • 无分类器引导仅适用于条件模型。 感知损失也适用于无条件模型。

  • 无分类器引导将文本对齐与样本质量混为一谈。 感知损失仅提高样本质量,并且与条件无关。

  • 无分类器引导是在训练后添加的。 高比例可能导致过度曝光 [15, 29] 感知损失在训练时应用,不会出现此问题。

3 方法

我们的目标是将感知损失纳入扩散训练,以提高样本质量。 部分 3.1中,我们介绍了扩散背景和我们的模型公式。 部分3.2中,我们提出了一种新颖的自我感知目标,并表明扩散模型本身可以用作感知网络来提供有意义的信息知觉损失。

3.1 背景

我们遵循 Stable Diffusion 的设置,这是一种潜在扩散模型 [28] 给定图像潜在样本 x0π0,噪声样本 ϵ𝒩(0,𝐈),和时间 t𝒰(1,T),其中 t,T=1000,前向扩散过程定义为:

xt=forward(x0,ϵ,t)=α¯tx0+1α¯tϵ (1)

我们使用具有零终端 SNR 修复的扩散调度 [15] 具体的 α¯t 值定义在 [15] 中。

我们的神经网络 fθ:dd 以文本提示 c 为条件,并使用 v 预测公式 [31, 15]

vt=α¯tϵ1α¯tx0 (2)
v^t=fθ(xt,t,c) (3)

使用普通扩散训练目标,我们优化以下 MSE 损失:

mse=v^tvt22 (4)

3.2 自感知目标

之前的工作表明,分数匹配目标与降噪自动编码器目标非常相似 [38] 降噪自动编码器目标通常用于神经网络的无监督预训练 [39] 因此,使用普通 MSE 损失训练的扩散模型实际上是一个完美的无监督感知网络,在目标数据集、潜空间和所有噪声级别上进行训练 xt 在本节中,我们表明我们可以利用扩散模型本身作为感知网络来提供有意义的感知损失。

首先,我们复制并冻结使用普通 MSE 损失训练的扩散模型,并将架构修改为在层 l 返回隐藏特征。我们将此冻结网络表示为 f*l

在训练期间,我们对 x0π0ϵ𝒩(0,𝐈)t𝒰(1,T) 进行采样,并通过前向扩散计算 xt

xt=forward(x0,ϵ,t) (5)

我们使用在线网络 fθ 预测 v^,并将预测转换为 x^0ϵ^

v^t=fθ(xt,t,c) (6)
x^0=α¯txt1α¯tv^ (7)
ϵ^=α¯tv^+1α¯txt (8)

然后,我们对新的 t𝒰(1,T) 进行采样,并通过前向扩散计算 xtx^t

xt=forward(x0,ϵ,t) (9)
x^t=forward(x^0,ϵ^,t) (10)

最后,我们将它们传递给冻结网络 f*l,并在其第 l 层的隐藏特征上计算 MSE。我们发现仅使用中间块层的隐藏特征可以产生最佳结果。 我们将我们的方法称为自感知 (SP) 目标:

sp=f*l(x^t,t,c)f*l(xt,t,c)22 (11)

伪代码在 算法 1 中提供。

4 评估

我们首先使用我们的公式和 MSE 损失 mse 在 LAION 数据集 [32] 的一个子集上微调 Stable Diffusion v2.1 [28],其中图像的分辨率大于 512 像素,美学得分高于 6。 我们使用学习率 3e-5、批次大小 896、EMA 衰减 0.9995 进行 60k 次迭代。 我们还使用 10% 的条件 dropout 来支持 CFG 以进行评估比较。 然后,我们将模型复制并冻结为我们的感知网络,并继续使用我们的自感知目标 sp 训练在线网络 50k 次迭代。 这没有条件 dropout。

对于推理,我们使用确定性 DDIM 采样器 [36],并确保采样器从最后一个时间步开始 T [15]

4.1 定性

 3 显示了示例生成结果。 我们的自感知目标在原始 MSE 目标上具有明显的质量改进,但总体样本质量仍然比无分类器引导差。 这是因为我们的目标只提高了样本质量,而无分类器引导还具有增强文本对齐的额外效果。 这在  2(j) 中尤为明显,其中我们的目标只提高了样本质量,而没有额外强调文本条件。

请注意,当从相同的初始噪声生成时,原始 MSE 和自感知目标的结果具有相似的图像内容和布局,而无分类器引导将很大程度上改变结果。 我们的自感知目标保持了相同的多样性,而无分类器引导则没有。

此外, 2(i) 显示了无分类器引导的负面人工制品。 模型已经过度拟合图像到非常具体的提示,并且高无分类器引导尺度会导致不自然的人工制品。 我们的自我感知目标不受此问题的影响。

MSE

Self-Perceptual

MSE + CFG

MSE

Self-Perceptual

MSE + CFG

Refer to caption
(a) 纽约天际线,天空中用烟花写着“深度学习”。
Refer to caption
(b) 一只大象在树后。 你可以看到它的一边是鼻子,另一边是后腿。
Refer to caption
(c) 两杯玻璃杯放在桌子上。
Refer to caption
(d) 街上有一辆车。
Refer to caption
(e) 笔记本电脑放在一只泰迪熊的上面。
Refer to caption
(f) 一只长颈鹿在微波炉下面。
Refer to caption
(g) 一本黄色的书和一个红色的花瓶。
Refer to caption
(h) 一只猫和一只狗坐在草地上。
Refer to caption
(i) 格兰特·伍德绘制的一幅宇航员夫妇的画作,美国哥特式风格。
Refer to caption
(j) 一只蓝色的狗。
Refer to caption
(k) 麦当劳教堂。
Refer to caption
(l) 一只猫在理发店四重唱中唱歌的照片。
图3: DrawBench 提示[29]上的文本到图像生成。 我们基于自我感知的目标在很大程度上保留了图像内容和布局的同时,提高了样本质量,优于传统的 MSE 目标。 无分类器引导具有通过牺牲样本多样性来增强文本对齐的额外效果。 图像使用 DDIM 50 NFEs 生成。  4.1 节中进行更多分析。

MSE

Self-Perceptual

MSE + CFG

MSE

Self-Perceptual

MSE + CFG

Refer to caption
(a) 一辆黑色的汽车。
Refer to caption
(b) 一个黑色的三明治。
Refer to caption
(c) 一条鱼吃着一只鹈鹕。
Refer to caption
(d) 一个绿色的苹果和一个黑色的背包。
Refer to caption
(e) 一个绿色的杯子和一个蓝色的手机。
Refer to caption
(f) 一匹马骑着一名宇航员。
Refer to caption
(g) 一只粉红色的长颈鹿。
Refer to caption
(h) 一辆红色的汽车。
Refer to caption
(i) 一个单独的座位,通常带有靠背和四条腿,供一个人使用。
Refer to caption
(j) 一个写着“扩散”的标志。
Refer to caption
(k) 一只羊在酒杯的右边。
Refer to caption
(l) 一张困惑的灰熊在微积分课上的照片。
图 4: 在 DrawBench 提示 [29] 上的文本到图像生成。 我们的自感知目标在很大程度上保持图像内容和布局的同时,提高了样本质量,优于普通的 MSE 目标。 无分类器引导通过牺牲样本多样性来增强文本对齐。 图像使用 DDIM 50 NFEs 生成。 更多分析见  4.1

4.2 定量

 1 展示了我们的定量评估。 我们遵循惯例计算 Fréchet Inception Distance (FID) [8, 21] 和 Inception Score (IS) [30] 我们从 MSCOCO 2014 验证数据集 [16] 中选择了前 10k 个样本,并使用我们的模型生成对应标题的图像。 我们的自感知目标在 FID/IS 方面优于普通的 MSE 目标,这与我们观察到的样本质量改进相一致。 但是,无分类器引导仍然比我们的自感知目标实现了更好的样本质量。

Loss

CFG Rescale Steps NFE FID IS

Ground truth

00.00 35.28

mse

25 25 32.68 22.20
50 50 29.63 22.86

mse

7.5 25 50 24.41 32.10
7.5 0.7 25 50 18.67 34.17

sp

25 25 25.89 27.76
50 50 24.42 28.07
表 1: MSCOCO 10K 验证数据集上的定量评估。 我们的自感知 (SP) 目标在 FID 和 IS 指标方面优于普通的 MSE 目标,但仍逊于使用无分类器引导 [11] 和重缩放 [15] 这是预料之中的,因为无分类器引导还可以增强文本对齐,并以牺牲样本多样性为代价。 由于具有 25 步的无分类器引导会导致 50 个 NFE(函数评估次数),因此我们显示了 25 步和 50 步的指标。

5 消融研究

在本节中,我们评估了为我们的自感知目标选择各个超参数。 所有指标都是根据与  4.2 中相同的 MSCOCO 10k 验证样本计算的,并使用 25 步 DDIM 推断。

5.1 l

Layer

FID IS

All Encoder Layers

26.64 26.89

All Decoder Layers

42.42 19.98

All Encoder Layers + Midblock Layer

26.96 27.24

Only Midblock Layer

25.89 27.76
表 2 比较在不同层上计算感知损失。 我们发现,仅在中间块隐藏特征上计算损失可以产生最佳结果。

我们比较了在来自不同层 l 的隐藏特征上计算损失的效果。 我们尝试通过将损失相加来使用来自每个编码器层和解码器层的隐藏特征。 我们还尝试仅使用来自中间块层的特征。  2 所示,我们发现仅使用来自中间块层的特征会产生最佳指标。

5.2 时间步 t

我们比较了为感知网络选择时间步 t 的效果。 首先,我们表明 t=t 是无效的,因为 x^t 始终等于 xt 这将使感知网络的输入相同,从而阻止任何有意义的损失:

x^t=forward(x^0,ϵ^,t)=forward(x0,ϵ,t)=xt (12)

我们比较了 t 的三种不同选择。  3 表明,t 的均匀采样产生了最佳结果。

Timestep (t clamped to [1,T])

FID IS

t=t±40

27.24 23.31

t𝒩(t,100)

24.54 25.42

t𝒰(1,T)

25.89 27.76
表 3: 比较时间步t的选择。 我们发现,简单地对 t 进行均匀采样可以产生相当好的结果。

5.3 距离函数

我们比较了在隐藏特征上使用不同的距离函数。  4 表明 MSE 和 MAE 产生了非常相似的结果,因此我们坚持使用 MSE。

Distance FID IS
Mean Absolute Distance

(1)

25.28 27.41
Mean Squared Distance

(22)

25.89 27.76
表 4: 比较距离函数的选择。 我们发现,均方距离和平均绝对距离具有相似的结果,因此我们坚持使用均方距离。

5.4 公式

我们尝试了另一种公式,它将预测的 x^t,ϵ^t 与真实的 xt,ϵt 分别组合在一起。 此公式允许在 t=t 上进行梯度反馈:

xt=forward(x0,ϵ,t) (13)
x^tx=forward(x^0,ϵ,t) (14)
x^tϵ=forward(x0,ϵ^,t) (15)
sp2= f*l(x^tx,t,c)f*l(xt,t,c)22 (16)
+ f*l(x^tϵ,t,c)f*l(xt,t,c)22

 5 表明,替代公式产生了更差的性能。

Formulation

FID IS

sp

25.89 27.76

sp2

29.83 24.54
表 5: 比较不同的公式。 我们发现合并的公式产生了最好的结果。

5.5 重复感知网络

我们使用经过自感知目标训练的网络作为感知度量网络 f*l 并重复训练过程。  6 表明重复自感知训练会导致性能下降。 这就是我们决定冻结 MSE 模型而不是对感知网络使用指数移动平均 (EMA) 的原因。

Formulation

FID IS

MSE model as perceptual network

25.89 27.76

SP model as perceptual network

26.61 26.41
表 6: 重复自感知过程会导致性能下降。

5.6 与无分类器引导结合

我们尝试将无分类器引导应用于使用我们的自感知目标训练的模型。  7 表明无分类器引导确实可以进一步提高自感知模型的样本质量,但它并没有超越应用于 MSE 模型的无分类器引导。

Loss

CFG Rescale FID IS

mse

7.5 0.7 18.67 34.17

sp

25.89 27.76
2.0 0.7 21.19 32.22
3.0 0.7 20.65 33.49
4.0 0.7 20.67 33.34
7.5 0.7 23.49 31.64
表 7: 将我们的自感知目标与无分类器引导相结合确实提高了样本质量,但并没有超越 MSE 目标与无分类器引导的结合。

5.7 无条件生成

MSE

Self-Perceptual

Refer to caption
Refer to caption
图 5: 无条件生成。 两者都使用 DDIM 1000 步,并使用相同的种子。 我们基于自我感知的目标可以提升无条件生成质量。 之前,由于无分类器引导只适用于有条件模型,因此无法实现这一点。  5.7节有更多分析。

1000

900

800

700

600

500

400

300

200

100

Final

Refer to caption
(a) MSE
Refer to caption
(b) MSE + CFG
Refer to caption
(c) 自我感知
图 6: 推理过程中每一步的模型预测被转换为 x^0 空间。 这表明,用感知损失训练的模型的行为与 MSE 损失训练的模型截然不同。  5.8节有更多分析。

我们训练了一个无条件图像生成模型,遵循相同的步骤,除了我们在训练和推理过程中始终使用空提示。

 5显示,即使使用 1000 个采样步骤,MSE 目标也会生成不真实的图像,而自我感知目标则会生成更理想的结果。 这验证了我们的自我感知目标可以提高无条件扩散模型的质量,这是之前无分类器引导无法实现的。

 8 显示了定量指标,这也表明自我感知目标在提高无条件生成质量方面是有效的。

Loss

IS

mse

11.18

sp

12.04
表 8: 无条件生成指标。 自我感知目标提高了 inception 分数。

5.8 推理行为

 6 中,我们通过在每个推理步骤转换为 x^0 来可视化模型预测。 我们发现,使用自我感知训练的模型在推理过程中更早地生成了形状和轮廓。 我们还注意到它具有网格状图案伪影,这可能是由感知网络的卷积降采样性质造成的。 这种伪影对整体生成影响不大。 我们将其留待将来研究和改进。

6 结论

总之,我们已经表明,分类器引导和无分类器引导的有效性可以通过感知引导的视角来观察。 我们发现,感知损失可以直接应用于扩散训练以提高样本质量。 具体来说,我们提出了一种新颖的自我感知目标,它使用扩散模型本身作为感知网络。 我们的目标可以推广到所有模态,. 图像、视频、音频,等等.,并支持无条件生成,这在以前使用无分类器引导是不可能的。 对于有条件的生成,我们的目标在没有与条件输入纠缠的情况下提高了样本质量。

然而,对于文本到图像的生成,无分类器引导仍然比我们的自感知目标生成总体上更好的图像。 这是因为无分类器引导具有增加文本对齐的额外效果,方法是权衡多样性。

我们希望我们的工作为将来对扩散训练损失的更多探索铺平道路。

1# 创建 数据加载器
2数据加载器 = create_dataloader()
3
4 # 创建 模型 通过  mse 预训练 权重中 加载。
5模型 = create_model(mse_pretrained=True)
6优化器 = Adam(模型.parameters(), lr=3e-5)
7
8 # 创建 感知 模型  冻结 它。
9感知模型 = deepcopy(模型)
10感知模型.requires_grad_(False)
11感知模型.eval()
12
13 # 数据加载器 产生 图像 (潜在) x_0,  条件 提示 c。
14对于 x_0, c  数据加载器:
15
16     # 采样 时间步  epsilon 噪声。
17     # 然后 执行 正向 扩散。
18    t = randint(0, 1000, size=[batch_size])
19    eps = randn_like(x_0)
20    x_t = forward(x_0, eps, t)   # equation 2.
21
22     # Pass through model to get v prediction.
23     # Then convert v_pred to x_0_pred and eps_pred.
24    v_pred = model(x_t, t, c)
25    x_0_pred = to_x_0(v_pred, x_t, t)   # equation 8.
26    eps_pred = to_eps(v_pred, x_t, t)   # equation 9.
27
28     # Sample new timesteps.
29     # Then perform forward diffusion twice.
30     # One uses ground truth x_0 and eps.
31     # Another uses predicted x_0_pred and eps_pred.
32    tt = randint(0, 1000, size=[batch_size])
33    x_tt = forward(x_0, eps, tt)
34    x_tt_pred = forward(x_0_pred, eps_pred, tt)
35
36     # 通过 感知 模型 .
37    # 中间块获取 隐藏 功能
38    feature_real = perceptual_model(x_tt, tt, c, return_feature="midblock")
39    feature_pred = perceptual_model(x_tt_pred, tt, c, return_feature="midblock")
40
41    # 计算 损失 隐藏 特征。
42    loss = mse_loss(feature_pred, feature_real)
43    loss.backward()
44    optimizer.step()
45    optimizer.zero_grad()
算法 1 自感知训练的伪 PyTorch 代码。

参考文献

  • [1] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. Stable video diffusion: Scaling latent video diffusion models to large datasets, 2023.
  • [2] A. Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 22563–22575, 2023.
  • [3] Di Chang, Yichun Shi, Quankai Gao, Jessica Fu, Hongyi Xu, Guoxian Song, Qing Yan, Xiao Yang, and Mohammad Soleymani. Magicdance: Realistic human dance video generation with motions & facial expressions transfer, 2023.
  • [4] Junsong Chen, Jincheng YU, Chongjian GE, Lewei Yao, Enze Xie, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-$\alpha$: Fast training of diffusion transformer for photorealistic text-to-image synthesis. In The Twelfth International Conference on Learning Representations, 2024.
  • [5] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat gans on image synthesis. In Marc’Aurelio Ranzato, Alina Beygelzimer, Yann N. Dauphin, Percy Liang, and Jennifer Wortman Vaughan, editors, Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, NeurIPS 2021, December 6-14, 2021, virtual, pages 8780–8794, 2021.
  • [6] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, and Anastasis Germanidis. Structure and content-guided video synthesis with diffusion models. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pages 7312–7322, 2023.
  • [7] Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, and Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. In The Twelfth International Conference on Learning Representations, 2024.
  • [8] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett, editors, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 6626–6637, 2017.
  • [9] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, and Tim Salimans. Imagen video: High definition video generation with diffusion models, 2022.
  • [10] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, editors, Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020.
  • [11] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021.
  • [12] Aapo Hyvärinen. Estimation of non-normalized statistical models by score matching. Journal of Machine Learning Research, 6(24):695–709, 2005.
  • [13] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho, editors, Advances in Neural Information Processing Systems, 2022.
  • [14] Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, and Samuli Laine. Analyzing and improving the training dynamics of diffusion models, 2023.
  • [15] Shanchuan Lin, Bingchen Liu, Jiashi Li, and Xiao Yang. Common diffusion noise schedules and sample steps are flawed. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pages 5404–5411, January 2024.
  • [16] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, 2014.
  • [17] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In The Eleventh International Conference on Learning Representations, 2023.
  • [18] Xingchao Liu, Chengyue Gong, and Qiang Liu. Flow straight and fast: Learning to generate and transfer data with rectified flow, 2022.
  • [19] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. DPM-solver: A fast ODE solver for diffusion probabilistic model sampling in around 10 steps. In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho, editors, Advances in Neural Information Processing Systems, 2022.
  • [20] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models, 2023.
  • [21] Gaurav Parmar, Richard Zhang, and Jun-Yan Zhu. On aliased resizing and surprising subtleties in gan evaluation. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11400–11410, 2022.
  • [22] William S. Peebles and Saining Xie. Scalable diffusion models with transformers. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pages 4172–4182, 2022.
  • [23] Pablo Pernias, Dominic Rampas, Mats Leon Richter, Christopher Pal, and Marc Aubreville. Würstchen: An efficient architecture for large-scale text-to-image diffusion models. In The Twelfth International Conference on Learning Representations, 2024.
  • [24] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. SDXL: Improving latent diffusion models for high-resolution image synthesis. In The Twelfth International Conference on Learning Representations, 2024.
  • [25] Ben Poole, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. In The Eleventh International Conference on Learning Representations, 2023.
  • [26] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event, volume 139 of Proceedings of Machine Learning Research, pages 8748–8763. PMLR, 2021.
  • [27] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents, 2022.
  • [28] Robin Rombach, A. Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10674–10685, 2021.
  • [29] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Raphael Gontijo-Lopes, Burcu Karagol Ayan, Tim Salimans, Jonathan Ho, David J. Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho, editors, Advances in Neural Information Processing Systems, 2022.
  • [30] Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. In Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain, pages 2226–2234, 2016.
  • [31] Tim Salimans and Jonathan Ho. Progressive distillation for fast sampling of diffusion models. In International Conference on Learning Representations, 2022.
  • [32] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade W Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk, and Jenia Jitsev. LAION-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.
  • [33] Yichun Shi, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, and Xiao Yang. MVDream: Multi-view diffusion for 3d generation. In The Twelfth International Conference on Learning Representations, 2024.
  • [34] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, and Yaniv Taigman. Make-a-video: Text-to-video generation without text-video data. In The Eleventh International Conference on Learning Representations, 2023.
  • [35] Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In Francis R. Bach and David M. Blei, editors, Proceedings of the 32nd International Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015, volume 37 of JMLR Workshop and Conference Proceedings, pages 2256–2265. JMLR.org, 2015.
  • [36] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In International Conference on Learning Representations, 2021.
  • [37] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021.
  • [38] Pascal Vincent. A Connection Between Score Matching and Denoising Autoencoders. Neural Computation, 23(7):1661–1674, 2011.
  • [39] Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, and Pierre-Antoine Manzagol. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. J. Mach. Learn. Res., 11:3371–3408, 2010.
  • [40] Zhou Wang, Alan Conrad Bovik, Hamid R. Sheikh, and Eero P. Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13:600–612, 2004.
  • [41] Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
  • [42] Z. Wang, E.P. Simoncelli, and A.C. Bovik. Multiscale structural similarity for image quality assessment. In The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, 2003, volume 2, pages 1398–1402 Vol.2, 2003.
  • [43] Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, and Jiashi Feng. Magicprop: Diffusion-based video editing via motion-aware appearance propagation, 2023.
  • [44] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018, pages 586–595. IEEE Computer Society, 2018.
  • [45] Chuanxia Zheng, Long Tung Vuong, Jianfei Cai, and Dinh Phung. MoVQ: Modulating quantized vectors for high-fidelity image generation. In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho, editors, Advances in Neural Information Processing Systems, 2022.
  • [46] Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, and Jiashi Feng. Magicvideo: Efficient video generation with latent diffusion models, 2023.