[2403.18103] Contents

成像和视觉扩散模型教程

陈士丹利¹¹1普渡大学电气与计算机工程学院，西拉斐特，IN 47907。邮箱： stanchan@purdue.edu。

摘要。近年来，生成工具的惊人增长为文本到图像生成和文本到视频生成领域的许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了先前方法中被认为难以解决的某些缺点。本教程的目标是讨论扩散模型的基本思想。本教程的目标受众包括对扩散模型研究或应用这些模型解决其他问题感兴趣的本科生和研究生。

1 基础知识：变分自动编码器 (VAE)

1.1 VAE设置

很久以前，在一个遥远的星系中，我们想要构建一个生成器，从潜在代码生成图像。最简单（也许是最经典的方法之一）的方法是考虑如下所示的编码器-解码器对。这称为变分自动编码器 (VAE) [1, 2, 3]。

自动编码器有一个输入变量 $\mathbf{x}$ 和一个潜在变量 $\mathbf{z}$ 。为了理解这个主题，我们将 $\mathbf{x}$ 视为美丽的图像，将 $\mathbf{z}$ 视为存在于某些高维空间中的某种向量。

示例。获得图像的潜在表示并不是一件陌生的事情。回到 JPEG 压缩时代（可以说是一种恐龙），我们使用离散余弦变换 (DCT) 基础

\boldsymbol{\varphi}_{n}

来对图像的底层图像/补丁进行编码。系数向量

\mathbf{z}=[z_{1},\ldots,z_{N}]^{T}

是通过将面片

\mathbf{x}

投影到基

z_{n}=\langle\boldsymbol{\varphi}_{n},\mathbf{x}\rangle

所跨越的空间上来获得的。因此，如果您给我们一个图像

\mathbf{x}

，我们将返回一个系数向量

\mathbf{z}

。从

\mathbf{z}

我们可以进行逆变换来恢复（即解码）图像。因此，系数向量

\mathbf{z}

是潜在代码。编码器是DCT变换，解码器是DCT逆变换。 [Uncaptioned image]

“变分”这个名字来源于我们使用概率分布来描述 $\mathbf{x}$ 和 $\mathbf{z}$ 的因素。我们并不想采用将 $\mathbf{x}$ 转换为 $\mathbf{z}$ 的确定性程序，而是更感兴趣的是确保分布 $p(\mathbf{x})$ 可以映射到所需分布 $p(\mathbf{z})$ ，并反向回到 $p(\mathbf{x})$ 。由于分布设置，我们需要考虑一些分布。

•

$p(\mathbf{x})$ ： $\mathbf{x}$ 的分布。这是永远不知道的。如果我们知道这一点，我们就会成为亿万富翁。整个扩散模型家族都是为了找到从 $p(\mathbf{x})$ 中抽取样本的方法。
•

$p(\mathbf{z})$ ：潜变量的分布。因为我们都很懒，所以让我们把它做成一个零均值单位方差高斯 $p(\mathbf{z})=\mathcal{N}(0,\mathbf{I})$ 。
•

$p(\mathbf{z}|\mathbf{x})$ ：与编码器相关的条件分布，它告诉我们在给定 $\mathbf{x}$ 时 $\mathbf{z}$ 的可能性。我们无法访问它。 $p(\mathbf{z}|\mathbf{x})$ 本身不是编码器，但编码器必须做一些事情，使其行为与 $p(\mathbf{z}|\mathbf{x})$ 一致。
•

$p(\mathbf{x}|\mathbf{z})$ ：与解码器相关的条件分布，它告诉我们在给定 $\mathbf{z}$ 时获得 $\mathbf{x}$ 的后验概率。同样，我们无法访问它。

上面的四个分布并不算太神秘。这是一个有点琐碎但有教育意义的例子，可以说明这个想法。示例。考虑一个随机变量 $\mathbf{X}$ ，它根据高斯混合模型分布，其中潜变量 $z\in\{1,\ldots,K\}$ 表示聚类标识，使得 $p_{Z}(k)=\mathbb{P}[Z=k]=\pi_{k}$ 对于 $k=1,\ldots,K$ 。我们假设 $\sum_{k=1}^{K}\pi_{k}=1$ 。然后，如果我们被告知我们只需要查看第 $k$ 个簇，则给定 $Z$ 的 $\mathbf{X}$ 的条件分布为 $\displaystyle p_{\mathbf{X}|Z}(\mathbf{x}|k)=\mathcal{N}(\mathbf{x}\,|\,\boldsymbol{\mu}_{k},\sigma^{2}_{k}\mathbf{I}).$ $\mathbf{x}$ 的边际分布可以使用总概率定律找到，给我们 $p_{\mathbf{X}}(\mathbf{x})=\sum_{k=1}^{K}p_{\mathbf{X}|Z}(\mathbf{x}|k)p_{Z}(k)=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x}\,|\,\boldsymbol{\mu}_{k},\sigma_{k}^{2}\mathbf{I}).$ (1) 因此，如果我们从 $p_{\mathbf{X}}(\mathbf{x})$ 开始，编码器的设计问题是构建一个神奇的编码器，使得对于每个样本 $\mathbf{x}\sim p_{\mathbf{X}}(\mathbf{x})$ ，潜码将是 $z\in\{1,\ldots,K\}$ ，其分布为 $z\sim p_{Z}(k)$ 。为了说明编码器和解码器的工作原理，我们假设均值和方差已知并且是固定的。否则，我们需要通过 EM 算法来估计均值和方差。这是可行的，但繁琐的方程将违背本例的目的。 Encoder：我们如何从 $\mathbf{x}$ 获取 $z$ ？这很简单，因为在编码器中，我们知道 $p_{\mathbf{X}}(\mathbf{x})$ 和 $p_{Z}(k)$ 。想象一下，您只有两个类 $z\in\{1,2\}$ 。实际上，您只是对样本 $\mathbf{x}$ 应该属于哪里做出二元决定。有很多方法可以做出二元决策。如果你喜欢最大后验，你可以检查 $p_{Z|\mathbf{X}}(1|\mathbf{x})\gtrless^{\text{class 1}}_{\text{class 2}}p_{Z|\mathbf{X}}(2|\mathbf{x}),$ 这将返回一个简单的决策规则。您给我们 $\mathbf{x}$ ，我们告诉您 $z\in\{1,2\}$ 。解码器：在解码器端，如果我们得到一个潜在代码 $z\in\{1,\ldots,K\}$ ，神奇的解码器只需要返回我们一个从 $p_{\mathbf{X}|Z}(\mathbf{x}|k)=\mathcal{N}(\mathbf{x}\,|\,\boldsymbol{\mu}_{k},\sigma^{2}_{k}\mathbf{I})$ 中抽取的样本 $\mathbf{x}$ 。不同的 $z$ 将为我们提供 $K$ 混合组件之一。如果我们有足够的样本，总体分布将遵循高斯混合分布。

像你这样聪明的读者肯定会抱怨：“你的例子太不真实了。”不用担心。我们明白。当然，生活比具有已知均值和已知方差的高斯混合模型要困难得多。但我们意识到的一件事是，如果我们想找到神奇的编码器和解码器，我们必须有一种方法来找到两个条件分布。不过，他们都是高维生物。因此，为了让我们说一些更有意义的事情，我们需要强加额外的结构，以便我们可以将概念推广到更困难的问题。

在 VAE 的文献中，人们提出了考虑以下两个代理分布的想法：

•

$q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ ： $p(\mathbf{z}|\mathbf{x})$ 的代理。我们将使其成为高斯分布。为什么是高斯？没有特别充分的理由。也许我们只是普通（又名懒惰）人。
•

$p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ ： $p(\mathbf{x}|\mathbf{z})$ 的代理。不管你信不信，我们也会把它变成高斯分布。但是，这个高斯分布的作用与高斯分布 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 略有不同。虽然我们需要估计高斯分布 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 的均值和方差，但我们不需要为高斯分布 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 估计任何东西。相反，我们需要一个解码器神经网络将 $\mathbf{z}$ 转换为 $\mathbf{x}$ 。高斯分布 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 将用来告知我们生成的图像 $\mathbf{x}$ 的好坏程度。

输入 $\mathbf{x}$ 与潜在变量 $\mathbf{z}$ 之间的关系，以及条件分布，总结在图 1 中。有两个节点 $\mathbf{x}$ 和 $\mathbf{z}$ 。 “正向” 关系由 $p(\mathbf{z}|\mathbf{x})$ 指定（并由 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 近似），而 “反向” 关系由 $p(\mathbf{x}|\mathbf{z})$ 指定（并由 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 近似）。

Refer to caption — 图1：在变分自编码器中，变量 $\mathbf{x}$ 和 $\mathbf{z}$ 由条件分布 $p(\mathbf{x}|\mathbf{z})$ 和 $p(\mathbf{z}|\mathbf{x})$ 连接。为了使事情正常运作，我们分别引入了两个代理分布 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 和 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 。

示例。现在是时候考虑另一个简单的例子了。假设我们有一个随机变量

\mathbf{x}

和一个潜在变量

\mathbf{z}

，这样

\displaystyle\mathbf{x}

\displaystyle\sim\mathcal{N}(\mathbf{x}\,|\,\mu,\sigma^{2}),

\displaystyle\mathbf{z}

\displaystyle\sim\mathcal{N}(\mathbf{z}\,|\,0,1).

我们的目标是构建一个 VAE。（什么？！这个问题有一个微不足道的解决方案，其中

\mathbf{z}=(\mathbf{x}-\mu)/\sigma

和

\mathbf{x}=\boldsymbol{\mu}+\sigma\mathbf{z}

。你是绝对正确的。但请按照我们的推导来看看VAE框架是否有意义。） [Uncaptioned image]

通过构建 VAE，我们的意思是我们想要构建两个映射“编码”和“解码”。为了简单起见，我们假设这两个映射都是仿射变换：

\displaystyle\mathbf{z}

\displaystyle=\text{encode}(\mathbf{x})=a\mathbf{x}+b,\qquad\text{so that}\quad\boldsymbol{\phi}=[a,b],

\displaystyle\mathbf{x}

\displaystyle=\text{decode}(\mathbf{z})=c\mathbf{z}+d,\qquad\text{so that}\quad\boldsymbol{\theta}=[c,d].

我们太懒了，不想找出联合分布

p(\mathbf{x},\mathbf{z})

，也不想找出条件分布

p(\mathbf{x}|\mathbf{z})

和

p(\mathbf{z}|\mathbf{x})

。但是我们可以构造代理分布

q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

和

p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})

。既然我们可以自由地选择

q_{\boldsymbol{\phi}}

和

p_{\boldsymbol{\theta}}

应该是什么样子，我们考虑以下两个高斯怎么样

\displaystyle q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

\displaystyle=\mathcal{N}(\mathbf{z}\;|\;a\mathbf{x}+b,1),

\displaystyle p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})

\displaystyle=\mathcal{N}(\mathbf{x}\;|\;c\mathbf{z}+d,c).

这两个高斯的选择并不神秘。 For

q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

: if we are given

\mathbf{x}

, of course we want the encoder to encode the distribution according to the structure we have chosen. Since the encoder structure is

a\mathbf{x}+b

, the natural choice for

q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

is to have the mean

a\mathbf{x}+b

. The variance is chosen as 1 because we know that the encoded sample

\mathbf{z}

should be unit-variance. Similarly, for

p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})

: if we are given

\mathbf{z}

, the decoder must take the form of

c\mathbf{z}+d

because this is how we setup the decoder. The variance is

c

which is a parameter we need to figure out. 在继续这个例子之前我们将暂停一会儿。我们想介绍一种数学工具。

1.2 证据下界

我们如何使用这两个代理分布来实现我们确定编码器和解码器的目标？ If we treat $\boldsymbol{\phi}$ and $\boldsymbol{\theta}$ as optimization variables, then we need an objective function (or the loss function) so that we can optimize $\boldsymbol{\phi}$ and $\boldsymbol{\theta}$ through training samples. To this end, we need to set up a loss function in terms of $\boldsymbol{\phi}$ and $\boldsymbol{\theta}$ . 我们在这里使用的损失函数称为证据下限 (ELBO) [1]： $\text{ELBO}(\mathbf{x})\overset{\text{def}}{=}\mathbb{E}_{q_{\phi}(\mathbf{z}|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\right].$ (2) 你一定很疑惑地球人怎么能想出这个损失函数！？让我们看看 ELBO 是什么意思以及它是如何衍生的。

In a nutshell, ELBO is a lower bound for the prior distribution $\log p(\mathbf{x})$ because we can show that

$\displaystyle\log p(\mathbf{x})=\text{some magical steps}$	$\displaystyle=\mathbb{E}_{q_{\phi}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]+\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})\\|p(\mathbf{z}\|\mathbf{x}))$	(3)
	$\displaystyle\geq\mathbb{E}_{q_{\phi}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$
	$\displaystyle\overset{\text{def}}{=}\text{ELBO}(\mathbf{x}),$

其中不等式源于 KL 散度始终为非负这一事实。 Therefore, ELBO is a valid lower bound for $\log p(\mathbf{x})$ . Since we never have access to $\log p(\mathbf{x})$ , if we somehow have access to ELBO and if ELBO is a good lower bound, then we can effectively maximize ELBO to achieve the goal of maximizing $\log p(\mathbf{x})$ which is the gold standard. 现在的问题是下限有多好。 As you can see from the equation and also Figure 2, the inequality will become an equality when our proxy $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ can match the true distribution $p(\mathbf{z}|\mathbf{x})$ exactly. So, part of the game is to ensure $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ is close to $p(\mathbf{z}|\mathbf{x})$ .

方程证明 (3)。这里的全部诀窍是利用我们神奇的代理

q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

在

p(\mathbf{x})

中四处探查，并推导出界限。

\displaystyle\log p(\mathbf{x})

\displaystyle=\log p(\mathbf{x})\times\underset{=1}{\underbrace{\int q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})d\mathbf{z}}}

multiply 1

\displaystyle=\int\underset{\text{some constant wrt $\mathbf{z}$}}{\underbrace{\log p(\mathbf{x})}}\times\underset{\text{distribution in $\mathbf{z}$}}{\underbrace{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}}d\mathbf{z}

move

\log p(\mathbf{x})

into integral

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x})],

(4) 其中最后一个等式是一个有趣的结论，即对于任何随机变量

Z

和一个标量

a

，

\int a\times p_{Z}(z)dz=\mathbb{E}[a]

成立。当然，

\mathbb{E}[a]=a

。看，我们已经获得了

\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}[\cdot]

。只需再执行几步即可。让我们使用贝叶斯定理，它指出

p(\mathbf{x},\mathbf{z})=p(\mathbf{z}|\mathbf{x})p(\mathbf{x})

：

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x})]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{p(\mathbf{z}|\mathbf{x})}\right]

Bayes Theorem

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{p(\mathbf{z}|\mathbf{x})}\times{\color[rgb]{0,0,1}\frac{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}}\right]

Multiply and divide

q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

\displaystyle=\underset{\text{ELBO}}{\underbrace{\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}}\right]}}+\underset{\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})\|p(\mathbf{z}|\mathbf{x}))}{\underbrace{\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\left[\log\frac{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}}{p(\mathbf{z}|\mathbf{x})}\right]}},

(5) 我们认识到第一项正是 ELBO，而第二项正是 KL 散度。将方程 (5) 与方程 (3) 进行比较，我们知道生活是美好的。

我们现在有ELBO。但这个 ELBO 仍然不太有用，因为它涉及 $p(\mathbf{x},\mathbf{z})$ ，而我们无法访问它。所以，我们还需要做一些事情。让我们仔细看看 ELBO

$\displaystyle\text{ELBO}(\mathbf{x})$	$\displaystyle\overset{\text{def}}{=}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$	definition
	$\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{{\color[rgb]{0,0,1}p(\mathbf{x}\|\mathbf{z})p(\mathbf{z})}}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$	$\displaystyle\qquad p(\mathbf{x},\mathbf{z})=p(\mathbf{x}\|\mathbf{z})p(\mathbf{z})$
	$\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log p(\mathbf{x}\|\mathbf{z})\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{p(\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$	split expectation
	$\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log{\color[rgb]{0,0,1}p_{\boldsymbol{\theta}}(\mathbf{x}\|\mathbf{z})}\right]-\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})\\|p(\mathbf{z})),$	definition of KL

其中我们暗中用其代理 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 替换了不可访问的 $p(\mathbf{x}|\mathbf{z})$ 。这是一个漂亮的结果。我们刚刚展示了一些非常容易理解的东西。 $\text{ELBO}(\mathbf{x})=\underset{\text{how good your decoder is}}{\underbrace{\mathbb{E}_{q_{\phi}(\mathbf{z}|\mathbf{x})}[\log\overset{\text{a Gaussian}}{\overbrace{p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})}}]}}\qquad\qquad-\qquad\qquad\underset{\text{how good your encoder is}}{\underbrace{\mathbb{D}_{\text{KL}}\Big{(}\overset{\text{a Gaussian}}{\overbrace{q_{\phi}(\mathbf{z}|\mathbf{x})}}\,\|\,\overset{\text{a Gaussian}}{\overbrace{p(\mathbf{z})}}\Big{)}}}.$ (6) 方程 (6) 中有两项：

•

重建。第一项是关于解码器的。如果我们将潜在的 $\mathbf{z}$ 输入解码器（当然！！），我们希望解码器能够生成良好的图像 $\mathbf{x}$ 。所以，我们想要 最大化 $\log p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 。它类似于最大似然，我们想要找到模型参数以最大化观察图像的可能性。这里的期望是针对样本 $\mathbf{z}$ 得出的（以 $\mathbf{x}$ 为条件）。这不足为奇，因为样本 $\mathbf{z}$ 用于评估解码器的质量。它不能是任意的噪声向量，而是有意义的潜在向量。所以， $\mathbf{z}$ 需要从 $q_{\phi}(\mathbf{z}|\mathbf{x})$ 中采样。
•

先前匹配。第二项是编码器的 KL 散度。我们希望编码器将 $\mathbf{x}$ 转换为一个潜在向量 $\mathbf{z}$ ，使得该潜在向量遵循我们选择的（懒惰）分布 $\mathcal{N}(0,\mathbf{I})$ 。为了更一般化，我们将 $p(\mathbf{z})$ 写为目标分布。因为KL是一个距离（当两个分布变得更加不相似时，它会增加），所以我们需要在前面加上一个负号，以便当两个分布变得更加相似时，它会增加。

示例。让我们继续我们的简单高斯示例。从之前的推导我们知道

\displaystyle q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})

\displaystyle=\mathcal{N}(\mathbf{z}\;|\;a\mathbf{x}+b,1),

\displaystyle p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})

\displaystyle=\mathcal{N}(\mathbf{x}\;|\;c\mathbf{z}+d,c).

为了确定

\boldsymbol{\theta}

和

\boldsymbol{\phi}

，我们需要最小化先验匹配误差并最大化重建项。对于先验匹配，我们知道

\displaystyle\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})\|p(\mathbf{z}))=\mathbb{D}_{\text{KL}}\left(\mathcal{N}(\mathbf{z}\;|\;a\mathbf{x}+b,1)\;\|\;\mathcal{N}(\mathbf{z}\;|\;0,1)\right).

由于

\mathbb{E}[\mathbf{x}]=\mu

和

\mathrm{Var}[\mathbf{x}]=\sigma^{2}

，当

a=\frac{1}{\sigma}

和

b=-\frac{\mu}{\sigma}

时，KL 散度被最小化，以便

a\mathbf{x}+b=\frac{\mathbf{x}-\mu}{\sigma}

。因此，

\mathbb{E}[a\mathbf{x}+b]=0

和

\mathrm{Var}[a\mathbf{x}+b]=1

。对于重建项，我们知道

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}[\log p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})]=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}\left[-\frac{(c\mathbf{z}+d-\mu)^{2}}{2c^{2}}\right].

由于

\mathbb{E}[\mathbf{z}]=0

和

\mathrm{Var}[\mathbf{z}]=1

，因此当

c=\sigma

和

d=\mu

时，该项被最大化。总而言之，编码器和解码器参数是

\displaystyle\mathbf{z}

\displaystyle=\text{encode}(\mathbf{x})=\frac{\mathbf{x}-\mu}{\sigma},

\displaystyle\mathbf{x}

\displaystyle=\text{decode}(\mathbf{z})=\sigma\mathbf{z}+\mu,

这很容易理解。

重建项和先验匹配项在图 3 中进行了说明。在这两种情况下，以及在训练过程中，我们假设我们都可以访问 $\mathbf{z}$ 和 $\mathbf{x}$ ，其中 $\mathbf{z}$ 需要从 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 中采样。然后，为了重建，我们估计 $\boldsymbol{\theta}$ 以最大化 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 。为了先验匹配，我们找到 $\boldsymbol{\phi}$ 以最小化 KL 散度。优化可能具有挑战性，因为如果您更新 $\boldsymbol{\phi}$ ，则分布 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 将会改变。

1.3训练VAE

现在我们了解了 ELBO 的含义，我们可以讨论如何训练 VAE。为了训练 VAE，我们需要地面实况对 $(\mathbf{x},\mathbf{z})$ 。我们知道如何得到 $\mathbf{x}$ ；它只是数据集中的图像。但相应地 $\mathbf{z}$ 应该是什么？

我们来谈谈编码器。我们知道 $\mathbf{z}$ 是从分布 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 生成的。我们也知道 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})$ 是一个高斯分布。假设此高斯分布具有均值 $\boldsymbol{\mu}$ 和协方差矩阵 $\sigma^{2}\mathbf{I}$ （哈哈！我们的懒惰又来了！我们不使用一般的协方差矩阵，而是假设方差相等）。

棘手的部分是如何从输入图像 $\mathbf{x}$ 中确定 $\boldsymbol{\mu}$ 和 $\sigma^{2}$ 。好吧，如果你没有线索，别担心。欢迎来到原力的黑暗面。我们构建一个深度神经网络，使得

	$\displaystyle\boldsymbol{\mu}$	$\displaystyle=\underset{\text{neural network}}{\underbrace{\boldsymbol{\mu}_{\boldsymbol{\phi}}}}(\mathbf{x})$
	$\displaystyle\sigma^{2}$	$\displaystyle=\underset{\text{neural network}}{\underbrace{\sigma_{\boldsymbol{\phi}}^{2}}}(\mathbf{x}),$

因此，样本 $\mathbf{z}^{(\ell)}$ （其中 $\ell$ 表示训练集中的第 $\ell$ 个训练样本）可以从高斯分布中采样

\mathbf{z}^{(\ell)}\sim\underset{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)})}{\underbrace{\mathcal{N}(\mathbf{z}\;|\;\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)}),\sigma_{\boldsymbol{\phi}}^{2}(\mathbf{x}^{(\ell)})\mathbf{I})}},\qquad\text{where $\boldsymbol{\mu}_{\boldsymbol{\phi}},\sigma_{\boldsymbol{\phi}}^{2}$ are functions of $\mathbf{x}$.}

(7)

该想法总结在图 4 中，我们使用神经网络来估计高斯参数，并从高斯分布中抽取样本。请注意， $\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})$ 和 $\sigma_{\boldsymbol{\phi}}^{2}(\mathbf{x}^{(\ell)})$ 是 $\mathbf{x}^{(\ell)}$ 的函数。因此，对于不同的 $\mathbf{x}^{(\ell)}$ 我们将有不同的高斯。

备注。对于任何高维高斯分布

\mathbf{x}\sim\mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})

，采样过程可以通过白噪声的变换来完成

\mathbf{x}=\boldsymbol{\mu}+\boldsymbol{\Sigma}^{\frac{1}{2}}\mathbf{w},

(8) 其中

\mathbf{w}\sim\mathcal{N}(0,\mathbf{I})

。半矩阵

\boldsymbol{\Sigma}^{\frac{1}{2}}

可以通过特征分解或Cholesky分解得到。对于对角矩阵

\boldsymbol{\Sigma}=\sigma^{2}\mathbf{I}

，以上公式简化为

\mathbf{x}=\boldsymbol{\mu}+\sigma\mathbf{w},\qquad\text{where}\;\mathbf{w}\sim\mathcal{N}(0,\mathbf{I}).

(9)

我们来谈谈解码器。解码器是通过神经网络实现的。为了符号简单起见，我们将其定义为 $\text{decode}_{\boldsymbol{\theta}}$ ，其中 $\boldsymbol{\theta}$ 表示网络参数。解码器网络的工作是获取潜在变量 $\mathbf{z}$ 并生成图像 $\widehat{\mathbf{x}}$ ：

\widehat{\mathbf{x}}=\text{decode}_{\boldsymbol{\theta}}(\mathbf{z}).

(10)

现在让我们再做一个（疯狂的）假设，解码图像 $\widehat{\mathbf{x}}$ 和地面真实图像 $\mathbf{x}$ 之间的误差是高斯的。（等等，又是高斯？！）我们假设

(\widehat{\mathbf{x}}-\mathbf{x})\sim\mathcal{N}(0,\sigma_{\text{dec}}^{2}),\qquad\text{for some $\sigma_{\text{dec}}^{2}$.}

然后，可以得出分布 $p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})$ 为

$\displaystyle\log p_{\boldsymbol{\theta}}(\mathbf{x}\|\mathbf{z})$	$\displaystyle=\log\mathcal{N}(\mathbf{x}\,\|\,\text{decode}_{\boldsymbol{\theta}}(\mathbf{z}),\sigma_{\text{dec}}^{2}\mathbf{I})$
	$\displaystyle=\log\frac{1}{\sqrt{(2\pi\sigma_{\text{dec}}^{2})^{D}}}\exp\left\{-\frac{\\|\mathbf{x}-\text{decode}_{\boldsymbol{\theta}}(\mathbf{z})\\|^{2}}{2\sigma_{\text{dec}}^{2}}\right\}$
	$\displaystyle=-\frac{\\|\mathbf{x}-\text{decode}_{\boldsymbol{\theta}}(\mathbf{z})\\|^{2}}{2\sigma_{\text{dec}}^{2}}\;\;-\;\;\underset{\text{you can ignore this term}}{\underbrace{\log\sqrt{(2\pi\sigma_{\text{dec}}^{2})^{D}}}},$	(11)

其中 $D$ 是 $\mathbf{x}$ 的尺寸。该方程表明 ELBO 中似然项的最大化实际上就是解码图像和地面实况之间的 $\ell_{2}$ 损失。该想法如图 5 所示。

1.4损失函数

一旦理解了编码器和解码器的结构，损失函数就很容易理解了。我们通过蒙特卡罗模拟来近似期望：

\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x})}[\log p_{\boldsymbol{\theta}}(\mathbf{x}|\mathbf{z})]\approx\frac{1}{L}\sum_{\ell=1}^{L}\log p_{\boldsymbol{\theta}}(\mathbf{x}^{\ell}|\mathbf{z}^{(\ell)}),\qquad\mathbf{z}^{(\ell)}\sim q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)}),

其中 $\mathbf{x}^{(\ell)}$ 是训练集中第 $\ell$ 个样本， $\mathbf{z}^{(\ell)}$ 从 $\mathbf{z}^{(\ell)}\sim q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)})$ 中采样。分布 $q_{\boldsymbol{\theta}}$ 为 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)})=\mathcal{N}(\mathbf{z}|\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)}),\sigma^{2}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})\mathbf{I})$ 。

VAE 训练损失：

\mathop{\underset{\boldsymbol{\phi},\boldsymbol{\theta}}{\mbox{argmax}}}\left\{\frac{1}{L}\sum_{\ell=1}^{L}\log p_{\boldsymbol{\theta}}(\mathbf{x}^{(\ell)}|\mathbf{z}^{(\ell)})-\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)})\|p(\mathbf{z}))\right\},

(12) 其中

\{\mathbf{x}^{(\ell)}\}_{\ell=1}^{L}

是训练数据集中真实的图像，

\mathbf{z}^{(\ell)}

从公式 (7) 中采样。

KL 散度项中的 $\mathbf{z}$ 不依赖于 $\ell$ ，因为我们正在测量两个分布之间的 KL 散度。这里的变量 $\mathbf{z}$ 是一个虚拟变量。

我们需要澄清的最后一件事是 KL 散度。由于 $q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)})=\mathcal{N}(\mathbf{z}|\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)}),\sigma^{2}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})\mathbf{I})$ 和 $p(\mathbf{z})=\mathcal{N}(0,\mathbf{I})$ ，我们实际上正在处理两个高斯分布。如果你访问维基百科，你会发现两个 $d$ 维高斯分布 $\mathcal{N}(\boldsymbol{\mu}_{0},\boldsymbol{\Sigma}_{0})$ 和 $\mathcal{N}(\boldsymbol{\mu}_{1},\boldsymbol{\Sigma}_{1})$ 的 KL 散度为

\mathbb{D}_{\text{KL}}(\mathcal{N}(\boldsymbol{\mu}_{0},\boldsymbol{\Sigma}_{0}),\mathcal{N}(\boldsymbol{\mu}_{1},\boldsymbol{\Sigma}_{1}))=\frac{1}{2}\left(\text{Tr}(\boldsymbol{\Sigma}_{1}^{-1}\boldsymbol{\Sigma}_{0})-d+(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{0})^{T}\boldsymbol{\Sigma}_{1}^{-1}(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{0})+\log\frac{\text{det}\boldsymbol{\Sigma}_{1}}{\text{det}\boldsymbol{\Sigma}_{0}}\right).

(13)

通过考虑 $\boldsymbol{\mu}_{0}=\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})$ 、 $\boldsymbol{\Sigma}_{0}=\sigma^{2}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})\mathbf{I}$ 、 $\boldsymbol{\mu}_{1}=0$ 、 $\boldsymbol{\Sigma}_{1}=\mathbf{I}$ ，将我们的分布代入公式，我们可以证明 KL 散度具有解析表达式

\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}|\mathbf{x}^{(\ell)})\;\|\;p(\mathbf{z}))=\frac{1}{2}\left((\sigma_{\boldsymbol{\phi}}^{2}(\mathbf{x}^{(\ell)}))^{d}+\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})^{T}\boldsymbol{\mu}_{\boldsymbol{\phi}}(\mathbf{x}^{(\ell)})-d\log(\sigma_{\boldsymbol{\phi}}^{2}(\mathbf{x}^{(\ell)}))\right),

(14)

其中 $d$ 是向量 $\mathbf{z}$ 的维度。因此，整体损失函数公式 (12) 是可微的。因此，我们可以通过反向传播梯度来端到端训练编码器和解码器。

1.5 使用 VAE 进行推理

对于推理，我们可以简单地将一个潜在向量 $\mathbf{z}$ （从 $p(\mathbf{z})=\mathcal{N}(0,\mathbf{I})$ 中采样）输入解码器 $\text{decode}_{\boldsymbol{\theta}}$ 并获得图像 $\mathbf{x}$ 。就是这样；参见图 6。

恭喜！我们完了。这就是 VAE 的全部内容。

如果您想阅读更多内容，我们强烈推荐 Kingma 和 Welling [1] 编写的教程。可以在 [2] 找到较短的教程。如果您在 Google 中输入 VAE 教程 PyTorch，您将能够找到数百甚至数千个编程教程和视频。

2去噪扩散概率模型（DDPM）

在本节中，我们将讨论 Ho 等人[4]的 DDPM。如果您对网上成千上万的教程感到困惑，请放心，DDPM 并没有那么复杂。您只需要了解以下摘要即可：

扩散模型是增量更新，其中整体的组装为我们提供了编码器-解码器结构。从一种状态到另一种状态的转变是通过降噪器实现的。

为什么要增量？就像巨轮改变方向一样。你需要慢慢地将船转向你想要的方向，否则你将失去控制。同样的原则也适用于你的生活、你的公司人力资源、你的大学管理、你的配偶、你的孩子以及你生活中的任何事情。 “一次弯曲一英寸！” （图片来源：Sergio Goma，他在 Electronic Imaging 2023 上发表了此评论。）

扩散模型的结构如下所示。它称为变分扩散模型[5]。变分扩散模型具有一系列状态 $\mathbf{x}_{0},\mathbf{x}_{1},\ldots,\mathbf{x}_{T}$ ：

•

$\mathbf{x}_{0}$ ：为原始图像，与VAE中的 $\mathbf{x}$ 相同。
•

$\mathbf{x}_{T}$ ：是潜在变量，与VAE中的 $\mathbf{z}$ 相同。由于我们都很懒，所以我们想要 $\mathbf{x}_{T}\sim\mathcal{N}(0,\mathbf{I})$ 。
•

$\mathbf{x}_{1},\ldots,\mathbf{x}_{T-1}$ ：它们是中间状态。它们也是潜在变量，但它们不是白高斯变量。

变分扩散模型的结构如图 7 所示。前向和反向路径类似于单步变分自动编码器的路径。不同之处在于编码器和解码器具有相同的输入输出维度。所有正向构建块的组装将为我们提供编码器，所有反向构建块的组装将为我们提供解码器。

2.1构建块

转换块第 $t$ 转换块由三个状态 $\mathbf{x}_{t-1}$ 、 $\mathbf{x}_{t}$ 和 $\mathbf{x}_{t+1}$ 组成。如图 8 所示，有两种可能路径到达状态 $\mathbf{x}_{t}$ 。

•

从 $\mathbf{x}_{t-1}$ 到 $\mathbf{x}_{t}$ 的前向过渡。相关的转移分布为 $p(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 。简单的说，如果你告诉我们 $\mathbf{x}_{t-1}$ ，我们可以根据 $p(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 告诉你 $\mathbf{x}_{t}$ 。然而，就像 VAE 一样，转移分布 $p(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 永远无法访问。但这没关系。像我们这样懒惰的人只会用高斯分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 来近似它。我们将在后面讨论 $q_{\boldsymbol{\phi}}$ 的精确形式，但它只是某个高斯分布。
•

反向转换从 $\mathbf{x}_{t+1}$ 到 $\mathbf{x}_{t}$ 。再说一遍，我们永远无法知道 $p(\mathbf{x}_{t+1}|\mathbf{x}_{t})$ ，但没关系。我们只是用另一个高斯分布 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t+1}|\mathbf{x}_{t})$ 来近似真实分布，但它的均值需要由神经网络估计。

初始块变分扩散模型的初始块关注状态 $\mathbf{x}_{0}$ 。由于我们研究的所有问题都是从 $\mathbf{x}_{0}$ 开始的，所以只有从 $\mathbf{x}_{1}$ 到 $\mathbf{x}_{0}$ 的反向过渡，而没有从 $\mathbf{x}_{-1}$ 开始的过程到 $\mathbf{x}_{0}$ 。因此，我们只需要担心 $p(\mathbf{x}_{0}|\mathbf{x}_{1})$ 。由于 $p(\mathbf{x}_{0}|\mathbf{x}_{1})$ 永远无法访问，我们用高斯分布 $p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})$ 来近似它，其中均值通过神经网络计算。图 9 说明了这一点。

最后一个区块。最后一个块重点关注状态 $\mathbf{x}_{T}$ 。请记住， $\mathbf{x}_{T}$ 应该是我们的最终潜在变量，它是高斯白噪声向量。因为它是最后一个块，所以只有从 $\mathbf{x}_{T-1}$ 到 $\mathbf{x}_{T}$ 的前向过渡，没有诸如 $\mathbf{x}_{T+1}$ 到 $\mathbf{x}_{T}$ 之类的内容。前向转移由 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})$ 近似，它是一个高斯分布。图 10 说明了这一点。

了解转换分布。在我们继续之前，我们需要稍微绕道一下，谈谈转移分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 。我们知道它是高斯分布的。但我们仍然需要知道它的正式定义，以及这个定义的起源。

转移分布

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})

. 在去噪扩散概率模型中，转移分布

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})

定义为

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})\overset{\text{def}}{=}\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\alpha_{t}}\mathbf{x}_{t-1},(1-\alpha_{t})\mathbf{I}).

(15)

换句话说，均值为 $\sqrt{\alpha_{t}}\mathbf{x}_{t-1}$ ，方差为 $1-\alpha_{t}$ 。缩放因子 $\sqrt{\alpha_{t}}$ 的选择是为了确保方差大小被保留，使其不会在多次迭代后爆炸和消失。

示例。让我们考虑高斯混合模型

\mathbf{x}_{0}\sim p_{0}(\mathbf{x})=\pi_{1}\mathcal{N}(\mathbf{x}|\mu_{1},\sigma_{1}^{2})+\pi_{2}\mathcal{N}(\mathbf{x}|\mu_{2},\sigma_{2}^{2}).

给定转移概率，我们知道

\mathbf{x}_{t}=\sqrt{\alpha_{t}}\mathbf{x}_{t-1}+\sqrt{(1-\alpha_{t})}\boldsymbol{\epsilon},\qquad\text{where}\;\;\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I}).

对于混合模型，不难看出

\mathbf{x}_{t}

的概率分布可以通过

t=1,2,\ldots,T

的算法递归计算：

\displaystyle p_{t}(\mathbf{x})=

\displaystyle\pi_{1}\mathcal{N}(\mathbf{x}|\sqrt{\alpha_{t}}\mu_{1,t-1},\alpha_{t}\sigma_{1,t-1}^{2}+(1-\alpha_{t}))

\displaystyle+

\displaystyle\pi_{2}\mathcal{N}(\mathbf{x}|\sqrt{\alpha_{t}}\mu_{2,t-1},\alpha_{t}\sigma_{2,t-1}^{2}+(1-\alpha_{t})),

(16) 其中

\mu_{1,t-1}

是

t-1

处的平均值，

\mu_{1,0}=\mu_{1}

是初始平均值。同样，

\sigma_{1,t-1}^{2}

是

t-1

处的方差，

\sigma_{1,0}^{2}=\sigma_{1}^{2}

是初始方差。在下图中，我们显示了示例，其中

\pi_{1}=0.3

、

\pi_{2}=0.7

、

\mu_{1}=-2

、

\mu_{2}=2

、

\sigma_{1}=0.2

、和

\sigma_{2}=1

。所有

t

的速率定义为

\alpha_{t}=0.97

。我们绘制不同

t

的概率分布函数。

备注。对于那些希望了解我们如何推导出公式 (16) 中混合模型的概率密度的人，我们可以展示一个简单的推导过程。考虑混合模型

\displaystyle p(\mathbf{x})=\sum_{k=1}^{K}\pi_{k}\underset{p(\mathbf{x}|k)}{\underbrace{\mathcal{N}(\mathbf{x}|\mu_{k},\sigma_{k}^{2}\mathbf{I})}}.

如果我们考虑一个新的变量

\mathbf{y}=\sqrt{\alpha}\mathbf{x}+\sqrt{1-\alpha}\boldsymbol{\epsilon}

，其中

\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I})

，那么

\mathbf{y}

的分布可以通过使用全概率定律来推导：

\displaystyle p(\mathbf{y})

\displaystyle=\sum_{k=1}^{K}p(\mathbf{y}|k)p(k)=\sum_{k=1}^{K}\pi_{k}p(\mathbf{y}|k).

由于

\mathbf{y}|k

是高斯随机变量

\mathbf{x}

和另一个高斯随机变量

\boldsymbol{\epsilon}

的线性组合，因此和

\mathbf{y}

将保持为高斯分布。平均值是

\displaystyle\mathbb{E}[\mathbf{y}|k]

\displaystyle=\sqrt{\alpha}\mathbb{E}[\mathbf{x}|k]+\sqrt{1-\alpha}\mathbb{E}[\boldsymbol{\epsilon}]=\sqrt{\alpha}\mu_{k}

\displaystyle\mathrm{Var}[\mathbf{y}|k]

\displaystyle=\alpha\mathrm{Var}[\mathbf{x}|k]+(1-\alpha)\mathrm{Var}[\boldsymbol{\epsilon}]=\alpha\sigma_{k}^{2}+(1-\alpha).

所以，

p(\mathbf{y}|k)=\mathcal{N}(\mathbf{y}|\sqrt{\alpha}\mu_{k},\alpha\sigma_{k}^{2}+(1-\alpha))

。这样就完成了推导。

2.2 神奇的标量 $\sqrt{\alpha_{t}}$ 和 $1-\alpha_{t}$

您可能想知道精灵（去噪扩散的作者）是如何为上述转移概率想出神奇的标量 $\sqrt{\alpha}_{t}$ 和 $(1-\alpha_{t})$ 的。为了揭秘这一点，让我们从两个不相关的标量 $a\in\mathbb{R}$ 和 $b\in\mathbb{R}$ 开始，我们将转换分布定义为

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_{t}\,|\,a\mathbf{x}_{t-1},b^{2}\mathbf{I}).

(17)

这是经验法则：为什么 $\sqrt{\alpha_{t}}$ 和 $1-\alpha_{t}$ ？我们想要选择 $a$ 和 $b$ 使得当 $t$ 足够大时， $\mathbf{x}_{t}$ 的分布将变为 $\mathcal{N}(0,\mathbf{I})$ 。结果发现答案是 $a=\sqrt{\alpha}$ 和 $b=\sqrt{1-\alpha}$ 。证明。我们想要显示 $a=\sqrt{\alpha}$ 和 $b=\sqrt{1-\alpha}$ 。对于公式 (17) 中所示的分布，等效采样步骤为： $\mathbf{x}_{t}=a\mathbf{x}_{t-1}+b\boldsymbol{\epsilon}_{t-1},\qquad\text{where}\qquad\boldsymbol{\epsilon}_{t-1}\sim\mathcal{N}(0,\mathbf{I}).$ (18) 思考一下：如果存在一个随机变量 $X\sim\mathcal{N}(\mu,\sigma^{2})$ ，从该高斯分布中抽取 $X$ 可以通过定义 $X=\mu+\sigma\eta$ 等效地实现，其中 $\eta\sim\mathcal{N}(0,1)$ 。我们可以进行递归来证明 $\displaystyle\mathbf{x}_{t}$ $\displaystyle=a\mathbf{x}_{t-1}+b\boldsymbol{\epsilon}_{t-1}$ $\displaystyle=a(a\mathbf{x}_{t-2}+b\boldsymbol{\epsilon}_{t-2})+b\boldsymbol{\epsilon}_{t-1}$ $\displaystyle\qquad(\text{substitute }\mathbf{x}_{t-1}=a\mathbf{x}_{t-2}+b\boldsymbol{\epsilon}_{t-2})$ $\displaystyle=a^{2}\mathbf{x}_{t-2}+ab\boldsymbol{\epsilon}_{t-2}+b\boldsymbol{\epsilon}_{t-1}$ $\displaystyle\qquad(\text{regroup terms })$ $\displaystyle=\vdots$ $\displaystyle=a^{t}\mathbf{x}_{0}+b\underset{\overset{\text{def}}{=}\mathbf{w}_{t}}{\underbrace{\left[\boldsymbol{\epsilon}_{t-1}+a\boldsymbol{\epsilon}_{t-2}+a^{2}\boldsymbol{\epsilon}_{t-3}+\ldots+a^{t-1}\boldsymbol{\epsilon}_{0}\right]}}.$ (19) 上面的有限和是独立高斯随机变量的和。平均向量 $\mathbb{E}[\mathbf{w}_{t}]$ 仍然为零，因为每个人都有零均值。协方差矩阵（对于零均值向量）是 $\displaystyle\text{Cov}[\mathbf{w}_{t}]\overset{\text{def}}{=}\mathbb{E}[\mathbf{w}_{t}\mathbf{w}_{t}^{T}]$ $\displaystyle=b^{2}(\text{Cov}(\boldsymbol{\epsilon}_{t-1})+a^{2}\text{Cov}(\boldsymbol{\epsilon}_{t-2})+\ldots+(a^{t-1})^{2}\text{Cov}(\boldsymbol{\epsilon}_{0}))$ $\displaystyle=b^{2}(1+a^{2}+a^{4}+\ldots+a^{2(t-1)})\mathbf{I}$ $\displaystyle=b^{2}\cdot\frac{1-a^{2t-1}}{1-a^{2}}\mathbf{I}.$ 正如 $t\rightarrow\infty$ , $a^{t}\rightarrow 0$ 对于任何 $0<a<1$ 。因此，在 $t=\infty$ 时的极限， $\displaystyle\lim_{t\rightarrow\infty}\text{Cov}[\mathbf{w}_{t}]=\frac{b^{2}}{1-a^{2}}\mathbf{I}.$ 所以，如果我们想要 $\lim_{t\rightarrow\infty}\text{Cov}[\mathbf{w}_{t}]=\mathbf{I}$ （以便 $\mathbf{x}_{t}$ 的分布将接近 $\mathcal{N}(0,\mathbf{I})$ ），那么 $b=\sqrt{1-a^{2}}$ 。现在，如果我们让 $a=\sqrt{\alpha}$ ，那么 $b=\sqrt{1-\alpha}$ 。这会给我们 $\mathbf{x}_{t}=\sqrt{\alpha}\mathbf{x}_{t-1}+\sqrt{1-\alpha}\boldsymbol{\epsilon}_{t-1}.$ (20) 或等效地， $q_{\boldsymbol{\phi}}(\mathbf{x}|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\alpha}\mathbf{x}_{t-1},(1-\alpha)\mathbf{I})$ 。如果您更喜欢调度程序，可以将 $\alpha$ 替换为 $\alpha_{t}$ 。

2.3 分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})$

通过对神奇标量的理解，我们可以讨论 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})$ 的分布。也就是说，如果给定 $\mathbf{x}_{0}$ ，我们想知道 $\mathbf{x}_{t}$ 将如何分配。

条件分布

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})

。条件分布

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})

由下式给出：

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})=\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\overline{\alpha}}_{t}\mathbf{x}_{0},\;\;(1-\overline{\alpha}_{t})\mathbf{I}),

(21) 其中

\overline{\alpha}_{t}=\prod_{i=1}^{t}\alpha_{i}

。

证明。为了弄清楚为什么会这样，我们可以重新进行递归，但这次我们使用

\sqrt{\alpha_{t}}\mathbf{x}_{t-1}

和

(1-\alpha_{t})\mathbf{I}

作为均值和协方差。这会给我们

\displaystyle\mathbf{x}_{t}

\displaystyle=\sqrt{\alpha_{t}}\mathbf{x}_{t-1}+\sqrt{1-\alpha_{t}}\boldsymbol{\epsilon}_{t-1}

\displaystyle=\sqrt{\alpha_{t}}(\sqrt{\alpha_{t-1}}\mathbf{x}_{t-2}+\sqrt{1-\alpha_{t-1}}\boldsymbol{\epsilon}_{t-2})+\sqrt{1-\alpha_{t}}\boldsymbol{\epsilon}_{t-1}

\displaystyle=\sqrt{\alpha_{t}\alpha_{t-1}}\mathbf{x}_{t-2}+\underset{\mathbf{w}_{1}}{\underbrace{\sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}}\boldsymbol{\epsilon}_{t-2}+\sqrt{1-\alpha_{t}}\boldsymbol{\epsilon}_{t-1}}}.

(22) 因此，我们有两个高斯的和。但由于两个高斯函数的和仍然是高斯函数，我们可以计算它的新协方差（因为平均值仍然为零）。新的协方差是

\displaystyle\mathbb{E}[\mathbf{w}_{1}\mathbf{w}_{1}^{T}]

\displaystyle=[(\sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}})^{2}+(\sqrt{1-\alpha_{t}})^{2}]\mathbf{I}

\displaystyle=[\alpha_{t}(1-\alpha_{t-1})+1-\alpha_{t}]\mathbf{I}=[1-\alpha_{t}\alpha_{t-1}]\mathbf{I}.

回到等式 (22)，我们可以证明递归被更新为

\mathbf{x}_{t-2}

的线性组合和一个噪声向量

\boldsymbol{\epsilon}_{t-2}

：

\displaystyle\mathbf{x}_{t}

\displaystyle=\sqrt{\alpha_{t}\alpha_{t-1}}\mathbf{x}_{t-2}+\sqrt{1-\alpha_{t}\alpha_{t-1}}\boldsymbol{\epsilon}_{t-2}

\displaystyle=\sqrt{\alpha_{t}\alpha_{t-1}\alpha_{t-2}}\mathbf{x}_{t-3}+\sqrt{1-\alpha_{t}\alpha_{t-1}\alpha_{t-2}}\boldsymbol{\epsilon}_{t-3}

\displaystyle=\vdots

\displaystyle=\sqrt{\prod_{i=1}^{t}\alpha_{i}}\mathbf{x}_{0}+\sqrt{1-\prod_{i=1}^{t}\alpha_{i}}\boldsymbol{\epsilon}_{0}.

(23) 因此，如果我们定义

\overline{\alpha}_{t}=\prod_{i=1}^{t}\alpha_{i}

，我们可以证明

\displaystyle\mathbf{x}_{t}=\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\overline{\alpha}_{t}}\boldsymbol{\epsilon}_{0}.

(24) 换句话说，分布

q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})

是

\displaystyle\mathbf{x}_{t}\sim q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})=\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},\;\;(1-\overline{\alpha}_{t})\mathbf{I}).

(25)

新分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})$ 的效用在于它与链 $\mathbf{x}_{0}\rightarrow\mathbf{x}_{1}\rightarrow\ldots\rightarrow\mathbf{x}_{T-1}\rightarrow\mathbf{x}_{T}$ 相比，只有一步正向扩散步骤。在正向扩散模型的每一步，由于我们已经知道 $\mathbf{x}_{0}$ ，并且假设所有后续转换都是高斯分布，所以对于任何 $t$ ，我们都会立即知道 $\mathbf{x}_{t}$ 。从图 11 中可以理解这种情况。

示例。对于一个高斯混合模型，例如

\mathbf{x}\sim p_{0}(\mathbf{x})=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}_{k},\sigma_{k}^{2}\mathbf{I})

，我们可以证明时间

t

处的分布为

\displaystyle p_{t}(\mathbf{x})

\displaystyle=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x}\;|\;\sqrt{\overline{\alpha}_{t}}\boldsymbol{\mu}_{k},(1-\overline{\alpha}_{t})\mathbf{I}+\overline{\alpha}_{t}\sigma_{k}^{2}\mathbf{I})

(26)

\displaystyle=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x}\;|\;\sqrt{\alpha^{t}}\boldsymbol{\mu}_{k},(1-\alpha^{t})\mathbf{I}+\alpha^{t}\sigma_{k}^{2}\mathbf{I}),\qquad\text{if }\;\alpha_{t}=\alpha\;\;\text{so that }\;\overline{\alpha}_{t}=\prod_{i=1}^{t}\alpha=\alpha^{t}.

如果你好奇概率分布 $p_{t}$ 如何随着时间 $t$ 的推移而演变，我们在图 12 中展示了分布的轨迹。您可以看到，当我们处于 $t=0$ 时，初始分布是两个高斯分布的混合。当我们按照公式 (26) 中定义的转换进行时，我们可以看到分布逐渐变成单个高斯分布 $\mathcal{N}(0,1)$ 。

在同一张图中，我们叠加并显示了随机样本 $\mathbf{x}_{t}$ 的一些瞬时轨迹作为时间 $t$ 的函数。我们用来生成样本的方程是

\mathbf{x}_{t}=\sqrt{\alpha_{t}}\mathbf{x}_{t-1}+\sqrt{1-\alpha_{t}}\boldsymbol{\epsilon}_{t-1},\qquad\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I}).

正如你所见， $\mathbf{x}_{t}$ 的轨迹或多或少遵循分布 $p_{t}(\mathbf{x})$ 。

2.4 证据下界

现在我们了解了变分扩散模型的结构，我们可以写下 ELBO 并训练模型。变分扩散模型的 ELBO 为 $\displaystyle\text{ELBO}_{\boldsymbol{\phi},\boldsymbol{\theta}}(\mathbf{x})$ $\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}\Big{[}\log\underset{\text{how good the initial block is}}{\underbrace{p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})}}\Big{]}$ $\displaystyle\qquad-\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{T-1}|\mathbf{x}_{0})}\Big{[}\underset{\text{how good the final block is}}{\underbrace{\mathbb{D}_{\text{KL}}\Big{(}q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})\|p(\mathbf{x}_{T})\Big{)}}}\Big{]}$ $\displaystyle\qquad-\sum_{t=1}^{T-1}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t+1}|\mathbf{x}_{0})}\Big{[}\underset{\text{how good the transition blocks are}}{\underbrace{\mathbb{D}_{\text{KL}}\Big{(}q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})\|p_{\boldsymbol{\theta}}(\mathbf{x}_{t}|\mathbf{x}_{t+1})\Big{)}}}\Big{]}.$ (27) 我们可以解读一下这个ELBO的含义。这里的 ELBO 由三个部分组成：

•

重建。重建项基于初始块。我们使用对数似然 $p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})$ 来衡量与 $p_{\boldsymbol{\theta}}$ 相关的深度神经网络从潜变量 $\mathbf{x}_{1}$ 中恢复图像 $\mathbf{x}_{0}$ 的好坏程度。期望是针对从 $q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})$ 中抽取的样本得出的，它是生成 $\mathbf{x}_{1}$ 的分布。如果你想知道我们为什么要从 $q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})$ 中抽取样本，只要想想样本 $\mathbf{x}_{1}$ 应该来自哪里。样本 $\mathbf{x}_{1}$ 并非来自天空。由于它们是中间潜在变量，因此它们是由前向转换 $q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})$ 创建的。所以，我们应该从 $q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})$ 中生成样本。
•

先前匹配。先前的匹配项基于最终块。我们使用 KL 散度来衡量 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})$ 和 $p(\mathbf{x}_{T})$ 之间的差异。第一个分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})$ 是从 $\mathbf{x}_{T-1}$ 到 $\mathbf{x}_{T}$ 的正向转换。这就是 $\mathbf{x}_{T}$ 的生成方式。第二个分布是 $p(\mathbf{x}_{T})$ 。由于我们的懒惰， $p(\mathbf{x}_{T})$ 是 $\mathcal{N}(0,\mathbf{I})$ 。我们希望 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})$ 尽可能接近 $\mathcal{N}(0,\mathbf{I})$ 。这里的样本是 $\mathbf{x}_{T-1}$ ，它们是从 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T-1}|\mathbf{x}_{0})$ 中抽取的，因为 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T-1}|\mathbf{x}_{0})$ 提供了正向样本生成过程。
•

一致性。一致性项基于转换块。有两个方向。正向转换由分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 决定，而反向转换由神经网络 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t}|\mathbf{x}_{t+1})$ 决定。一致性项使用KL散度来衡量偏差。期望值是相对于从联合分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t+1}|\mathbf{x}_{0})$ 中抽取的样本 $(\mathbf{x}_{t-1},\mathbf{x}_{t+1})$ 而言的。哦， $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t+1}|\mathbf{x}_{0})$ 是什么呢？不用担心。我们很快就会摆脱它。

此时，我们将跳过训练和推理，因为该公式尚未准备好实施。我们将讨论更多的技巧，然后我们将讨论实现。

方程 (27) 的证明。让我们定义以下符号：

\mathbf{x}_{0:T}=\{\mathbf{x}_{0},\ldots,\mathbf{x}_{T}\}

表示从

t=0

到

t=T

的所有状态变量的集合。我们还记得先验分布

p(\mathbf{x})

是图像

\mathbf{x}_{0}

的分布。所以它等效于

p(\mathbf{x}_{0})

。考虑到这些，我们可以证明

\displaystyle\log p(\mathbf{x})

\displaystyle=\log p(\mathbf{x}_{0})

\displaystyle=\log\int p(\mathbf{x}_{0:T})d\mathbf{x}_{1:T}

Marginalize by integrating over

\mathbf{x}_{1:T}

\displaystyle=\log\int p(\mathbf{x}_{0:T})\frac{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}}{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}}d\mathbf{x}_{1:T}

Multiply and divide

q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})

\displaystyle=\log\int{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\frac{p(\mathbf{x}_{0:T})}{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}}\right]d\mathbf{x}_{1:T}

Rearrange terms

\displaystyle=\log\mathbb{E}_{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}}\left[\frac{p(\mathbf{x}_{0:T})}{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}}\right]

\displaystyle\text{Definition of expectation}.

现在，我们需要使用 Jensen 不等式，该不等式指出，对于任何随机变量

X

和任何凹函数

f

，都有

f(\mathbb{E}[X])\geq\mathbb{E}[f(X)]

。通过识别

f(\cdot)=\log(\cdot)

，我们可以证明

\displaystyle\log p(\mathbf{x})

\displaystyle=\log\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\frac{p(\mathbf{x}_{0:T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\right]

\displaystyle\geq\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{0:T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\right]

(28) 让我们仔细看看

p(\mathbf{x}_{0:T})

。检查图 8，我们注意到如果我们想解耦

p(\mathbf{x}_{0:T})

，我们应该对

\mathbf{x}_{t-1}|\mathbf{x}_{t}

进行条件化。这导致：

\displaystyle p(\mathbf{x}_{0:T})=p(\mathbf{x}_{T})\prod_{t=1}^{T}p(\mathbf{x}_{t-1}|\mathbf{x}_{t})=p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})\prod_{t=2}^{T}p(\mathbf{x}_{t-1}|\mathbf{x}_{t}).

(29) 至于

q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})

，图 8 表明我们需要对

\mathbf{x}_{t}|\mathbf{x}_{t-1}

进行条件化。但是，由于顺序关系，我们可以写

\displaystyle q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})

\displaystyle=\prod_{t=1}^{T}q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})=q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})\prod_{t=1}^{T-1}q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1}).

(30) 将公式 (29) 和公式 (30) 代回公式 (28)，我们可以证明

\displaystyle\log p(\mathbf{x})

\displaystyle\geq\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{0:T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\right]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{{\color[rgb]{0,0,1}p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})\prod_{t=2}^{T}p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}}{{\color[rgb]{0,0,1}q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})\prod_{t=1}^{T-1}q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})}}\right]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1}){\color[rgb]{0,0,1}\prod_{t=1}^{T-1}p(\mathbf{x}_{t}|\mathbf{x}_{t+1})}}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})\prod_{t=1}^{T-1}q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})}\right]

shift

t

t+1

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})}\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=1}^{T-1}\frac{p(\mathbf{x}_{t}|\mathbf{x}_{t+1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})}\right]

split expectation 上面的第一项可以进一步分解为两个期望

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})}\right]

\displaystyle=\underset{\text{Reconstruction}}{\underbrace{\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\bigg{[}\log p(\mathbf{x}_{0}|\mathbf{x}_{1})\bigg{]}}}+\underset{\text{Prior Matching}}{\underbrace{\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})}\right]}}.

重建项可以简化为

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\bigg{[}\log p(\mathbf{x}_{0}|\mathbf{x}_{1})\bigg{]}

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}\bigg{[}\log p(\mathbf{x}_{0}|\mathbf{x}_{1})\bigg{]},

我们使用条件

\mathbf{x}_{1:T}|\mathbf{x}_{0}

相当于

\mathbf{x}_{1}|\mathbf{x}_{0}

的事实。先验匹配项是

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})}\right]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{T},\mathbf{x}_{T-1}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})}\right]

\displaystyle=-\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{T-1},\mathbf{x}_{T}|\mathbf{x}_{0})}\Bigg{[}\mathbb{D}_{\text{KL}}\left(q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})\|p(\mathbf{x}_{T})\right)\Bigg{]},

其中，我们注意到条件期望可以简化为仅对样本

\mathbf{x}_{T}

和

\mathbf{x}_{T-1}

进行采样，因为

\log\frac{p(\mathbf{x}_{T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{T-1})}

仅取决于

\mathbf{x}_{T}

和

\mathbf{x}_{T-1}

。最后，我们看一下产品术语。我们可以证明

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=1}^{T-1}\frac{p(\mathbf{x}_{t}|\mathbf{x}_{t+1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})}\right]

\displaystyle=\sum_{t=1}^{T-1}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{t}|\mathbf{x}_{t+1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})}\right]

\displaystyle=\sum_{t=1}^{T-1}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t},\mathbf{x}_{t+1}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{t}|\mathbf{x}_{t+1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})}\right]

\displaystyle=\underset{\text{consistency}}{\underbrace{-\sum_{t=1}^{T-1}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t+1}|\mathbf{x}_{0})}\Bigg{[}\mathbb{D}_{\text{KL}}\left(q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})\|p(\mathbf{x}_{t}|\mathbf{x}_{t+1})\right)\Bigg{]}}}.

通过将

p(\mathbf{x}_{0}|\mathbf{x}_{1})

替换为

p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})

以及

p(\mathbf{x}_{t}|\mathbf{x}_{t+1})

替换为

p_{\boldsymbol{\theta}}(\mathbf{x}_{t}|\mathbf{x}_{t+1})

，我们就完成了。

2.5 重写一致性术语

上述变分扩散模型的噩梦在于我们需要从联合分布 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t+1}|\mathbf{x}_{0})$ 中抽取样本 $(\mathbf{x}_{t-1},\mathbf{x}_{t+1})$ 。我们不知道 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1},\mathbf{x}_{t+1}|\mathbf{x}_{0})$ 是什么！嗯，当然，它是高斯分布，但我们仍然需要使用未来的样本 $\mathbf{x}_{t+1}$ 来绘制当前的样本 $\mathbf{x}_{t}$ 。这很奇怪，而且一点也不有趣。

检查一致性项，我们注意到 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 和 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t}|\mathbf{x}_{t+1})$ 沿着两个相反的方向移动。因此，我们不可避免地需要使用 $\mathbf{x}_{t-1}$ 和 $\mathbf{x}_{t+1}$ 。我们需要问的问题是：我们能否想出一些办法，以便在能够检查一致性的同时不需要处理两个相反的方向？

所以，这是一个称为贝叶斯定理的简单技巧。

q(\mathbf{x}_{t}|\mathbf{x}_{t-1})=\frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t})q(\mathbf{x}_{t})}{q(\mathbf{x}_{t-1})}\quad\overset{\text{\scriptsize{condition on $\mathbf{x}_{0}$}}}{\Longrightarrow}\quad q(\mathbf{x}_{t}|\mathbf{x}_{t-1},{\color[rgb]{0,0,1}\mathbf{x}_{0}})=\frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t},{\color[rgb]{0,0,1}\mathbf{x}_{0}})q(\mathbf{x}_{t}|{\color[rgb]{0,0,1}\mathbf{x}_{0}})}{q(\mathbf{x}_{t-1}|{\color[rgb]{0,0,1}\mathbf{x}_{0}})}.

(31)

通过改变条件顺序，我们可以通过添加一个额外的条件变量 $\mathbf{x}_{0}$ 将 $q(\mathbf{x}_{t}|\mathbf{x}_{t-1},\mathbf{x}_{0})$ 切换为 $q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 。方向 $q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 现在与 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 平行，如图 13 所示。所以，如果我们想重写一致性项，一个自然的选择是计算 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 和 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 之间的 KL 散度。

如果我们设法进行一些（无聊的）代数推导，我们可以证明 ELBO 现在是：变分扩散模型的 ELBO 为 $\displaystyle\text{ELBO}_{\boldsymbol{\phi},\boldsymbol{\theta}}(\mathbf{x})$ $\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}[\log\underset{\text{same as before}}{\underbrace{p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})}}]-\underset{\text{new prior matching}}{\underbrace{\mathbb{D}_{\text{KL}}\Big{(}q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})\|p(\mathbf{x}_{T})\Big{)}}}$ $\displaystyle\qquad-\sum_{t=2}^{T}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})}\Big{[}\underset{\text{new consistency}}{\underbrace{\mathbb{D}_{\text{KL}}\Big{(}q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})\|p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})\Big{)}}}\Big{]}.$ (32) 让我们快速做出三种解释：

•

重建。新的重建期限与之前相同。我们仍在最大化对数似然。
•

先前匹配。新的先验匹配简化为 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})$ 和 $p(\mathbf{x}_{T})$ 之间的 KL 散度。更改是由于我们现在以 $\mathbf{x}_{0}$ 为条件。因此，无需从 $q_{\boldsymbol{\phi}}(\mathbf{x}_{T-1}|\mathbf{x}_{0})$ 中抽取样本并进行期望。
•

一致性。新的一致性术语与之前的一致性术语有两个不同之处。首先，运行索引 $t$ 从 $t=2$ 开始，到 $t=T$ 结束。以前是从 $t=1$ 到 $t=T-1$ 。伴随着这一点的是分布匹配，它现在在 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 和 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 之间。因此，与其寻找匹配逆向转换的前向转换，我们使用 $q_{\boldsymbol{\phi}}$ 来构建逆向转换，并用它来匹配 $p_{\boldsymbol{\theta}}$ 。

公式 (32) 的证明。我们从公式 (28) 开始，通过证明

\displaystyle\log p(\mathbf{x})

\displaystyle\geq\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{0:T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\right]

By Eqn (28)

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})\prod_{t=2}^{T}p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})\prod_{t=2}^{T}q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1},\mathbf{x}_{0})}\right]

split the chain

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1},\mathbf{x}_{0})}\right]

(33) 让我们考虑第二项：

\displaystyle\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1},\mathbf{x}_{0})}

\displaystyle=\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{\frac{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{0})}}

Bayes rule, Eqn (31)

\displaystyle=\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}\times\prod_{t=2}^{T}\frac{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{0})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{0})}

Rearrange denominator

\displaystyle=\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}\times\frac{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})},

Recursion cancels terms 其中最后一个等式使用了对于任何序列

a_{1},\ldots,a_{T}

，我们有

\prod_{t=2}^{T}\frac{a_{t-1}}{a_{t}}=\frac{a_{1}}{a_{2}}\times\frac{a_{2}}{a_{3}}\times\ldots\times\frac{a_{T-1}}{a_{T}}=\frac{a_{1}}{a_{T}}

的事实。回到公式 (33)，我们可以看到

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t}|\mathbf{x}_{t-1},\mathbf{x}_{0})}\right]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}+\log\frac{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})}\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}\right]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})}\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}\right],

其中我们消去了分子和分母中的

q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})

，因为对于任何正常数

a

、

b

和

c

，

\log\frac{a}{b}+\log\frac{b}{c}=\log\frac{a}{c}

。这将给我们

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})p(\mathbf{x}_{0}|\mathbf{x}_{1})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})}\right]

\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log p(\mathbf{x}_{0}|\mathbf{x}_{1})\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\frac{p(\mathbf{x}_{T})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})}\right]

\displaystyle=\underset{\text{reconstruction}}{\underbrace{\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1}|\mathbf{x}_{0})}\left[\log p(\mathbf{x}_{0}|\mathbf{x}_{1})\right]}}-\underset{\text{prior matching}}{\underbrace{\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{x}_{T}|\mathbf{x}_{0})\|p(\mathbf{x}_{T}))}}.

最后一项是

\displaystyle\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{1:T}|\mathbf{x}_{0})}\left[\log\prod_{t=2}^{T}\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}\right]

\displaystyle=\sum_{t=2}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{t},\mathbf{x}_{t-1}|\mathbf{x}_{0})}\log\frac{p(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}

\displaystyle=-\underset{\text{consistency}}{\underbrace{\sum_{t=2}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{x}_{t},\mathbf{x}_{t-1}|\mathbf{x}_{0})}\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})\|p(\mathbf{x}_{t-1}|\mathbf{x}_{t}))}}.

最后，用

p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})

替换

p(\mathbf{x}_{t-1}|\mathbf{x}_{t})

，用

p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})

替换

p(\mathbf{x}_{0}|\mathbf{x}_{1})

。完毕！

2.6 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 的推导

现在我们知道了变分扩散模型的新 ELBO，我们应该花一些时间讨论它的核心组件，即 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 。简而言之，我们想要展示的是

•

$q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 并不像你想象的那么疯狂。它仍然是高斯分布。
•

由于它是高斯分布，因此它完全由均值和协方差来表征。事实证明

$q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})=\mathcal{N}(\mathbf{x}_{t-1}\,|\,\heartsuit\mathbf{x}_{t}+\spadesuit\mathbf{x}_{0},\clubsuit\mathbf{I}),$ (34)

对于下面定义的一些神奇标量 $\heartsuit$ 、 $\spadesuit$ 和 $\clubsuit$ 。

分布

q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})

采用

q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})=\mathcal{N}(\mathbf{x}_{t-1}\,|\,\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0}),\boldsymbol{\Sigma}_{q}(t)),

(35) 在哪里

\displaystyle\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})

\displaystyle=\frac{(1-\overline{\alpha}_{t-1})\sqrt{\alpha_{t}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{t}+\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{0}

(36)

\displaystyle\boldsymbol{\Sigma}_{q}(t)

\displaystyle=\frac{(1-\alpha_{t})(1-\sqrt{\overline{\alpha}_{t-1}})}{1-\overline{\alpha}_{t}}\mathbf{I}\overset{\text{def}}{=}\sigma_{q}^{2}(t)\mathbf{I}.

(37)

公式 (35) 的有趣之处在于 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 由 $\mathbf{x}_{t}$ 和 $\mathbf{x}_{0}$ 完全刻画。不需要神经网络来估计均值和方差！（您可以将其与需要网络的 VAE 进行比较。）由于不需要网络，所以实际上没有什么可“学习”的。如果我们知道 $\mathbf{x}_{t}$ 和 $\mathbf{x}_{0}$ ，则 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 会自动确定。没有猜测，没有估计，什么都没有。

这里的认识很重要。如果我们看一下一致性项，它是许多 KL 散度项的总和，其中第 $t$ 项是

\mathbb{D}_{\text{KL}}(\underset{\quad\text{nothing to learn}\quad}{\underbrace{q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}}\|\underset{\text{need to do something}}{\underbrace{p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}}).

(38)

正如我们所说， $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 与任何事情都无关。但是我们需要对 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 做些什么，以便我们可以计算 KL 散度。

那么，我们应该做什么呢？我们知道 $q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$ 是高斯分布的。如果我们想快速计算 KL 散度，那么显然我们需要假设 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 也是高斯分布。是的，不是开玩笑。我们没有理由为什么它是高斯分布。但由于 $p_{\boldsymbol{\theta}}$ 是我们可以选择的发行版，我们当然应该选择更容易的发行版。为此，我们选择

p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})=\mathcal{N}\Big{(}\mathbf{x}_{t-1}|\underset{\text{neural network}}{\underbrace{\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})}},\sigma_{q}^{2}(t)\mathbf{I}\Big{)},

(39)

我们假设可以使用神经网络来确定平均向量。关于方差，我们选择方差为 $\sigma_{q}^{2}(t)$ 。这与公式 (37) 完全相同！因此，如果我们将公式 (35) 与 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 并排放置，我们会注意到两者之间存在平行关系：

	$\displaystyle q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0})$	$\displaystyle=\mathcal{N}\Big{(}\mathbf{x}_{t-1}\,\|\,\underset{\text{known}}{\underbrace{\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})}},\underset{\text{known}}{\underbrace{\sigma_{q}^{2}(t)\mathbf{I}}}\Big{)},$		(40)
	$\displaystyle p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t})$	$\displaystyle=\mathcal{N}\Big{(}\mathbf{x}_{t-1}\|\underset{\text{neural network}}{\underbrace{\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})}},\underset{\text{known}}{\underbrace{\sigma_{q}^{2}(t)\mathbf{I}}}\Big{)}.$		(41)

因此，KL 散度简化为

	$\displaystyle\mathbb{D}_{\text{KL}}\Big{(}q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0})\\|p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t})\Big{)}$
	$\displaystyle=\mathbb{D}_{\text{KL}}\Big{(}\mathcal{N}(\mathbf{x}_{t-1}\,\|\,\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0}),\sigma_{q}^{2}(t)\mathbf{I})\\|\mathcal{N}(\mathbf{x}_{t-1}\,\|\,\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t}),\sigma_{q}^{2}(t)\mathbf{I})\Big{)}$
	$\displaystyle=\frac{1}{2\sigma_{q}^{2}(t)}\\|\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})-\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\\|^{2},$		(42)

其中我们使用了两个同方差高斯函数之间的 KL 散度只是两个均值向量之间的欧几里得距离平方这一事实。

如果我们回到公式 (32) 中 ELBO 的定义，我们可以将其改写为

	$\displaystyle\text{ELBO}_{\boldsymbol{\theta}}(\mathbf{x})$	$\displaystyle=\mathbb{E}_{q(\mathbf{x}_{1}\|\mathbf{x}_{0})}[\log p_{\boldsymbol{\theta}}(\mathbf{x}_{0}\|\mathbf{x}_{1})]-\underset{\text{nothing to train}}{\underbrace{\mathbb{D}_{\text{KL}}\Big{(}q(\mathbf{x}_{T}\|\mathbf{x}_{0})\\|p(\mathbf{x}_{T})\Big{)}}}$
		$\displaystyle\qquad-\sum_{t=2}^{T}\mathbb{E}_{q(\mathbf{x}_{t}\|\mathbf{x}_{0})}\Big{[}\frac{1}{2\sigma_{q}^{2}(t)}\\|\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})-\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\\|^{2}\Big{]}.$		(43)

有一些观察很有趣：

•

我们删除了所有下标 $\boldsymbol{\phi}$ ，因为只要我们知道 $\mathbf{x}_{0}$ ， $q$ 就完全描述了。我们只是向每个 $\mathbf{x}_{1},\ldots,\mathbf{x}_{T}$ 添加（不同级别的）白噪声。这将为我们提供一个 ELBO，只需要我们对 $\boldsymbol{\theta}$ 进行优化。
•

参数 $\boldsymbol{\theta}$ 是通过网络 $\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})$ 实现的。它是 $\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})$ 的网络权重。
•

从 $q(\mathbf{x}_{t}|\mathbf{x}_{0})$ 中采样是根据公式 (21) 进行的，该公式指出 $q(\mathbf{x}_{t}|\mathbf{x}_{0})=\mathcal{N}(\mathbf{x}_{t}|\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},(1-\overline{\alpha}_{t})\mathbf{I})$ 。
•

给定 $\mathbf{x}_{t}\sim q(\mathbf{x}_{t}|\mathbf{x}_{0})$ ，我们可以计算 $\log p_{\boldsymbol{\theta}}(\mathbf{x}_{0}|\mathbf{x}_{1})$ ，它只是 $\log\mathcal{N}(\mathbf{x}_{0}|\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{1}),\sigma_{q}^{2}(1)\mathbf{I})$ 。因此，只要我们知道 $\mathbf{x}_{1}$ ，我们就可以将其发送到网络 $\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{1})$ ，以返回我们的均值估计。然后，平均估计将用于计算可能性。

在我们继续之前，让我们通过讨论公式 (35) 是如何确定的来完成这个故事。

方程式 (35) 的证明. 使用方程式 (31) 中陈述的贝叶斯定理，

q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})

可以通过评估以下高斯函数的乘积来确定

q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})=\frac{\mathcal{N}(\mathbf{x}_{t}|\sqrt{\alpha_{t}}\mathbf{x}_{t-1},(1-\alpha_{t})\mathbf{I})\mathcal{N}(\mathbf{x}_{t-1}|\sqrt{\overline{\alpha}_{t-1}},(1-\overline{\alpha}_{t-1}\mathbf{I}))}{\mathcal{N}(\mathbf{x}_{t}|\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},(1-\overline{\alpha}_{t})\mathbf{I})}.

(44) 为简单起见，我们将向量视为标量。那么上面的高斯乘积将变成

q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})\propto\exp\left\{\frac{(\mathbf{x}_{t}-\sqrt{\alpha_{t}}\mathbf{x}_{t-1})^{2}}{2(1-\alpha_{t})}+\frac{(\mathbf{x}_{t-1}-\sqrt{\overline{\alpha}_{t-1}}z)^{2}}{2(1-\overline{\alpha}_{t-1})}-\frac{(\mathbf{x}_{t}-\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0})^{2}}{2(1-\overline{\alpha}_{t})}\right\}.

(45) 我们考虑以下映射：

\displaystyle x

\displaystyle=\mathbf{x}_{t},

\displaystyle a=\alpha_{t}

\displaystyle y

\displaystyle=\mathbf{x}_{t-1},

\displaystyle b=\overline{\alpha}_{t-1}

\displaystyle z

\displaystyle=\mathbf{x}_{0},

\displaystyle c=\overline{\alpha}_{t}.

考虑二次函数

f(y)=\frac{(x-\sqrt{a}y)^{2}}{2(1-a)}+\frac{(y-\sqrt{b}z)^{2}}{2(1-b)}-\frac{(x-\sqrt{c}z)^{2}}{2(1-c)}.

(46) 我们知道，无论我们如何重新排列各项，得到的函数仍然是一个二次方程。

f(y)

的最小化器是所得高斯的均值。因此，我们可以计算

f

的导数并证明

\displaystyle f^{\prime}(y)=\frac{1-ab}{(1-a)(1-b)}y-\left(\frac{\sqrt{a}}{1-a}x+\frac{\sqrt{b}}{1-b}z\right).

设置

f^{\prime}(y)=0

产生

y=\frac{(1-b)\sqrt{a}}{1-ab}x+\frac{(1-a)\sqrt{b}}{1-ab}z.

(47) 我们注意到

ab=\alpha_{t}\overline{\alpha}_{t-1}=\overline{\alpha}_{t}

。所以，

\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})=\frac{(1-\overline{\alpha}_{t-1})\sqrt{\alpha_{t}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{t}+\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{0}.

(48) 同样，对于方差，我们可以检查曲率

f^{\prime\prime}(y)

。我们可以很容易地证明

f^{\prime\prime}(y)=\frac{1-ab}{(1-a)(1-b)}=\frac{1-\overline{\alpha}_{t}}{(1-\alpha_{t})(1-\sqrt{\overline{\alpha}_{t-1}})}.

取倒数可以得到

\boldsymbol{\Sigma}_{q}(t)=\frac{(1-\alpha_{t})(1-\sqrt{\overline{\alpha}_{t-1}})}{1-\overline{\alpha}_{t}}\mathbf{I}.

(49)

2.7训练和推理

方程式 (43) 中的 ELBO 表明，我们需要找到一个网络 $\boldsymbol{\mu}_{\boldsymbol{\theta}}$ ，它能够以某种方式最小化这种损失：

\frac{1}{2\sigma_{q}^{2}(t)}\|\underset{\text{known}}{\underbrace{\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})}}-\underset{\text{network}}{\underbrace{\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})}}\|^{2}.\

(50)

但“去噪”的概念从何而来？

为了看到这一点，我们从方程式 (36) 中回忆起

\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})=\frac{(1-\overline{\alpha}_{t-1})\sqrt{\alpha_{t}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{t}+\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{0}.

(51)

既然 $\boldsymbol{\mu}_{\boldsymbol{\theta}}$ 是我们的设计，我们没有理由不能将它定义为更方便的东西。所以这里有一个选择：

\underset{\text{a network}}{\underbrace{\boldsymbol{\mu}_{\boldsymbol{\theta}}}}(\mathbf{x}_{t})\overset{\text{def}}{=}\frac{(1-\overline{\alpha}_{t-1})\sqrt{\alpha_{t}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{t}+\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}\underset{\text{another network}}{\underbrace{\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})}}.

(52)

将方程式 (51) 和方程式 (52) 代入方程式 (50) 将得到

	$\displaystyle\frac{1}{2\sigma_{q}^{2}(t)}\\|\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})-\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\\|^{2}$	$\displaystyle=\frac{1}{2\sigma_{q}^{2}(t)}\left\\|\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}(\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0})\right\\|^{2}$
		$\displaystyle=\frac{1}{2\sigma_{q}^{2}(t)}\frac{(1-\alpha_{t})^{2}\overline{\alpha}_{t-1}}{(1-\overline{\alpha}_{t})^{2}}\left\\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0}\right\\|^{2}$

因此ELBO可以简化为

	$\displaystyle\text{ELBO}_{\boldsymbol{\theta}}$	$\displaystyle=\mathbb{E}_{q(\mathbf{x}_{1}\|\mathbf{x}_{0})}[\log p_{\boldsymbol{\theta}}(\mathbf{x}_{0}\|\mathbf{x}_{1})]-\sum_{t=2}^{T}\mathbb{E}_{q(\mathbf{x}_{t}\|\mathbf{x}_{0})}\Big{[}\frac{1}{2\sigma_{q}^{2}(t)}\\|\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})-\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\\|^{2}\Big{]}$
		$\displaystyle=\mathbb{E}_{q(\mathbf{x}_{1}\|\mathbf{x}_{0})}[\log p_{\boldsymbol{\theta}}(\mathbf{x}_{0}\|\mathbf{x}_{1})]-\sum_{t=2}^{T}\mathbb{E}_{q(\mathbf{x}_{t}\|\mathbf{x}_{0})}\Big{[}\frac{1}{2\sigma_{q}^{2}(t)}\frac{(1-\alpha_{t})^{2}\overline{\alpha}_{t-1}}{(1-\overline{\alpha}_{t})^{2}}\left\\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0}\right\\|^{2}\Big{]}.$		(53)

第一项是

$\displaystyle\log p_{\boldsymbol{\theta}}(\mathbf{x}_{0}\|\mathbf{x}_{1})$	$\displaystyle=\log\mathcal{N}(\mathbf{x}_{0}\|\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{1}),\sigma_{q}^{2}(1)\mathbf{I})\propto-\frac{1}{2\sigma_{q}^{2}(1)}\\|\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{1})-\mathbf{x}_{0}\\|^{2}$	definition
	$\displaystyle=-\frac{1}{2\sigma_{q}^{2}(1)}\left\\|\frac{(1-\overline{\alpha}_{0})\sqrt{\alpha_{1}}}{1-\overline{\alpha}_{1}}\mathbf{x}_{1}+\frac{(1-\alpha_{1})\sqrt{\overline{\alpha}_{0}}}{1-\overline{\alpha}_{1}}\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{1})-\mathbf{x}_{0}\right\\|^{2}$	recall $\alpha_{0}=1$
	$\displaystyle=-\frac{1}{2\sigma_{q}^{2}(1)}\left\\|\frac{(1-\alpha_{1})}{1-\overline{\alpha}_{1}}\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{1})-\mathbf{x}_{0}\right\\|^{2}=-\frac{1}{2\sigma_{q}^{2}(1)}\left\\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{1})-\mathbf{x}_{0}\right\\|^{2}$	recall $\overline{\alpha}_{1}=\alpha_{1}$	(54)

将方程 (54) 代入方程 (53) 将简化 ELBO 为

\displaystyle\text{ELBO}_{\boldsymbol{\theta}}=-\sum_{t=1}^{T}\mathbb{E}_{q(\mathbf{x}_{t}|\mathbf{x}_{0})}\Big{[}\frac{1}{2\sigma_{q}^{2}(t)}\frac{(1-\alpha_{t})^{2}\overline{\alpha}_{t-1}}{(1-\overline{\alpha}_{t})^{2}}\left\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0}\right\|^{2}\Big{]}.

因此，神经网络的训练可以归结为一个简单的损失函数：去噪扩散概率模型的损失函数： $\boldsymbol{\theta}^{*}=\mathop{\underset{\boldsymbol{\theta}}{\mbox{argmin}}}\sum_{t=1}^{T}\frac{1}{2\sigma_{q}^{2}(t)}\frac{(1-\alpha_{t})^{2}\overline{\alpha}_{t-1}}{(1-\overline{\alpha}_{t})^{2}}\mathbb{E}_{q(\mathbf{x}_{t}|\mathbf{x}_{0})}\Big{[}\left\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0}\right\|^{2}\Big{]}.$ (55)

方程 (55) 中定义的损失函数非常直观。忽略常量和期望，对于特定的 $\mathbf{x}_{t}$ ，主要感兴趣的主题是

\mathop{\underset{\boldsymbol{\theta}}{\mbox{argmin}}}\;\;\left\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0}\right\|^{2}.

这不过是一个去噪问题，因为我们需要找到一个网络 $\widehat{\mathbf{x}}_{\boldsymbol{\theta}}$ ，使得去噪后的图像 $\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})$ 将接近于真实值 $\mathbf{x}_{0}$ 。它不是典型的降噪器的原因是

$\mathbb{E}_{q(\mathbf{x}_{t}|\mathbf{x}_{0})}$ : 我们不是试图对任何随机噪声图像进行去噪。相反，我们仔细选择噪声图像

$\displaystyle\mathbf{x}_{t}\sim q(\mathbf{x}_{t}|\mathbf{x}_{0})$ $\displaystyle=\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},\;\;(1-\overline{\alpha}_{t})\mathbf{I})$

$\displaystyle=\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{(1-\overline{\alpha}_{t})}\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).$

在这里，“小心”是指仔细控制注入图像的噪声量。

图 14：正向采样过程。前向采样过程原本是一个操作链。然而，如果我们假设高斯分布，那么我们可以将采样过程简化为一步数据生成。
•

$\frac{1}{2\sigma_{q}^{2}(t)}\frac{(1-\alpha_{t})^{2}\overline{\alpha}_{t-1}}{(1-\overline{\alpha}_{t})^{2}}$ : 我们不会对所有步骤的去噪损失进行等权重。相反，有一个调度程序来控制每个去噪损失的相对重点。然而，为了简单起见，我们可以放弃这些。其影响较小。
•

$\sum_{t=1}^{T}$ : 求和可以用均匀分布 $t\sim\text{Uniform}[1,T]$ 代替。

训练拒绝扩散概率模型。（版本：预测图像）对于训练数据集中的每个图像

\mathbf{x}_{0}

：重复以下步骤直至收敛。 • 选择一个随机时间戳

t\sim\text{Uniform}[1,T]

。 • 从样本

\mathbf{x}_{t}\sim\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},\;\;(1-\overline{\alpha}_{t})\mathbf{I})

中抽取样本，即

\mathbf{x}_{t}=\overline{\alpha}_{t}\mathbf{x}_{0}+\sqrt{(1-\overline{\alpha}_{t})}\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).

• 采取梯度下降步骤

\nabla_{\boldsymbol{\theta}}\left\|\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}_{0}\right\|^{2}

您可以批量执行此操作，就像训练任何其他神经网络一样。请注意，在这里，您正在为所有噪声条件训练一个去噪网络

\widehat{\mathbf{x}}_{\boldsymbol{\theta}}

。

一旦降噪器 $\widehat{\mathbf{x}}_{\boldsymbol{\theta}}$ 训练完毕，我们就可以应用它来进行推理。推理是关于从状态序列 $\mathbf{x}_{T},\mathbf{x}_{T-1},\ldots,\mathbf{x}_{1}$ 上的分布 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 中采样图像。由于这是反向扩散过程，我们需要通过以下方式递归地进行：

	$\displaystyle\mathbf{x}_{t-1}\sim p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}\,\|\,\mathbf{x}_{t})$	$\displaystyle=\mathcal{N}(\mathbf{x}_{t-1}\,\|\,\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t}),\sigma_{q}^{2}(t)\mathbf{I})$
		$\displaystyle=\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sigma_{q}^{2}(t)\mathbf{z},\qquad\qquad\qquad\text{where}\quad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I})$
		$\displaystyle=\frac{(1-\overline{\alpha}_{t-1})\sqrt{\alpha_{t}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{t}+\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sigma_{q}(t)\mathbf{z}.$

这导致了以下推理算法。

拒绝扩散概率模型的推断。（版本：预测图像）您给我们一个白噪声向量

\mathbf{x}_{T}\sim\mathcal{N}(0,\mathbf{I})

。 • 对

t=T,T-1,\ldots,1

重复以下操作。 • 我们使用训练过的去噪器计算

\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})

。 • 更新根据

\displaystyle\mathbf{x}_{t-1}

\displaystyle=\frac{(1-\overline{\alpha}_{t-1})\sqrt{\alpha_{t}}}{1-\overline{\alpha}_{t}}\mathbf{x}_{t}+\frac{(1-\alpha_{t})\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t}}\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sigma_{q}(t)\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).

(56)

2.8基于噪声向量的推导

如果您熟悉去噪文献，您可能知道预测噪声而不是信号的残差类型算法。同样的精神也适用于去噪扩散，我们可以学习预测噪声。为了了解为什么会出现这种情况，我们考虑方程 (24)。如果我们重新安排条款，我们将获得

		$\displaystyle\mathbf{x}_{t}=\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\overline{\alpha}_{t}}\boldsymbol{\epsilon}_{0}$
	$\displaystyle\Rightarrow\qquad$	$\displaystyle\mathbf{x}_{0}=\frac{\mathbf{x}_{t}-\sqrt{1-\overline{\alpha}_{t}}\boldsymbol{\epsilon}_{0}}{\sqrt{\overline{\alpha}_{t}}}.$

将此代入 $\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})$ ，我们可以证明

$\displaystyle\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})$	$\displaystyle=\frac{\sqrt{\alpha_{t}}(1-\overline{\alpha}_{t-1})\mathbf{x}_{t}+\sqrt{\overline{\alpha}_{t-1}}(1-\alpha_{t})\mathbf{x}_{0}}{1-\overline{\alpha}_{t}}$
	$\displaystyle=\frac{\sqrt{\alpha_{t}}(1-\overline{\alpha}_{t-1})\mathbf{x}_{t}+\sqrt{\overline{\alpha}_{t-1}}(1-\alpha_{t})\cdot\frac{\mathbf{x}_{t}-\sqrt{1-\overline{\alpha}_{t}}\boldsymbol{\epsilon}_{0}}{\sqrt{\overline{\alpha}_{t}}}}{1-\overline{\alpha}_{t}}$
	$\displaystyle=\text{a few more algebraic steps}$
	$\displaystyle=\frac{1}{\sqrt{\alpha_{t}}}\mathbf{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha}_{t}}\sqrt{\alpha}_{t}}\boldsymbol{\epsilon}_{0}.$	(57)

因此，如果我们可以设计我们的均值估计器 $\boldsymbol{\mu}_{\boldsymbol{\theta}}$ ，我们就可以自由选择它来匹配以下形式：

\displaystyle\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})=\frac{1}{\sqrt{\alpha_{t}}}\mathbf{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha}_{t}}\sqrt{\alpha}_{t}}\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t}).

(58)

将公式 (57) 和公式 (58) 代入公式 (50) 将得到一个新的 ELBO

\displaystyle\text{ELBO}_{\boldsymbol{\theta}}=-\sum_{t=1}^{T}\mathbb{E}_{q(\mathbf{x}_{t}|\mathbf{x}_{0})}\Big{[}\frac{1}{2\sigma_{q}^{2}(t)}\frac{(1-\alpha_{t})^{2}\overline{\alpha}_{t-1}}{(1-\overline{\alpha}_{t})^{2}}\left\|\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\boldsymbol{\epsilon}_{0}\right\|^{2}\Big{]}.

因此，如果你给我们 $\mathbf{x}_{t}$ ，我们会返回一个预测的噪声 $\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})$ 。这将为我们提供替代的训练方案训练拒绝扩散概率模型（版本预测噪声）。对于训练数据集中的每个图像 $\mathbf{x}_{0}$ ：重复以下步骤直至收敛。 • 随机选择一个时间戳 $t\sim\text{Uniform}[1,T]$ 。 • 抽取一个样本 $\mathbf{x}_{t}\sim\mathcal{N}(\mathbf{x}_{t}\,|\,\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},\;\;(1-\overline{\alpha}_{t})\mathbf{I})$ ，即 $\mathbf{x}_{t}=\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{(1-\overline{\alpha}_{t})}\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).$ • 采取梯度下降步骤 $\nabla_{\boldsymbol{\theta}}\left\|{\color[rgb]{0,0,1}\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})}-{\color[rgb]{0,0,1}\boldsymbol{\epsilon}_{0}}\right\|^{2}$ 因此，推理步骤可以通过

	$\displaystyle\mathbf{x}_{t-1}\sim p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}\,\|\,\mathbf{x}_{t})$	$\displaystyle=\mathcal{N}(\mathbf{x}_{t-1}\,\|\,\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t}),\sigma_{q}^{2}(t)\mathbf{I})$
		$\displaystyle=\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sigma_{q}^{2}(t)\mathbf{z}$
		$\displaystyle=\frac{1}{\sqrt{\alpha_{t}}}\mathbf{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha}_{t}}\sqrt{\alpha}_{t}}\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sigma_{q}(t)\mathbf{z}$
		$\displaystyle=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha}_{t}}}\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\right)+\sigma_{q}(t)\mathbf{z}$

总结到这里，我们有拒绝扩散概率模型的推断。（版本预测噪声）你给我们一个白噪声向量 $\mathbf{x}_{T}\sim\mathcal{N}(0,\mathbf{I})$ 。 • 对 $t=T,T-1,\ldots,1$ 重复以下操作。 • 我们使用训练好的去噪器计算 $\widehat{\mathbf{x}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})$ 。 • 更新根据 $\displaystyle\mathbf{x}_{t-1}$ $\displaystyle=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha}_{t}}}\widehat{\boldsymbol{\epsilon}}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\right)+\sigma_{q}(t)\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).$

2.9直接去噪 (InDI) 反演

如果我们查看 DDPM 公式，我们会看到更新公式 (56) 采用以下形式：

\mathbf{x}_{t-1}=\Big{(}\text{something}\Big{)}\cdot\mathbf{x}_{t}+\Big{(}\text{something else}\Big{)}\cdot\text{denoise}(\mathbf{x}_{t})+\text{noise}.

(59)

换句话说， $(t-1)$ 次估计是三项的线性组合：当前估计 $\mathbf{x}_{t}$ 、去噪版本 $\text{denoise}(\mathbf{x}_{t})$ 和噪声项。当前的估计和噪声项很容易理解。但什么是“降噪”？ Delbracio 和 Milanfar 发表的一篇有趣的论文[6]从纯去噪的角度研究了生成扩散模型。事实证明，这种令人惊讶的简单观点在某些方面与其他更先进的扩散模型是一致的。

什么是 $\text{denoise}(\mathbf{x}_{t})$ ？去噪是一种从噪声图像中去除噪声的通用过程。在统计信号处理的美好时光中，标准教科书问题是导出白噪声的最佳降噪器。给定观察模型

\mathbf{y}=\mathbf{x}+\boldsymbol{\epsilon},\qquad\text{where}\;\;\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I}),

你能构建一个估计器 $g(\cdot)$ 使得均方误差最小化吗？

我们将跳过这个经典问题解的推导，因为你可以在任何概率教科书中找到它，例如[7，第8章]。解决办法是

$\displaystyle\text{denoise}(\mathbf{y})$	$\displaystyle=\mathop{\underset{g}{\mbox{argmin}}}\;\;\mathbb{E}_{\mathbf{x},\mathbf{y}}[\\|g(\mathbf{y})-\mathbf{x}\\|^{2}]$
	$\displaystyle=\text{some magical step}$
	$\displaystyle=\mathbb{E}[\mathbf{x}\|\mathbf{y}].$	(60)

那么，回到我们的问题：如果我们假设

\mathbf{x}_{t}=\mathbf{x}_{t-1}+\boldsymbol{\epsilon}_{t-1},\qquad\text{where}\;\;\boldsymbol{\epsilon}_{t-1}\sim\mathcal{N}(0,\mathbf{I}),

那么显然，降噪器是后验分布的条件期望：

\text{denoise}(\mathbf{x}_{t})=\mathbb{E}[\mathbf{x}_{t-1}|\mathbf{x}_{t}].

(61)

因此，如果给定分布 $p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ ，则最佳去噪器只是该分布的条件期望。这种降噪器称为最小均方误差 (MMSE) 降噪器。 MMSE 降噪器不是“最佳”降噪器；它只是相对于均方误差而言的最佳降噪器。由于均方误差从来都不是衡量图像质量的良好指标，因此最小化 MSE 并不一定会给我们带来更好的图像。尽管如此，人们还是喜欢 MMSE 降噪器，因为它们很容易推导。

增量去噪步骤。如果您了解 MMSE 降噪器相当于后验分布的条件期望，您就会欣赏增量降噪。下面是它的工作原理。假设我们有一个干净的图像 $\mathbf{x}_{0}$ 和一个噪声图像 $\mathbf{y}$ 。我们的目标是通过一个简单的方程形成 $\mathbf{x}_{0}$ 和 $\mathbf{y}$ 的线性组合

\mathbf{x}_{t}=(1-t)\mathbf{x}_{0}+t\mathbf{y},\qquad 0\leq t\leq 1.

(62)

现在，考虑时间 $t$ 之前的一个小步骤 $\tau$ 。 [6] 显示的以下结果提供了一些有用的实用程序：令 $0\leq\tau<t\leq 1$ ，并假设 $\mathbf{x}_{t}=(1-t)\mathbf{x}_{0}+t\mathbf{y}$ ，则成立 $\mathbb{E}[\mathbf{x}_{t-\tau}|\mathbf{x}_{t}]=\left(1-\frac{\tau}{t}\right)\underset{\text{current estimate}}{\underbrace{\mathbf{x}_{t}}}\qquad+\qquad\frac{\tau}{t}\;\;\;\;\underset{\text{denoised}}{\underbrace{\mathbb{E}[\mathbf{x}_{0}|\mathbf{x}_{t}]}}.$ (63) 如果我们将 $\widehat{\mathbf{x}}_{t-\tau}$ 定义为左侧，用 $\widehat{\mathbf{x}}_{t}$ 替换 $\mathbf{x}_{t}$ ，并将 $\mathbb{E}[\mathbf{x}_{0}|\mathbf{x}_{t}]$ 写成 $\text{denoise}(\widehat{\mathbf{x}}_{t})$ ，则上面的等式将变为

\widehat{\mathbf{x}}_{t-\tau}=\left(1-\frac{\tau}{t}\right)\cdot\widehat{\mathbf{x}}_{t}+\frac{\tau}{t}\text{denoise}(\widehat{\mathbf{x}}_{t}),

(64)

其中 $\tau$ 是时间的一小步。

等式 (64) 给我们一个推断步骤。如果你告诉我们去噪器，并假设你从一个噪声图像 $\mathbf{y}$ 开始，那么我们可以迭代地应用等式 (64) 来检索图像 $\widehat{\mathbf{x}}_{t-1}$ ， $\widehat{\mathbf{x}}_{t-2}$ ，…， $\widehat{\mathbf{x}}_{0}$ 。

训练。迭代方案的训练需要一个生成 $\text{denoise}(\mathbf{x}_{t})$ 的去噪器。为此，我们可以训练一个神经网络 $\text{denoise}_{\boldsymbol{\theta}}$ （其中 $\boldsymbol{\theta}$ 表示网络权重）：

\mathop{\underset{\boldsymbol{\theta}}{\mathrm{minimize}}}\;\;\mathbb{E}_{\mathbf{x},\mathbf{y}}\mathbb{E}_{t\sim\text{uniform}}\Big{[}\|\text{denoise}_{\boldsymbol{\theta}}(\mathbf{x}_{t})-\mathbf{x}\|^{2}\Big{]}.

(65)

这里，分布“ $t\sim\text{uniform}$ ”指定时间步 $t$ 是从给定分布中均匀绘制的。因此，我们为所有时间步 $t$ 训练一个降噪器。当您使用数据集中的一对有噪声且干净的图像时，通常会满足期望 $(\mathbf{x},\mathbf{y})$ 训练。训练后，我们可以通过等式 (64) 进行增量更新。

与去噪分数匹配的连接。尽管我们还没有讨论分数匹配（将在下一节中介绍），但关于上述迭代去噪过程的一个有趣的事实是它与去噪分数匹配有关。在高层，我们可以将迭代重写为

	$\displaystyle\mathbf{x}_{t-\tau}$	$\displaystyle=\left(1-\frac{\tau}{t}\right)\cdot\mathbf{x}_{t}+\frac{\tau}{t}\text{denoise}(\mathbf{x}_{t})$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\mathbf{x}_{t-\tau}-\mathbf{x}_{t}$	$\displaystyle=-\frac{\tau}{t}\mathbf{x}_{t}+\frac{\tau}{t}\text{denoise}(\mathbf{x}_{t})$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\frac{\mathbf{x}_{t}-\mathbf{x}_{t-\tau}}{\tau}$	$\displaystyle=\frac{\mathbf{x}_{t}-\text{denoise}(\mathbf{x}_{t})}{t}$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\frac{d\mathbf{x}_{t}}{dt}=\lim_{\tau\rightarrow 0}\frac{\mathbf{x}_{t}-\mathbf{x}_{t-\tau}}{\tau}$	$\displaystyle=\frac{\mathbf{x}_{t}-\text{denoise}(\mathbf{x}_{t})}{t}$

这是一个常微分方程 (ODE)。如果我们让 $\mathbf{x}_{t}=\mathbf{x}+t\boldsymbol{\epsilon}$ 使得 $\mathbf{x}_{t}$ 中的噪声水平为 $\sigma_{t}^{2}=t^{2}\sigma^{2}$ ，那么我们可以使用文献中的几个结果来证明

$\displaystyle\frac{d\mathbf{x}_{t}}{dt}$	$\displaystyle=-\frac{1}{2}\frac{d(\sigma_{t}^{2})}{dt}\nabla_{\mathbf{x}_{t}}\log p_{t}(\mathbf{x}_{t})$	$\displaystyle(\text{ODE defined by Song et al. \cite[cite]{[\@@bibref{}{Song_2021_SGM}{}{}]}})$
	$\displaystyle=-t\sigma^{2}\nabla_{\mathbf{x}_{t}}\log p_{t}(\mathbf{x}_{t})$	$\displaystyle(\sigma_{t}=t\sigma)$
	$\displaystyle\approx-t\sigma^{2}\frac{\mathbf{x}-\text{denoise}(\mathbf{x}_{t})}{t^{2}\sigma^{2}}$	$\displaystyle(\text{Approximation proposed by Vincent \cite[cite]{[\@@bibref{}{Vincent_2011_DSM}{}{}]}})$
	$\displaystyle=\frac{\mathbf{x}_{t}-\text{denoise}(\mathbf{x}_{t})}{t}.$

因此，增量去噪迭代相当于去噪分数匹配，至少在 ODE 确定的极限情况下是这样。

添加随机步骤。上述增量去噪迭代可以配备随机扰动。对于推理步骤，我们可以定义一系列噪声级别 $\{\sigma_{t}\;|\;0\leq t\leq 1\}$ ，并定义

\widehat{\mathbf{x}}_{t-\tau}=\left(1-\frac{\tau}{t}\right)\cdot\widehat{\mathbf{x}}_{t}+\frac{\tau}{t}\text{denoise}(\widehat{\mathbf{x}}_{t})+(t-\tau)\sqrt{\sigma_{t-\tau}^{2}-\sigma_{t}^{2}}\boldsymbol{\epsilon},\qquad\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I}).

(66)

作为或训练，人们可以通过以下方式训练降噪器

\mathop{\underset{\boldsymbol{\theta}}{\mathrm{minimize}}}\;\;\mathbb{E}_{(\mathbf{x},\mathbf{y})}\mathbb{E}_{t\sim\text{uniform}}\mathbb{E}_{\boldsymbol{\epsilon}}\left[\|\text{denoise}(\mathbf{x}_{t})-\mathbf{x}\|^{2}\right],

(67)

其中 $\mathbf{x}_{t}=(1-t)\mathbf{x}+t\mathbf{y}+\sqrt{t}\sigma_{t}\boldsymbol{\epsilon}$ 。

恭喜！我们完了。这就是 DDPM 的全部内容。

DDPM 的文献正在迅速爆炸式增长。 Sohl-Dickstein 等人 [10] 和 Ho 等人 [4] 的原始论文是理解该主题的必读文章。对于更“用户友好”的版本，我们发现 Luo 的教程非常有用[11]。一些后续工作被高度引用，包括宋等人[12]的去噪扩散隐式模型。在应用方面，人们已经将DDPM用于各种图像合成应用，例如[13, 14]。

3分数匹配 Langevin Dynamics (SMLD)

基于分数的生成模型[8]是根据所需分布生成数据的替代方法。有几个核心要素：朗之万动力学、(Stein) 评分函数和评分匹配损失。在本节中，我们将一一探讨这些主题。

3.1朗之万动力

我们讨论的一个有趣的起点是朗之万动力学。这是一个非常物理学的话题，似乎与生成模型无关。但请不要担心。事实上，它们以一种很好的方式相关。

我们不以正确的方式告诉您物理原理，而是讨论如何使用朗之万动力学从分布中抽取样本。想象一下，我们给定一个分布 $p(\mathbf{x})$ ，并假设我们想要从 $p(\mathbf{x})$ 中抽取样本。朗之万动力学是一个迭代过程，允许我们根据以下方程抽取样本。从已知分布 $p(\mathbf{x})$ 中采样的朗之万动力学是一个用于 $t=1,\ldots,T$ 的迭代过程： $\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\nabla_{\mathbf{x}}\log p(\mathbf{x}_{t})+\sqrt{2\tau}\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}),$ (68) 其中 $\tau$ 是用户可以控制的步长， $\mathbf{x}_{0}$ 是白噪声。

你可能想知道，这个神秘的方程式到底是关于什么的？这是简短而快速的答案。如果你忽略了末尾的噪声项 $\sqrt{2\tau}\mathbf{z}$ ，则等式 (68) 中的朗之万动力学方程实际上是梯度下降。仔细选择下降方向 $\nabla_{\mathbf{x}}\log p(\mathbf{x})$ ，使得 $\mathbf{x}_{t}$ 会收敛到分布 $p(\mathbf{x})$ 。如果您观看任何 YouTube 视频，长达 10 分钟地咕哝朗之万动力学方程，但没有解释它是什么，您可以温和地告诉他们以下内容：如果没有噪声项，朗之万动力学是梯度下降。

考虑一个分布 $p(\mathbf{x})$ 。一旦定义了模型参数，该分布的形状就被定义并固定。例如，如果您选择高斯分布，则一旦指定均值和方差，高斯分布的形状和位置就会固定。值 $p(\mathbf{x})$ 不过是在数据点 $\mathbf{x}$ 处评估的概率密度。因此，从一个 $\mathbf{x}$ 到另一个 $\mathbf{x}^{\prime}$ ，我们只是从一个值 $p(\mathbf{x})$ 移动到一个不同的值 $p(\mathbf{x}^{\prime})$ 。高斯的基本形状没有改变。

假设我们从 $\mathbb{R}^{d}$ 中的某个任意位置开始。我们希望将其移至分布的（其中一个）峰值。峰值是一个特殊的地方，因为它是概率最高的地方。所以，如果我们说样本 $\mathbf{x}$ 是从分布 $p(\mathbf{x})$ 中抽取的，那么 $\mathbf{x}$ 的“最佳”位置一定是 $p(\mathbf{x})$ 最大化的位置。如果 $p(\mathbf{x})$ 有多个局部最小值，任何一个都可以。所以，很自然地，采样的目标就相当于解决优化问题

\mathbf{x}^{*}=\mathop{\underset{\mathbf{x}}{\mbox{argmax}}}\;\;\log p(\mathbf{x}).

我们再次强调，这不是最大似然估计。在最大似然情况下，数据点 $\mathbf{x}$ 是固定的，但模型参数正在变化。这里，模型参数是固定的，但数据点是变化的。下表总结了差异。

Problem	Sampling	Maximum Likelihood
Optimization target	A sample $\mathbf{x}$	Model parameter $\boldsymbol{\theta}$
Formulation	$\mathbf{x}^{*}=\mathop{\underset{\mathbf{x}}{\mbox{argmax}}}\;\;\log p(\mathbf{x};\boldsymbol{\theta})$	$\boldsymbol{\theta}^{*}=\mathop{\underset{\boldsymbol{\theta}}{\mbox{argmax}}}\;\;\log p(\mathbf{x};\boldsymbol{\theta})$

优化可以通过多种方式解决。最便宜的方法当然是梯度下降。对于 $\log p(\mathbf{x})$ ，我们看到梯度下降步长是

\displaystyle\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\nabla_{\mathbf{x}}\log p(\mathbf{x}_{t}),

其中 $\nabla_{\mathbf{x}}\log p(\mathbf{x}_{t})$ 表示在 $\mathbf{x}_{t}$ 处计算的 $\log p(\mathbf{x})$ 的梯度， $\tau$ 是步长。这里我们使用“ $+$ ”而不是典型的“ $-$ ”，因为我们正在解决最大化问题。

示例。考虑一个高斯分布

p(x)=\mathcal{N}(x\,|\,\mu,\sigma^{2})

，我们可以很容易地证明朗之万动力学方程是

\displaystyle x_{t+1}

\displaystyle=x_{t}+\tau\cdot\nabla_{x}\log\left\{\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}\right\}+\sqrt{2\tau}z

\displaystyle=x_{t}-\tau\cdot\frac{x_{t}-\mu}{\sigma^{2}}+\sqrt{2\tau}z,

\displaystyle\qquad z\sim\mathcal{N}(0,1)

示例。考虑一个高斯混合模型

p(x)=\pi_{1}\mathcal{N}(x\,|\,\mu_{1},\sigma_{1}^{2})+\pi_{2}\mathcal{N}(x\,|\,\mu_{2},\sigma_{2}^{2})

。我们可以数值计算

\nabla_{x}\log p(x)

。为了演示，我们选择

\pi_{1}=0.6

。

\mu_{1}=2

、

\sigma_{1}=0.5

、

\pi_{2}=0.4

、

\mu_{2}=-2

、

\sigma_{2}=0.2

。我们初始化

x_{0}=0

。我们选择

\tau=0.05

。我们对

T=500

次运行上述梯度下降迭代，并绘制

t=1,\ldots,T

的值

p(x_{t})

的轨迹。如下图所示，序列

\{x_{1},x_{2},\ldots,x_{T}\}

简单地遵循高斯形状并爬到其中一个峰值。更有趣的是当我们添加噪声项时。序列

x_{t}

不是在峰值处着陆，而是围绕峰值移动并在峰值附近的某个位置结束。我们越接近峰值，我们停在那里的可能性就越大。 [Uncaptioned image]

\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\nabla_{\mathbf{x}}\log p(\mathbf{x}_{t})

\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\nabla_{\mathbf{x}}\log p(\mathbf{x}_{t})+\sqrt{2\tau}\mathbf{z}

图 17 显示了样本轨迹的一个有趣的描述。从任意位置开始，数据点 $\mathbf{x}_{t}$ 将根据朗之万动力学方程进行随机游走。随机游走的方向并不是完全任意的。存在一定量的预定义漂移，而每一步都存在一定程度的随机性。漂移由 $\nabla_{\mathbf{x}}\log p(\mathbf{x})$ 决定，而随机性来自 $\mathbf{z}$ 。

从上面的例子中我们可以看出，噪声项的加入实际上将梯度下降变成了随机梯度下降。随机梯度下降不是追求确定性最优，而是随机爬上山。由于我们使用一个常数步长 $\sqrt{2\tau}$ ，最终的解将在峰值附近振荡。因此，我们可以将朗之万动力学方程总结为朗之万动力学是随机梯度下降。但为什么我们要进行随机梯度下降而不是梯度下降呢？关键是我们对解决优化问题不感兴趣。相反，我们更感兴趣的是从分布中采样。通过在梯度下降步骤中引入随机噪声，我们随机选择一个遵循目标函数轨迹但不停留在原处的样本。如果接近山顶，我们会稍微左右移动。如果我们远离峰值，梯度方向会将我们拉向峰值。如果峰值周围的曲率很陡，我们将把大部分稳态点 $\mathbf{x}_{T}$ 集中在那里。如果峰周围的曲率是平坦的，我们就会向四周扩散。因此，通过在均匀分布的位置重复初始化随机梯度下降算法，我们最终将收集遵循我们指定分布的样本。

示例。考虑一个高斯混合模型

p(x)=\pi_{1}\mathcal{N}(x\,|\,\mu_{1},\sigma_{1}^{2})+\pi_{2}\mathcal{N}(x\,|\,\mu_{2},\sigma_{2}^{2})

。我们可以数值计算

\nabla_{x}\log p(x)

。为了演示，我们选择

\pi_{1}=0.6

。

\mu_{1}=2

、

\sigma_{1}=0.5

、

\pi_{2}=0.4

、

\mu_{2}=-2

、

\sigma_{2}=0.2

。假设我们初始化

M=10000

为均匀分布的样本

x_{0}\sim\text{Uniform}[-3,3]

。我们运行

t=100

步骤的 Langevin 更新。生成样本的直方图如下图所示。 [Uncaptioned image]

备注：Langevin Dynamics 的起源。朗之万动力学这个名字当然不是源于我们的“黑客”观点。这要从物理学开始。考虑基本牛顿方程，它将力

\mathbf{F}

与质量

m

和速度

\mathbf{v}(t)

联系起来。牛顿第二定律说的是

\underset{\text{force}}{\underbrace{\mathbf{F}}}=\underset{\text{mass}}{\underbrace{m}}\cdot\underset{\text{acceleration}}{\underbrace{\frac{d\mathbf{v}(t)}{dt}}}.

(69) 给定力

\mathbf{F}

，我们也知道它与势能

U(\mathbf{x})

之间的关系为

\underset{\text{force}}{\underbrace{\mathbf{F}}}=\nabla_{\mathbf{x}}\underset{\text{energy}}{\underbrace{U(\mathbf{x})}}.

(70) 朗之万动力学的随机性来自于布朗运动。想象一下，我们有一袋分子在移动。它们的运动可以根据布朗运动模型来描述：

\frac{d\mathbf{v}(t)}{dt}=-\frac{\lambda}{m}\mathbf{v}(t)+\frac{1}{m}\boldsymbol{\eta},\qquad\text{where}\;\;\boldsymbol{\eta}\sim\mathcal{N}(0,\sigma^{2}\mathbf{I}).

(71) 因此，将公式 (71) 代入公式 (69)，并将其与公式 (70) 等同，我们有

\displaystyle-\nabla_{\mathbf{x}}U(\mathbf{x})=-\lambda\mathbf{v}(t)+\boldsymbol{\eta}\quad\Rightarrow\quad\mathbf{v}(t)=-\frac{1}{\lambda}\nabla_{\mathbf{x}}U(\mathbf{x})+\frac{1}{\lambda}\boldsymbol{\eta}.

这可以等效地写为

\frac{d\mathbf{x}}{dt}=-\frac{1}{\lambda}\nabla_{\mathbf{x}}U(\mathbf{x})+\frac{\sigma}{\lambda}\mathbf{z},\qquad\text{where}\;\;\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).

(72) 如果我们令

\tau=\frac{dt}{\lambda}

并对上述微分方程进行离散化，我们将得到

\mathbf{x}_{t+1}=\mathbf{x}_{t}-\tau\nabla_{\mathbf{x}}U(\mathbf{x}_{t})+\sigma\tau\mathbf{z}_{t}.

(73) 因此，仍然需要确定能源潜力。对于我们的概率分布函数

p(\mathbf{x})

，一个非常合理（且懒惰）的选择是具有以下形式的玻尔兹曼分布

\displaystyle p(\mathbf{x})=\frac{1}{Z}\exp\left\{-U(\mathbf{x})\right\}.

因此，立即得出结论

\nabla_{\mathbf{x}}\log p(\mathbf{x})=\nabla_{\mathbf{x}}\Big{\{}-U(\mathbf{x})-\log Z\Big{\}}=-\nabla_{\mathbf{x}}U(\mathbf{x}).

(74) 将公式 (74) 代入公式 (73) 会得到

\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\nabla_{\mathbf{x}}\log p(\mathbf{x})+\sigma\tau\mathbf{z}

。最后，如果我们选择

\sigma=\sqrt{2/\tau}

（没有特殊原因），我们将获得

\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\nabla_{\mathbf{x}}\log p(\mathbf{x}_{t})+\sqrt{2\tau}\mathbf{z}_{t}.

(75)

3.2 （Stein 的）评分函数

朗之万动力学方程的第二个部分是梯度 $\nabla_{\mathbf{x}}\log p(\mathbf{x})$ 。它有一个正式名称为斯坦因评分函数，表示为

\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})\overset{\text{def}}{=}\nabla_{\mathbf{x}}\log p_{\boldsymbol{\theta}}(\mathbf{x}).

(76)

我们应该小心，不要将 Stein 的得分函数与普通得分函数混淆，后者定义为

\mathbf{s}_{\mathbf{x}}(\boldsymbol{\theta})\overset{\text{def}}{=}\nabla_{\boldsymbol{\theta}}\log p_{\boldsymbol{\theta}}(\mathbf{x}).

(77)

普通的得分函数是对数似然的梯度（wrt $\boldsymbol{\theta}$ )。相反，Stein 的得分函数是数据点 $\mathbf{x}$ 的梯度。最大似然估计使用普通得分函数，而朗之万动力学使用斯坦因得分函数。然而，由于扩散文献中的大多数人将斯坦因的得分函数称为得分函数，因此我们遵循这种文化。朗之万动力学中的“得分函数”更准确地称为斯坦因得分函数。

理解分数函数的方法是记住它是相对于数据 $\mathbf{x}$ 的梯度。对于任何高维分布 $p(\mathbf{x})$ ，梯度将为我们提供矢量场

\nabla_{\mathbf{x}}\log p(\mathbf{x})=\text{a vector field}=\left[\frac{\partial\log p(\mathbf{x})}{\partial x},\;\;\frac{\partial\log p(\mathbf{x})}{\partial y}\right]^{T}

(78)

让我们考虑两个例子。示例。如果 $p(x)$ 是一个均值为 $p(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$ 的高斯分布，那么 $s(x)=\nabla_{x}\log p(x)=-\frac{(x-\mu)}{\sigma^{2}}.$

示例。如果

p(x)

是一个均值为

p(x)=\sum_{i=1}^{N}\pi_{i}\frac{1}{\sqrt{2\pi\sigma_{i}^{2}}}e^{-\frac{(x-\mu_{i})^{2}}{2\sigma_{i}^{2}}}

的高斯混合分布，那么

s(x)=\nabla_{x}\log p(x)=-\frac{\sum_{j=1}^{N}\pi_{j}\frac{1}{\sqrt{2\pi\sigma_{j}^{2}}}e^{-\frac{(x-\mu_{j})^{2}}{2\sigma_{j}^{2}}}\frac{(x-\mu_{j})}{\sigma_{j}^{2}}}{\sum_{i=1}^{N}\pi_{i}\frac{1}{\sqrt{2\pi\sigma_{i}^{2}}}e^{-\frac{(x-\mu_{i})^{2}}{2\sigma_{i}^{2}}}}.

上述两个例子的概率密度函数和相应的评分函数如图 18 所示。

得分函数的几何解释。

•

向量的幅度在 $\log p(\mathbf{x})$ 变化最大的地方最强。因此，在 $\log p(\mathbf{x})$ 接近峰值的区域，梯度将非常弱。
•

矢量场表示数据点在等高线图中的移动方式。图 19 显示了高斯混合（包含两个高斯分布）的等高线图。我们画箭头来表示向量场。现在，如果我们考虑存在于空间中的数据点，朗之万动力学方程基本上会将数据点沿着矢量场指向的方向移动到盆地。
•

在物理学中，得分函数相当于“漂移”。这个名字表明扩散粒子应该如何流向最低能量状态。

3.3 分数匹配技术

朗之万动力学中最困难的问题是如何获得 $\nabla_{\mathbf{x}}p(\mathbf{x})$ ，因为我们无法访问 $p(\mathbf{x})$ 。让我们回顾一下（斯坦因的）评分函数的定义

\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})\overset{\text{def}}{=}\nabla_{\mathbf{x}}p(\mathbf{x}),

(79)

我们在其中添加下标 $\boldsymbol{\theta}$ 来表示 $\mathbf{s}_{\boldsymbol{\theta}}$ 将通过网络实现。由于上式的右边未知，我们需要一些廉价而肮脏的方法来近似它。在本节中，我们简要讨论两种近似。

显式分数匹配。假设我们有一个数据集 $\mathcal{X}=\{\mathbf{x}_{1},\ldots,\mathbf{x}_{M}\}$ 。人们提出的解决方案是通过定义分布来考虑经典的核密度估计

q(\mathbf{x})=\frac{1}{M}\sum_{m=1}^{M}\frac{1}{h}K\left(\frac{\mathbf{x}-\mathbf{x}_{m}}{h}\right),

(80)

其中 $h$ 只是核函数 $K(\cdot)$ 的某个超参数，而 $\mathbf{x}_{m}$ 是训练集中第 $m$ 个样本。图 20 说明了核密度估计的概念。在左侧的卡通图中，我们展示了以不同数据点 $\mathbf{x}_{m}$ 为中心的多个核 $K(\cdot)$ 。所有这些单个核的总和为我们提供了总的核密度估计 $q(\mathbf{x})$ 。在右侧，我们显示了真实的直方图和相应的核密度估计。我们注意到， $q(\mathbf{x})$ 充其量只是对真实数据分布 $p(\mathbf{x})$ 的近似，而真实数据分布永远不会被知道。

由于 $q(\mathbf{x})$ 是对永远无法访问的 $p(\mathbf{x})$ 的近似，我们可以根据 $q(\mathbf{x})$ 学习 $\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})$ 。这导致了以下可用于训练网络的损失函数的定义。显式分数匹配损失是 $J_{\text{ESM}}(\boldsymbol{\theta})\overset{\text{def}}{=}\mathbb{E}_{q(\mathbf{x})}\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\|^{2}$ (81) 通过代入核密度估计，我们可以证明损失为

$\displaystyle J_{\text{ESM}}(\boldsymbol{\theta})$	$\displaystyle\overset{\text{def}}{=}\mathbb{E}_{q(\mathbf{x})}\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\\|^{2}$
	$\displaystyle=\int\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\\|^{2}\left[\frac{1}{M}\sum_{m=1}^{M}\frac{1}{h}K\left(\frac{\mathbf{x}-\mathbf{x}_{m}}{h}\right)\right]d\mathbf{x}$
	$\displaystyle=\frac{1}{M}\sum_{m=1}^{M}\int\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\\|^{2}\frac{1}{h}K\left(\frac{\mathbf{x}-\mathbf{x}_{m}}{h}\right)d\mathbf{x}.$	(82)

因此，我们推导出了一个可用于训练网络的损失函数。一旦我们训练了网络 $\mathbf{s}_{\boldsymbol{\theta}}$ ，我们就可以将其替换到朗之万动力学方程中以获得递归：

\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sqrt{2\tau}\mathbf{z}.

(83)

显式分数匹配的问题在于，核密度估计是真实分布的相当差的非参数估计。特别是当我们的样本数量有限并且样本位于高维空间中时，核密度估计性能可能很差。

去噪分数匹配。考虑到显式分数匹配的潜在缺点，我们现在引入一种更流行的分数匹配，称为去噪分数匹配（DSM）。在DSM中，损失函数定义如下。

J_{\text{DSM}}(\boldsymbol{\theta})\overset{\text{def}}{=}\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\left[\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}q(\mathbf{x}|\mathbf{x}^{\prime})\right\|^{2}\right]

(84)

这里的关键区别在于我们将分布 $q(\mathbf{x})$ 替换为条件分布 $q(\mathbf{x}|\mathbf{x}^{\prime})$ 。前者需要近似值，例如通过核密度估计，而后者则不需要。这是一个例子。

在 $q(\mathbf{x}|\mathbf{x}^{\prime})=\mathcal{N}(\mathbf{x}\;|\;\mathbf{x}^{\prime},\sigma^{2})$ 的特殊情况下，我们可以令 $\mathbf{x}=\mathbf{x}^{\prime}+\sigma\mathbf{z}$ 。这会给我们

	$\displaystyle\nabla_{\mathbf{x}}\log q(\mathbf{x}\|\mathbf{x}^{\prime})$	$\displaystyle=\nabla_{\mathbf{x}}\log\frac{1}{(\sqrt{2\pi\sigma^{2}})^{d}}\exp\left\{-\frac{\\|\mathbf{x}-\mathbf{x}^{\prime}\\|^{2}}{2\sigma^{2}}\right\}$
		$\displaystyle=\nabla_{\mathbf{x}}\left\{-\frac{\\|\mathbf{x}-\mathbf{x}^{\prime}\\|^{2}}{2\sigma^{2}}-\log(\sqrt{2\pi\sigma^{2}})^{d}\right\}$
		$\displaystyle=-\frac{\mathbf{x}-\mathbf{x}^{\prime}}{\sigma^{2}}=-\frac{\mathbf{z}}{\sigma^{2}}.$

因此，去噪分数匹配的损失函数变为

	$\displaystyle J_{\text{DSM}}(\boldsymbol{\theta})$	$\displaystyle\overset{\text{def}}{=}\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\left[\frac{1}{2}\left\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}q(\mathbf{x}\|\mathbf{x}^{\prime})\right\\|^{2}\right]$
		$\displaystyle=\mathbb{E}_{q(\mathbf{x}^{\prime})}\left[\frac{1}{2}\left\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}^{\prime}+\sigma\mathbf{z})+\frac{\mathbf{z}}{\sigma^{2}}\right\\|^{2}\right].$

如果我们将虚拟变量 $\mathbf{x}^{\prime}$ 替换为 $\mathbf{x}$ ，并且注意到当给出训练数据集时，从 $q(\mathbf{x})$ 中采样可以替换为从 $p(\mathbf{x})$ 中采样，我们可以得出以下结论。去噪分数匹配的损失函数定义为 $J_{\text{DSM}}(\boldsymbol{\theta})=\mathbb{E}_{p(\mathbf{x})}\left[\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}+\sigma\mathbf{z})+\frac{\mathbf{z}}{\sigma^{2}}\right\|^{2}\right]$ (85)

等式 (85) 的优点在于它非常易于解释。量 $\mathbf{x}+\sigma\mathbf{z}$ 实际上是在干净图像 $\mathbf{x}$ 上添加噪声 $\sigma\mathbf{z}$ 。评分函数 $\mathbf{s}_{\boldsymbol{\theta}}$ 应该获取该噪声图像并预测噪声 $\frac{\mathbf{z}}{\sigma^{2}}$ 。预测噪声相当于去噪，因为任何去噪图像加上预测噪声都会给我们带来噪声观测结果。因此，等式 (85) 是一个去噪步骤。图 21 说明了得分函数 $\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})$ 的训练过程。

训练步骤可以简单地描述如下：你给我们一个训练数据集 $\{\mathbf{x}^{(\ell)}\}_{\ell=1}^{L}$ ，我们训练一个网络 $\boldsymbol{\theta}$ ，目标是

\boldsymbol{\theta}^{*}=\mathop{\underset{\boldsymbol{\theta}}{\mbox{argmin}}}\;\;\frac{1}{L}\sum_{\ell=1}^{L}\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}\left(\mathbf{x}^{(\ell)}+\sigma\mathbf{z}^{(\ell)}\right)+\frac{\mathbf{z}^{(\ell)}}{\sigma^{2}}\right\|^{2},\qquad\text{where}\quad\mathbf{z}^{(\ell)}\sim\mathcal{N}(0,\mathbf{I}).

(86)

这里更大的问题是为什么等式 (84) 从一开始就说得通。这需要通过显式分数匹配损失和去噪分数匹配损失之间的等价来回答。

定理 [Vincent [9]] 对于直到与变量

\boldsymbol{\theta}

无关的常数

C

，它成立

J_{\text{DSM}}(\boldsymbol{\theta})=J_{\text{ESM}}(\boldsymbol{\theta})+C.

(87)

显式分数匹配和去噪分数匹配之间的等价性是一个重大发现。下面的证明基于 Vincent 2011 的原作。

等式 (87) 的证明我们从显式得分匹配损失函数开始，它由

\displaystyle J_{\text{ESM}}(\boldsymbol{\theta})

\displaystyle=\mathbb{E}_{q(\mathbf{x})}\left[\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\right\|^{2}\right]

\displaystyle=\mathbb{E}_{q(\mathbf{x})}\Big{[}\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})\right\|^{2}-\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x})+\underset{\overset{\text{def}}{=}C_{1},\text{independent of $\boldsymbol{\theta}$}}{\underbrace{\frac{1}{2}\left\|\nabla_{\mathbf{x}}\log q(\mathbf{x})\right\|^{2}}}\Big{]}.

让我们放大到第二项。我们可以证明

\displaystyle\mathbb{E}_{q(\mathbf{x})}\left[\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x})\right]

\displaystyle=\int\left(\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x})\right)q(\mathbf{x})d\mathbf{x},

(expectation)

\displaystyle=\int\left(\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\frac{\nabla_{\mathbf{x}}q(\mathbf{x})}{\cancel{q(\mathbf{x})}}\right)\cancel{q(\mathbf{x})}d\mathbf{x},

(gradient)

\displaystyle=\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}q(\mathbf{x})d\mathbf{x}.

接下来，我们考虑通过回忆

q(\mathbf{x})=\int q(\mathbf{x}^{\prime})q(\mathbf{x}|\mathbf{x}^{\prime})d\mathbf{x}^{\prime}

来进行条件化。这会给我们

\displaystyle\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}{\color[rgb]{0,0,1}q(\mathbf{x})}d\mathbf{x}

\displaystyle=\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\underset{=q(\mathbf{x})}{\underbrace{\left(\int q(\mathbf{x}^{\prime})q(\mathbf{x}|\mathbf{x}^{\prime})d\mathbf{x}^{\prime}\right)}}d\mathbf{x}

(conditional)

\displaystyle=\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\left(\int q(\mathbf{x}^{\prime}){\color[rgb]{0,0,1}\nabla_{\mathbf{x}}}q(\mathbf{x}|\mathbf{x}^{\prime})d\mathbf{x}^{\prime}\right)d\mathbf{x}

(move gradient)

\displaystyle=\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\left(\int q(\mathbf{x}^{\prime})\nabla_{\mathbf{x}}q(\mathbf{x}|\mathbf{x}^{\prime})\times{\color[rgb]{0,0,1}\frac{q(\mathbf{x}|\mathbf{x}^{\prime})}{q(\mathbf{x}|\mathbf{x}^{\prime})}}d\mathbf{x}^{\prime}\right)d\mathbf{x}

(multiple and divide)

\displaystyle=\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\int q(\mathbf{x}^{\prime})\underset{=\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})}{\underbrace{\left(\frac{\nabla_{\mathbf{x}}q(\mathbf{x}|\mathbf{x}^{\prime})}{q(\mathbf{x}|\mathbf{x}^{\prime})}\right)}}q(\mathbf{x}|\mathbf{x}^{\prime})d\mathbf{x}^{\prime}d\mathbf{x}

(rearrange terms)

\displaystyle=\int\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\left(\int q(\mathbf{x}^{\prime})\Big{(}\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})\Big{)}q(\mathbf{x}|\mathbf{x}^{\prime})d\mathbf{x}^{\prime}\right)d\mathbf{x}

\displaystyle=\int\int\underset{=q(\mathbf{x},\mathbf{x}^{\prime})}{\underbrace{q(\mathbf{x}|\mathbf{x}^{\prime})q(\mathbf{x}^{\prime})}}\Big{(}\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})\Big{)}d\mathbf{x}^{\prime}d\mathbf{x}

(move integration)

\displaystyle=\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\left[\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})\right].

因此，如果我们将这个结果代入 ESM 的定义，我们可以证明

\displaystyle J_{\text{ESM}}(\boldsymbol{\theta})=\mathbb{E}_{q(\mathbf{x})}\Big{[}\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})\right\|^{2}\Big{]}-\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\left[\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})\right]+C_{1}.

与 DSM 的定义进行比较，我们可以观察到

\displaystyle J_{\text{DSM}}(\boldsymbol{\theta})

\displaystyle\overset{\text{def}}{=}\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\left[\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}q(\mathbf{x}|\mathbf{x}^{\prime})\right\|^{2}\right]

\displaystyle=\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\Big{[}\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})\right\|^{2}-\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})+\underset{\overset{\text{def}}{=}C_{2},\text{independent of $\boldsymbol{\theta}$}}{\underbrace{\frac{1}{2}\left\|\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})\right\|^{2}}}\Big{]}

\displaystyle=\mathbb{E}_{q(\mathbf{x})}\Big{[}\frac{1}{2}\left\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})\right\|^{2}\Big{]}-\mathbb{E}_{q(\mathbf{x},\mathbf{x}^{\prime})}\left[\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})^{T}\nabla_{\mathbf{x}}\log q(\mathbf{x}|\mathbf{x}^{\prime})\right]+C_{2}.

因此，我们得出结论：

J_{\text{DSM}}(\boldsymbol{\theta})=J_{\text{ESM}}(\boldsymbol{\theta})-C_{1}+C_{2}.

对于推理，我们假设我们已经训练了分数估计器 $\mathbf{s}_{\boldsymbol{\theta}}$ 。为了生成图像，我们对 $t=1,\ldots,T$ 执行以下过程：

\mathbf{x}_{t+1}=\mathbf{x}_{t}+\tau\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{t})+\sqrt{2\tau}\mathbf{z}_{t},\qquad\text{where}\quad\mathbf{z}_{t}\sim\mathcal{N}(0,\mathbf{I}).

(88)

恭喜！我们完了。这都是关于基于分数的生成模型。

有关分数匹配的其他阅读材料应从 Vincent 的技术报告 [9] 开始。最近文献中非常流行的论文是 Song 和 Ermon [15]，他们的后续工作 [16] 和 [8]。在实践中，训练评分函数需要通过考虑一系列噪声水平来制定噪声表。当我们在下一节解释方差爆炸 SDE 时，我们将简要讨论这一点。

4 随机微分方程 (SDE)

到目前为止，我们已经通过 DDPM 和 SMLD 视角导出了扩散迭代。在本节中，我们将从微分方程的角度介绍第三种视角。为什么我们的迭代方案突然变成复杂的微分方程可能并不明显。因此，在推导任何方程之前，我们应该简要讨论微分方程与我们有何关系。

4.1 激励示例

示例 1。简单一阶常微分方程. 想象一下，我们有一个离散时间算法，其迭代由递归定义：

\mathbf{x}_{i}=\left(1-\frac{\beta\Delta t}{2}\right)\mathbf{x}_{i-1},\qquad\text{for}\;\;i=1,2,\ldots,N,

(89) 给出，其中

\beta

是超参数，

\Delta t

是步长参数。这个递归并不复杂：您给我们

\mathbf{x}_{i-1}

，我们更新并返回您

\mathbf{x}_{i}

。如果我们假设一个连续时间函数

\mathbf{x}(t)

的离散化方案，通过令

\mathbf{x}_{i}=\mathbf{x}(\tfrac{i}{N})

、

\Delta t=\tfrac{1}{N}

和

t\in\{0,\tfrac{1}{N},\ldots,\tfrac{N-1}{N}\}

，那么我们可以将递归重写为

\displaystyle\mathbf{x}(t+\Delta t)=\left(1-\frac{\beta\Delta t}{2}\right)\mathbf{x}(t).

重新排列条款将给我们

\displaystyle\frac{\mathbf{x}(t+\Delta t)-\mathbf{x}(t)}{\Delta t}=-\frac{\beta}{2}\mathbf{x}(t),

其中，当

\Delta t\rightarrow 0

趋于极限时，我们可以将离散方程写成常微分方程 (ODE)

\frac{d\mathbf{x}(t)}{dt}=-\frac{\beta}{2}\mathbf{x}(t).

(90) 不仅如此，我们还可以求解 ODE 的解析解，其解由下式给出

\mathbf{x}(t)=e^{-\frac{\beta}{2}t}.

(91) 如果你不相信我们，只需将等式 (91) 代入等式 (90)，你就可以证明等式成立。 ODE 的强大之处在于它为我们提供了解析解决方案。解析解不采用迭代方案（这将需要数百到数千次迭代），而是准确地告诉我们解在任何时间

t

的行为。为了说明这一事实，我们在下图中显示了算法定义的解

\mathbf{x}_{1},\mathbf{x}_{2},\ldots,\mathbf{x}_{i},\ldots,\mathbf{x}_{N}

的轨迹。这里，我们选择

\Delta t=0.1

。在同一个图中，我们直接绘制任意

t

的连续时间解

\mathbf{x}(t)=\exp\{-\beta t/2\}

。如你所见，解析解与迭代方案预测的轨迹完全相同。 [Uncaptioned image]

我们在这个激励人心的例子中观察到两个有趣的事实：

•

离散时间迭代方案可以写成连续时间常微分方程。事实证明，对于任何有限差分方程，我们都可以将递归转化为 ODE。
•

对于简单的 ODE，我们可以写出封闭形式的解析解。更复杂的 ODE 将很难编写解析解。但我们仍然可以使用 ODE 工具来分析解的行为。我们还可以推导出极限解 $t\rightarrow 0$ 。

示例 2：梯度下降。回想一下，（表现良好的）凸函数

f

的梯度下降算法是以下递归。对于

i=1,2,\ldots,N

，执行

\mathbf{x}_{i}=\mathbf{x}_{i-1}-\beta_{i-1}\nabla f(\mathbf{x}_{i-1}),

(92) 对于步长参数

\beta_{i}

。使用与之前示例相同的离散化方法，我们可以证明（通过令

\beta_{i-1}=\beta(t)\Delta t

）：

\displaystyle\mathbf{x}_{i}=\mathbf{x}_{i-1}-\beta_{i-1}\nabla f(\mathbf{x}_{i-1})

\displaystyle\qquad\Longrightarrow\qquad\mathbf{x}(t+\Delta t)=\mathbf{x}(t)-\beta(t)\Delta t\nabla f(\mathbf{x}(t))

\displaystyle\qquad\Longrightarrow\qquad\frac{\mathbf{x}(t+\Delta t)-\mathbf{x}(t)}{\Delta t}=-\beta(t)\nabla f(\mathbf{x}(t))

\displaystyle\qquad\Longrightarrow\qquad\frac{d\mathbf{x}(t)}{dt}=-\beta(t)\nabla f(\mathbf{x}(t)).

(93) 右边所示的常微分方程有一个解轨迹

\mathbf{x}(t)

。这个

\mathbf{x}(t)

被称为函数

f

的 梯度流。为简单起见，我们可以使所有

t

的

\beta(t)=\beta

相同。然后关于这个 ODE 有两个简单的结论。首先，我们可以证明

\displaystyle\frac{d}{dt}f(\mathbf{x}(t))

\displaystyle=\nabla f(\mathbf{x}(t))^{T}\frac{d\mathbf{x}(t)}{dt}

\displaystyle(\text{chain rule})

\displaystyle=\nabla f(\mathbf{x}(t))^{T}\left[-\beta\nabla f(\mathbf{x}(t))\right]

\displaystyle(\text{Eqn \eqref{eq: GD ODE main}})

\displaystyle=-\beta\nabla f(\mathbf{x}(t))^{T}\nabla f(\mathbf{x}(t))

\displaystyle=-\beta\|\nabla f(\mathbf{x}(t))\|^{2}\leq 0

\displaystyle(\text{norm-squares}).

因此，当我们从

\mathbf{x}_{i-1}

移动到

\mathbf{x}_{i}

时，目标值

f(\mathbf{x}(t))

必须下降。这与我们的预期一致，因为梯度下降算法应该随着迭代的进行而降低成本。其次，当

t\rightarrow\infty

趋于极限时，我们知道

\frac{d\mathbf{x}(t)}{dt}\rightarrow 0

。因此，

\frac{d\mathbf{x}(t)}{dt}=-\nabla f(\mathbf{x}(t))

将意味着

\nabla f(\mathbf{x}(t))\rightarrow 0,\qquad\text{as }t\rightarrow\infty.

(94) 因此，解轨迹

\mathbf{x}(t)

将逼近函数

f

的最小化点。

向前和向后更新。

让我们使用梯度下降示例来说明 ODE 的另一个方面。回到方程 (92)，我们认识到递归可以等效地写成（假设 $\beta(t)=\beta)$ ）：

\underset{\Delta\mathbf{x}}{\underbrace{\mathbf{x}_{i}-\mathbf{x}_{i-1}}}=-\underset{\beta\Delta t}{\underbrace{\beta_{i-1}}}\nabla f(\mathbf{x}_{i-1})\;\;\Rightarrow\;\;d\mathbf{x}=-\beta\nabla f(\mathbf{x})dt,

(95)

其中连续方程在我们将 $\Delta t\rightarrow 0$ 和 $\Delta\mathbf{x}\rightarrow 0$ 设置为时成立。关于这个等式有趣的点是它通过用 $d t$ 表示来为我们提供更新 $\Delta\mathbf{x}$ 的摘要。它表明，如果我们沿着时间轴移动 $d t$ ，那么解 $\mathbf{x}$ 将更新为 $d\mathbf{x}$ 。

等式 (95) 定义了变化之间的关系。如果我们考虑一系列迭代 $i=1,2,\ldots,N$ ，并且如果我们被告知迭代的进程遵循等式 (95)，那么我们可以写出

	$\displaystyle\text{(forward)}\hskip 56.9055pt\mathbf{x}_{i}=\mathbf{x}_{i-1}+\Delta\mathbf{x}_{i-1}$	$\displaystyle\approx\mathbf{x}_{i-1}+d\mathbf{x}$
		$\displaystyle=\mathbf{x}_{i-1}-\nabla f(\mathbf{x}_{i-1})\beta dt$
		$\displaystyle\approx\mathbf{x}_{i-1}-\beta_{i-1}\nabla f(\mathbf{x}_{i-1}).$

我们称之为正向方程，因为我们通过 $\mathbf{x}+\Delta\mathbf{x}$ 更新 $\mathbf{x}$ ，假设 $t\leftarrow t+\Delta t$ 。

现在，考虑一个迭代序列 $i=N,N-1,\ldots,2,1$ 。如果我们被告知迭代的进程遵循等式 (95)，那么时间反转迭代将是

	$\displaystyle\text{(reverse)}\hskip 56.9055pt\mathbf{x}_{i-1}=\mathbf{x}_{i}-\Delta\mathbf{x}_{i}$	$\displaystyle\approx\mathbf{x}_{i}+d\mathbf{x}$
		$\displaystyle=\mathbf{x}_{i}+\beta\nabla f(\mathbf{x}_{i})dt$
		$\displaystyle\approx\mathbf{x}_{i}+\beta_{i}\nabla f(\mathbf{x}_{i}).$

注意反转前进方向时符号的变化。我们称之为逆向方程。

4.2 SDE 中的前向和后向迭代

扩散微分方程的概念与上面的梯度下降算法相差不远。如果我们在梯度下降算法中引入噪声项 $\mathbf{z}_{t}\sim\mathcal{N}(0,\mathbf{I})$ ，那么 ODE 将变为随机微分方程 (SDE)。为了看到这一点，我们只需遵循相同的离散化方案，将 $\mathbf{x}(t)$ 定义为 $0\leq t\leq 1$ 的连续函数。假设区间内有 $N$ 个步，则区间 $[0,1]$ 可以分为序列 $\{\tfrac{i}{N}\,|\,i=0,\ldots,N-1\}$ 。离散化将给出我们 $\mathbf{x}_{i}=\mathbf{x}(\tfrac{i}{N})$ 和 $\mathbf{x}_{i-1}=\mathbf{x}(\tfrac{i-1}{N})$ 。区间步长为 $\Delta t=\tfrac{1}{N}$ ，所有 $t$ 的集合为 $t\in\{0,\tfrac{1}{N},\ldots,\tfrac{N-1}{N}\}$ 。使用这些定义，我们可以写

		$\displaystyle\mathbf{x}_{i}$	$\displaystyle=\mathbf{x}_{i-1}-\tau\nabla f(\mathbf{x}_{i-1})+\mathbf{z}_{i-1}$
	$\displaystyle\qquad\Longrightarrow\qquad$	$\displaystyle\mathbf{x}(t+\Delta t)$	$\displaystyle=\mathbf{x}(t)-\tau\nabla f(\mathbf{x}(t))+\mathbf{z}(t).$

现在，让我们定义一个随机过程 $\mathbf{w}(t)$ ，使得对于非常小的 $\Delta t$ ， $\mathbf{z}(t)=\mathbf{w}(t+\Delta t)-\mathbf{w}(t)\approx\frac{d\mathbf{w}(t)}{dt}\Delta t$ 。在计算中，我们可以通过积分 $\mathbf{z}(t)$ （这是一个维纳过程）来生成这样的 $\mathbf{w}(t)$ 。通过定义 $\mathbf{w}(t)$ ，我们可以写出

	$\displaystyle\mathbf{x}(t+\Delta t)$	$\displaystyle=\mathbf{x}(t)-\tau\nabla f(\mathbf{x}(t))+\mathbf{z}(t)$
$\displaystyle\qquad\Longrightarrow\qquad$	$\displaystyle\mathbf{x}(t+\Delta t)-\mathbf{x}(t)$	$\displaystyle=-\tau\nabla f(\mathbf{x}(t))+\mathbf{w}(t+\Delta t)-\mathbf{w}(t)$
$\displaystyle\qquad\Longrightarrow\qquad$	$\displaystyle d\mathbf{x}$	$\displaystyle=-\tau\nabla f(\mathbf{x})dt+d\mathbf{w}.$

上面的等式揭示了 SDE 的通用形式。我们总结如下。前向扩散。 $d\mathbf{x}=\underset{\text{drift}}{\underbrace{\mathbf{f}(\mathbf{x},t)}}\;dt+\underset{\text{diffusion}}{\underbrace{g(t)}}\;d\mathbf{w}.$ (96)

两项 $\mathbf{f}(\mathbf{x},t)$ 和 $g(t)$ 具有物理意义。阻尼系数是一个向量值函数 $\mathbf{f}(\mathbf{x},t)$ ，定义了在没有随机效应的情况下封闭系统中的分子如何移动。对于梯度下降算法，漂移由目标函数的负梯度定义。也就是说，我们希望解轨迹遵循目标的梯度。

扩散系数 $g(t)$ 是一个标量函数，描述了分子如何从一个位置随机走到另一个位置。函数 $g(t)$ 决定了随机运动的强度。

示例。考虑方程

d\mathbf{x}=ad\mathbf{w},

其中

a=0.05

。迭代方案可以写为

\displaystyle\mathbf{x}_{i}-\mathbf{x}_{i-1}=a\underset{\overset{\text{def}}{=}\mathbf{z}_{i-1}\sim\mathcal{N}(0,\mathbf{I})}{\underbrace{(\mathbf{w}_{i}-\mathbf{w}_{i-1})}}\quad\Rightarrow\quad\mathbf{x}_{i}=\mathbf{x}_{i-1}+a\mathbf{z}_{i}.

我们可以如下绘制函数

\mathbf{x}_{i}

。初始点

\mathbf{x}_{0}=0

标记为红色，表示该过程在时间上向前推进。 [Uncaptioned image]

备注。如你所见，微分 $d\mathbf{w}=\mathbf{w}_{i}-\mathbf{w}_{i-1}$ 被定义为维纳过程，它是一个高斯白噪声向量。个体 $\mathbf{w}_{i}$ 不是高斯分布，但差值 $\mathbf{w}_{i}-\mathbf{w}_{i-1}$ 是高斯分布。

示例。考虑方程

d\mathbf{x}=-\frac{\alpha}{2}\mathbf{x}dt+\beta d\mathbf{w},

其中

\alpha=1

和

\beta=0.1

。这个方程可以写成

\displaystyle\mathbf{x}_{i}-\mathbf{x}_{i-1}=-\frac{\alpha}{2}\mathbf{x}_{i-1}+\beta\underset{\overset{\text{def}}{=}\mathbf{z}_{i-1}\sim\mathcal{N}(0,\mathbf{I})}{\underbrace{(\mathbf{w}_{i}-\mathbf{w}_{i-1})}}\quad\Rightarrow\quad\mathbf{x}_{i}=\left(1-\frac{\alpha}{2}\right)\mathbf{x}_{i-1}+\beta\mathbf{z}_{i-1}.

我们可以如下绘制函数

\mathbf{x}_{i}

。

扩散方程的反方向是时间向后移动。根据Anderson[17]，逆时SDE 如下所示。反向SDE。 $d\mathbf{x}=[\underset{\text{drift}}{\underbrace{\mathbf{f}(\mathbf{x},t)}}-g(t)^{2}\underset{\text{score function}}{\underbrace{\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})}}]\;dt\;\;\;\;+\underset{\text{reverse-time diffusion}}{\underbrace{g(t)d\overline{\mathbf{w}}}},$ (97) 其中 $p_{t}(\mathbf{x})$ 是 $\mathbf{x}$ 在时间 $t$ 的概率分布，而 $\overline{\mathbf{w}}$ 是时间反向流动时的维纳过程。

示例。考虑反向扩散方程

d\mathbf{x}=ad\overline{\mathbf{w}}.

(98) 我们可以将离散时间递归写成如下。对于

i=N,N-1,\ldots,1

，执行

\displaystyle\mathbf{x}_{i-1}=\mathbf{x}_{i}+a\underset{=\mathbf{z}_{i}}{\underbrace{(\mathbf{w}_{i-1}-\mathbf{w}_{i})}}=\mathbf{x}_{i}+a\mathbf{z}_{i},\quad\mathbf{z}_{i}\sim\mathcal{N}(0,\mathbf{I}).

下图中我们展示了这个逆时过程的轨迹。请注意，红色标记的初始点位于

\mathbf{x}_{N}

。该过程向后追踪到

\mathbf{x}_{0}

。

4.3 DDPM 的随机微分方程

为了绘制 DDPM 和 SDE 之间的联系，我们考虑离散时间 DDPM 迭代。对于 $i=1,2,\ldots,N$ ：

\mathbf{x}_{i}=\sqrt{1-\beta_{i}}\mathbf{x}_{i-1}+\sqrt{\beta_{i}}\mathbf{z}_{i-1},\qquad\mathbf{z}_{i-1}\sim\mathcal{N}(0,\mathbf{I}).

(99)

我们可以证明这个方程可以从下面的正向 SDE 方程导出。 DDPM 的前向采样方程可以写成 SDE： $d\mathbf{x}=\underset{=\mathbf{f}(\mathbf{x},t)}{\underbrace{-\frac{\beta(t)}{2}\;\mathbf{x}}}\;dt+\underset{=g(t)}{\underbrace{\sqrt{\beta(t)}}}d\mathbf{w}.$ (100)

为了说明为什么是这样，我们定义一个步长 $\Delta t=\tfrac{1}{N}$ ，并考虑一个辅助噪声级别 $\{\overline{\beta}_{i}\}_{i=1}^{N}$ ，其中 $\beta_{i}=\tfrac{\overline{\beta}_{i}}{N}$ 。然后

\beta_{i}=\underset{\overline{\beta}_{i}}{\underbrace{\beta\left(\tfrac{i}{N}\right)}}\cdot\frac{1}{N}=\beta(t+\Delta t)\Delta t,

其中我们假设在 $N\rightarrow\infty$ 中， $\overline{\beta}_{i}=\rightarrow\beta(t)$ 是 $0\leq t\leq 1$ 的连续时间函数。同样，我们定义

\displaystyle\mathbf{x}_{i}=\mathbf{x}\left(\tfrac{i}{N}\right)=\mathbf{x}(t+\Delta t),\quad\mathbf{z}_{i}=\mathbf{z}\left(\tfrac{i}{N}\right)=\mathbf{z}(t+\Delta t).

因此，我们有

	$\displaystyle\mathbf{x}_{i}$	$\displaystyle=\sqrt{1-\beta_{i}}\mathbf{x}_{i-1}+\sqrt{\beta_{i}}\mathbf{z}_{i-1}$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\mathbf{x}_{i}$	$\displaystyle=\sqrt{1-\tfrac{\overline{\beta}_{i}}{N}}\mathbf{x}_{i-1}+\sqrt{\tfrac{\overline{\beta}_{i}}{N}}\mathbf{z}_{i-1}$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\mathbf{x}(t+\Delta t)$	$\displaystyle=\sqrt{1-\beta(t+\Delta t)\cdot\Delta t}\;\mathbf{x}(t)+\sqrt{\beta(t+\Delta t)\cdot\Delta t}\;\mathbf{z}(t)$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\mathbf{x}(t+\Delta t)$	$\displaystyle\approx\left(1-\frac{1}{2}\beta(t+\Delta t)\cdot\Delta t\right)\;\mathbf{x}(t)+\sqrt{\beta(t+\Delta t)\cdot\Delta t}\;\mathbf{z}(t)$
$\displaystyle\Rightarrow\qquad$	$\displaystyle\mathbf{x}(t+\Delta t)$	$\displaystyle\approx\mathbf{x}(t)-\frac{1}{2}\beta(t)\Delta t\;\mathbf{x}(t)+\sqrt{\beta(t)\cdot\Delta t}\;\mathbf{z}(t).$

因此，当 $\Delta t\rightarrow 0$ 时，我们有

d\mathbf{x}=-\frac{1}{2}\beta(t)\mathbf{x}dt+\sqrt{\beta(t)}\;d\mathbf{w}.

(101)

因此，我们证明了 DDPM 前向更新迭代可以等效地写为 SDE。

能够将 DDPM 前向更新迭代编写为 SDE 意味着 DDPM 估计可以通过求解 SDE 来确定。换句话说，对于适当定义的 SDE 求解器，我们可以将 SDE 放入求解器中。适当选择的求解器返回的解将是 DDPM 估计。当然，我们不需要使用 SDE 求解器，因为 DDPM 迭代本身正在求解 SDE。它可能不是最好的 SDE 求解器，因为 DDPM 迭代只是一阶方法。尽管如此，如果我们对使用 SDE 求解器不感兴趣，我们仍然可以使用 DDPM 迭代来获得解。这是一个例子。

示例。考虑对于所有

i=0,\ldots,N-1

具有

\beta_{i}=0.05

的 DDPM 前向方程。我们通过从高斯混合中提取样本来初始化样本

\mathbf{x}_{0}

，使得

\mathbf{x}_{0}\sim\sum_{k=1}^{K}\pi_{k}\mathcal{N}(\mathbf{x}_{0}|\boldsymbol{\mu}_{k},\sigma_{k}^{2}\mathbf{I}),

其中

\pi_{1}=\pi_{2}=0.5

、

\sigma_{1}=\sigma_{2}=1

、

\boldsymbol{\mu}_{1}=3

和

\boldsymbol{\mu}_{2}=-3

。然后，使用方程

\mathbf{x}_{i}=\sqrt{1-\beta_{i}}\mathbf{x}_{i-1}+\sqrt{\beta_{i}}\mathbf{z}_{i-1},\qquad\mathbf{z}_{i-1}\sim\mathcal{N}(0,\mathbf{I}),

我们可以绘制轨迹和分布如下。 [Uncaptioned image]

通过代入适当的量： $\mathbf{f}(\mathbf{x},t)=-\frac{\beta(t)}{2}$ 和 $g(t)=\sqrt{\beta(t)}$ ，可从方程(97) 得出反向扩散方程。这会给我们

	$\displaystyle d\mathbf{x}$	$\displaystyle=[\mathbf{f}(\mathbf{x},t)-g(t)^{2}\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})]dt+g(t)d\overline{\mathbf{w}}$
		$\displaystyle=\left[-\frac{\beta(t)}{2}\;\mathbf{x}-\beta(t)\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})\right]dt+\sqrt{\beta(t)}d\overline{\mathbf{w}},$

这将为我们提供以下等式： DDPM 的逆采样方程可以写成 SDE： $d\mathbf{x}=-\beta(t)\left[\frac{\mathbf{x}}{2}+\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})\right]dt+\sqrt{\beta(t)}d\overline{\mathbf{w}}.$ (102)

通过考虑 $d\mathbf{x}=\mathbf{x}(t)-\mathbf{x}(t-\Delta t)$ 和 $d\overline{\mathbf{w}}=\mathbf{w}(t-\Delta t)-\mathbf{w}(t)=-\mathbf{z}(t)$ 可以写出迭代更新方案。然后，令 $dt=\Delta t$ ，我们可以证明

		$\displaystyle\mathbf{x}(t)-\mathbf{x}(t-\Delta t)$	$\displaystyle=-\beta(t)\Delta t\left[\frac{\mathbf{x}(t)}{2}+\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))\right]-\sqrt{\beta(t)\Delta t}\mathbf{z}(t)$
	$\displaystyle\Rightarrow\quad$	$\displaystyle\mathbf{x}(t-\Delta t)$	$\displaystyle=\mathbf{x}(t)+\beta(t)\Delta t\left[\frac{\mathbf{x}(t)}{2}+\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))\right]+\sqrt{\beta(t)\Delta t}\mathbf{z}(t).$

通过将这些项分组，并假设 $\beta(t)\Delta t\ll 1$ ，我们认识到

	$\displaystyle\mathbf{x}(t-\Delta t)$	$\displaystyle=\mathbf{x}(t)\left[1+\frac{\beta(t)\Delta t}{2}\right]+\beta(t)\Delta t\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))+\sqrt{\beta(t)\Delta t}\mathbf{z}(t)$
		$\displaystyle\approx\mathbf{x}(t)\left[1+\frac{\beta(t)\Delta t}{2}\right]+\beta(t)\Delta t\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))+{\color[rgb]{0,0,1}\tfrac{(\beta(t)\Delta t)^{2}}{2}\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))}+\sqrt{\beta(t)\Delta t}\mathbf{z}(t)$
		$\displaystyle=\left[1+\frac{\beta(t)\Delta t}{2}\right]\Big{(}\mathbf{x}(t)+\beta(t)\Delta t\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))\Big{)}+\sqrt{\beta(t)\Delta t}\mathbf{z}(t).$

然后，根据离散化方案，令 $t\in\{0,\ldots,\frac{N-1}{N}\}$ ， $\Delta t=1/N$ ， $\mathbf{x}(t-\Delta t)=\mathbf{x}_{i-1}$ ， $\mathbf{x}(t)=\mathbf{x}_{i}$ 和 $\beta(t)\Delta t=\beta_{i}$ ，我们可以证明

	$\displaystyle\mathbf{x}_{i-1}$	$\displaystyle=(1+\tfrac{\beta_{i}}{2})\Big{[}\mathbf{x}_{i}+\tfrac{\beta_{i}}{2}\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})\Big{]}+\sqrt{\beta_{i}}\mathbf{z}_{i}$
		$\displaystyle\approx\tfrac{1}{\sqrt{1-\beta_{i}}}\Big{[}\mathbf{x}_{i}+\tfrac{\beta_{i}}{2}\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})\Big{]}+\sqrt{\beta_{i}}\mathbf{z}_{i},$		(103)

其中 $p_{i}(\mathbf{x})$ 是在时间 $i$ 时 $\mathbf{x}$ 的概率密度函数。为了实际实现，我们可以用估计的分数函数 $\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i})$ 替换 $\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})$ 。

因此，我们恢复了与Song和Ermon在[8]中定义的DDPM迭代一致的DDPM迭代。这是一个有趣的结果，因为它允许我们使用得分函数连接 DDPM 的迭代。 Song 和 Ermon [8] 将 SDE 称为方差保留 (VP) SDE。

示例。根据前面的示例，我们使用以下命令执行反向扩散方程

\mathbf{x}_{i-1}=\tfrac{1}{\sqrt{1-\beta_{i}}}\Big{[}\mathbf{x}_{i}+\tfrac{\beta_{i}}{2}\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})\Big{]}+\sqrt{\beta_{i}}\mathbf{z}_{i},

其中

\mathbf{z}_{i}\sim\mathcal{N}(0,\mathbf{I})

。迭代的轨迹如下所示。 [Uncaptioned image]

4.4 SMLD 的随机微分方程

分数匹配 Langevin Dynamics 模型也可以通过 SDE 来描述。首先，我们注意到在 SMLD 设置中，并不存在真正的“前向扩散步骤”。然而，我们可以粗略地认为，如果我们将 SMLD 训练中的噪声尺度划分为 $N$ 级别，那么递归应该遵循马尔可夫链

\mathbf{x}_{i}=\mathbf{x}_{i-1}+\sqrt{\sigma_{i}^{2}-\sigma_{i-1}^{2}}\mathbf{z}_{i-1},\qquad i=1,2,\ldots,N.

(104)

这并不难看出。如果我们假设 $\mathbf{x}_{i-1}$ 的方差为 $\sigma_{i-1}^{2}$ ，那么我们可以证明

	$\displaystyle\mathrm{Var}[\mathbf{x}_{i}]$	$\displaystyle=\mathrm{Var}[\mathbf{x}_{i-1}]+(\sigma_{i}^{2}-\sigma_{i-1}^{2})$
		$\displaystyle=\sigma_{i-1}^{2}+(\sigma_{i}^{2}-\sigma_{i-1}^{2})=\sigma_{i}^{2}.$

因此，给定一系列噪声水平，方程式 (104) 将确实生成估计值 $\mathbf{x}_{i}$ ，以使噪声统计量满足所需的属性。

如果我们同意方程式 (104)，那么很容易推导出与方程式 (104) 相关的 SDE。假设在极限 $\{\sigma_{i}\}_{i=1}^{N}$ 成为 $0\leq t\leq 1$ 的连续时间 $\sigma(t)$ ，并且 $\{\mathbf{x}_{i}\}_{i=1}^{N}$ 成为 $\mathbf{x}(t)$ ，其中 $\mathbf{x}_{i}=\mathbf{x}(\tfrac{i}{N})$ 如果我们令 $t\in\{0,\tfrac{1}{N},\ldots,\tfrac{N-1}{N}\}$ 。然后我们有

	$\displaystyle\mathbf{x}(t+\Delta t)$	$\displaystyle=\mathbf{x}(t)+\sqrt{\sigma(t+\Delta t)^{2}-\sigma(t)^{2}}\mathbf{z}(t)$
		$\displaystyle\approx\mathbf{x}(t)+\sqrt{\frac{d[\sigma(t)^{2}]}{dt}\Delta t}\;\mathbf{z}(t).$

在极限 $\Delta t\rightarrow 0$ 时，方程收敛到

d\mathbf{x}=\sqrt{\frac{d[\sigma(t)^{2}]}{dt}}\;d\mathbf{w}.

我们将结果总结如下。 SMLD 的前向采样方程可以写成 SDE： $d\mathbf{x}=\sqrt{\frac{d[\sigma(t)^{2}]}{dt}}\;d\mathbf{w}.$ (105) 将其映射到方程式 (96)，我们认识到

\displaystyle\mathbf{f}(\mathbf{x},t)=0,\qquad\text{and}\qquad g(t)=\sqrt{\frac{d[\sigma(t)^{2}]}{dt}}.

因此，如果我们写出反向方程 Eqn (97)，我们应该有

	$\displaystyle d\mathbf{x}$	$\displaystyle=[\mathbf{f}(\mathbf{x},t)-g(t)^{2}\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})]\;dt\;\;+\;\;g(t)d\overline{\mathbf{w}}$
		$\displaystyle=-\left(\frac{d[\sigma(t)^{2}]}{dt}\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))\right)dt+\sqrt{\frac{d[\sigma(t)^{2}]}{dt}}\;d\overline{\mathbf{w}}.$

这将为我们提供以下逆方程： SMLD 的逆采样方程可以写成 SDE： $d\mathbf{x}=-\left(\frac{d[\sigma(t)^{2}]}{dt}\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x}(t))\right)dt+\sqrt{\frac{d[\sigma(t)^{2}]}{dt}}\;d\overline{\mathbf{w}}.$ (106) 对于离散时间迭代，我们首先定义 $\alpha(t)=\frac{d[\sigma(t)^{2}]}{dt}$ 。然后，使用与 DDPM 情况相同的一组离散化设置，我们可以证明

	$\displaystyle\mathbf{x}(t+\Delta t)-\mathbf{x}(t)$	$\displaystyle=-\Big{(}\alpha(t)\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})\Big{)}\Delta t-\sqrt{\alpha(t)\Delta t}\;\mathbf{z}(t)$
$\displaystyle\Rightarrow\quad$	$\displaystyle\mathbf{x}(t)$	$\displaystyle=\mathbf{x}(t+\Delta t)+\alpha(t)\Delta t\nabla_{\mathbf{x}}\log p_{t}(\mathbf{x})+\sqrt{\alpha(t)\Delta t}\;\mathbf{z}(t)$
$\displaystyle\Rightarrow\quad$	$\displaystyle\mathbf{x}_{i-1}$	$\displaystyle=\mathbf{x}_{i}+\alpha_{i}\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})+\sqrt{\alpha_{i}}\;\mathbf{z}_{i}$	(107)
$\displaystyle\Rightarrow\quad$	$\displaystyle\mathbf{x}_{i-1}$	$\displaystyle=\mathbf{x}_{i}+(\sigma_{i}^{2}-\sigma_{i-1}^{2})\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})+\sqrt{(\sigma_{i}^{2}-\sigma_{i-1}^{2})}\;\mathbf{z}_{i},$

这与SMLD反向更新方程相同。 Song 和 Ermon [8] 将 SDE 称为方差爆炸 (VE) SDE。

4.5求解SDE

在本小节中，我们简要讨论如何数值求解微分方程。为了使我们的讨论稍微容易一些，我们将重点关注 ODE。考虑以下常微分方程

\frac{d\mathbf{x}(t)}{dt}=\mathbf{f}(\mathbf{x}(t),t).

(108)

如果 ODE 是一个标量 ODE，那么 ODE 是 $\frac{dx(t)}{dt}=f(x(t),t)$ 。

欧拉方法。欧拉方法是求解 ODE 的一阶数值方法。给定 $\frac{dx(t)}{dt}=f(x(t),t)$ 和 $x(t_{0})=x_{0}$ ，欧拉方法通过对 $i=0,1,\ldots,N-1$ 的迭代方案来解决问题，使得

\displaystyle x_{i+1}=x_{i}+\alpha\cdot f(x_{i},t_{i}),\qquad 0,1,\ldots,N-1,

其中 $\alpha$ 是步长。让我们考虑一个简单的例子。

示例。 [18，示例 2.2] 考虑以下 ODE

\frac{dx(t)}{dt}=\frac{x(t)+t^{2}-2}{t+1}.

如果我们应用步长为

\alpha

的欧拉方法，那么迭代将采用以下形式

\displaystyle x_{i+1}=x_{i}+\alpha\cdot f(x_{i},t_{i})=x_{i}+\alpha\cdot\frac{(x_{i}+t_{i}^{2}-2)}{t_{i}+1}.

龙格-库塔（RK）方法。另一种常用的 ODE 求解器是 Runge-Kutta (RK) 方法。经典的 RK-4 算法通过迭代求解 ODE

\displaystyle x_{i+1}=x_{i}+\frac{\alpha}{6}\cdot\Big{(}k_{1}+2k_{2}+2k_{3}+k_{4}\Big{)},\qquad i=1,2,\ldots,N,

其中数量 $k_{1}$ 、 $k_{2}$ 、 $k_{3}$ 和 $k_{4}$ 定义为

	$\displaystyle k_{1}$	$\displaystyle=f(x_{i},t_{i}),$
	$\displaystyle k_{2}$	$\displaystyle=f\left(x_{i}+\alpha\tfrac{k_{1}}{2},\;t_{i}+\tfrac{\alpha}{2}\right),$
	$\displaystyle k_{3}$	$\displaystyle=f\left(x_{i}+\alpha\tfrac{k_{2}}{2},\;t_{i}+\tfrac{\alpha}{2}\right),$
	$\displaystyle k_{4}$	$\displaystyle=f\left(x_{i}+\alpha k_{3},\;t_{i}+\alpha\right).$

详细内容可以查阅[18]等数值方法教材。

预测校正算法。由于不同的数值求解器在近似误差方面有不同的行为，因此将 ODE（或 SDE）放入现成的数值求解器将导致不同程度的误差[19]。然而，如果我们特别试图解决反向扩散方程，我们可以使用数值 ODE/SDE 求解器以外的技术来进行适当的修正，如图 22 所示。

我们以 DDPM 为例。在 DDPM 中，反向扩散方程由下式给出

\mathbf{x}_{i-1}=\tfrac{1}{\sqrt{1-\beta_{i}}}\Big{[}\mathbf{x}_{i}+\tfrac{\beta_{i}}{2}\nabla_{\mathbf{x}}\log p_{i}(\mathbf{x}_{i})\Big{]}+\sqrt{\beta_{i}}\mathbf{z}_{i}.

我们可以将其视为反向扩散的欧拉方法。然而，如果我们已经训练了分数函数 $\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i},i)$ ，我们可以运行分数匹配方程，即

\mathbf{x}_{i-1}=\mathbf{x}_{i}+\epsilon_{i}\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i},i)+\sqrt{2\epsilon_{i}}\mathbf{z}_{i},

$M$ 次进行修正。算法 1 总结了这个想法。（请注意，我们已将得分函数替换为估计值。）

算法1 DDPM 的预测校正算法。

\mathbf{x}_{N}=\mathcal{N}(0,\mathbf{I})

。

for

i=N-1,\ldots,0

(\text{Prediction})\qquad\mathbf{x}_{i-1}=\tfrac{1}{\sqrt{1-\beta_{i}}}\Big{[}\mathbf{x}_{i}+\tfrac{\beta_{i}}{2}\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i},i)\Big{]}+\sqrt{\beta_{i}}\mathbf{z}_{i}.

(109)

for

m=1,\ldots,M

(\text{Correction})\qquad\mathbf{x}_{i-1}=\mathbf{x}_{i}+\epsilon_{i}\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i},i)+\sqrt{2\epsilon_{i}}\mathbf{z}_{i},

(110)

end for

对于 SMLD 算法，两个方程为：

	$\displaystyle\mathbf{x}_{i-1}$	$\displaystyle=\mathbf{x}_{i}+(\sigma_{i}^{2}-\sigma_{i-1}^{2})\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i},\sigma_{i})+\sqrt{\sigma_{i}^{2}-\sigma_{i-1}^{2}}\mathbf{z}$		$\displaystyle\text{Prediction},$
	$\displaystyle\mathbf{x}_{i-1}$	$\displaystyle=\mathbf{x}_{i}+\epsilon_{i}\nabla_{\mathbf{x}}\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x}_{i},\sigma_{i})+\sqrt{\epsilon_{i}}\;\mathbf{z}$		$\displaystyle\text{Correction}.$

我们可以像 DDPM 的预测校正算法一样，通过重复校正迭代几次来将它们配对。

加速 SDE 求解器。虽然通用 ODE 求解器可用于求解 ODE，但我们遇到的正向和反向扩散方程非常特殊。事实上，它们的形式是

\frac{d\mathbf{x}(t)}{dt}=\mathbf{a}(t)\mathbf{x}(t)+\mathbf{b}(t),\qquad\mathbf{x}(t_{0})=\mathbf{x}_{0},

(111)

对于某些函数 $\mathbf{a}(t)$ 和 $\mathbf{b}(t)$ 的选择，初始条件为 $\mathbf{x}(t_{0})=\mathbf{x}_{0}$ 。这不是一个复杂的 ODE。它只是一阶 ODE。在 [20] 中，Lu 等人观察到，由于 ODE 的特殊结构（他们称之为半线性结构），可以分别处理 $\mathbf{a}(t)\mathbf{x}(t)$ 和 $\mathbf{b}(t)$ 。为了理解事情是如何运作的，我们使用如下所示的教科书结果。定理 [常数的变化]([21，定理 1.2.3])。考虑 $[s,t]$ 范围内的 ODE： $\frac{dx(t)}{dt}=a(t)x(t)+b(t),\qquad\text{where}\;\;x(t_{0})=x_{0}.$ (112) 解由下式给出 $x(t)=x_{0}e^{A(t)}+e^{A(t)}\int_{t_{0}}^{t}e^{-A(\tau)}b(\tau)d\tau.$ (113) 其中 $A(t)=\int_{t_{0}}^{t}a(\tau)d\tau$ 。我们可以通过注意到进一步简化上面的第二项

\displaystyle e^{A(t)-A(\tau)}

\displaystyle=e^{\int_{t_{0}}^{t}a(r)dr-\int_{t_{0}}^{\tau}a(r)dr}=e^{\int_{\tau}^{t}a(r)dr}.

[20] 中提出的特别有趣的是从 [8] 导出的反向扩散方程：

\frac{d\mathbf{x}(t)}{dt}=f(t)\mathbf{x}(t)+\frac{g^{2}(t)}{2\sigma(t)}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\mathbf{x}(t),t),\qquad\mathbf{x}(t)\sim\mathcal{N}(0,\widetilde{\sigma}^{2}\mathbf{I}),

其中 $f(t)=\frac{d\log\alpha(t)}{dt}$ ，以及 $g^{2}(t)=\frac{d\sigma(t)^{2}}{dt}-2\frac{d\log\alpha(t)}{dt}\sigma(t)^{2}$ 。利用常量变分定理，我们可以通过以下公式精确求解时间 $t$ 的 ODE

\mathbf{x}(t)=e^{\int_{s}^{t}f(\tau)d\tau}\mathbf{x}(s)+\int_{s}^{t}\left(e^{\int_{\tau}^{t}f(r)dr}\frac{g^{2}(\tau)}{2\sigma(\tau)}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\mathbf{x}(\tau),\tau)\right)d\tau.

然后，通过定义 $\lambda_{t}=\log\alpha(t)/\sigma(t)$ ，并在 [20] 中概述的额外简化下，这个方程可以简化为

\displaystyle\mathbf{x}(t)=\frac{\alpha(t)}{\alpha(s)}\mathbf{x}(s)-\alpha(t)\int_{s}^{t}\left(\frac{d\lambda_{\tau}}{d\tau}\right)\frac{\sigma(\tau)}{\alpha(\tau)}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\mathbf{x}(tau))d\tau.

要评估该方程，只需运行数值积分器即可进行右侧所示的积分。当然，还有其他数值加速方法来求解 ODE，为简洁起见，我们将跳过这些方法。

恭喜！我们完了。这就是 SDE 的全部内容。

有些人可能想知道：为什么我们要将迭代方案映射到微分方程？有几个原因，有些是合理的，有些是推测的。

•

通过将多个扩散模型统一到同一个 SDE 框架，人们可以比较算法。在某些情况下，可以通过借鉴 SDE 文献以及概率抽样文献的思想来改进数值方案。例如，[8] 中的预测校正器方案是与马尔可夫链蒙特卡罗结合的混合 SDE 求解器。
•

根据[22]等一些论文，将扩散迭代映射到 SDE 可以提供更大的设计灵活性。
•

在上下文扩散算法之外，一般随机梯度下降算法都有相应的 SDE，例如 Fokker-Planck 方程。人们已经演示了如何以精确的封闭形式从理论上分析估计值的极限分布。这减轻了通过分析明确定义的极限分布来分析随机算法的难度。

5结论

本教程涵盖了最近文献中支持基于扩散的生成模型的开发的一些基本概念。考虑到文献数量巨大（并且正在迅速扩大），我们发现描述基本思想而不是重复使用 Python 演示尤为重要。我们从编写本教程中学到的一些教训是：

•

同一个扩散思想可以从多个角度独立推导，即VAE、DDPM、SMLD和SDE。尽管有些人可能有不同的争论，但没有特别的理由说明为什么一个人比另一个人更优越/更差。
•

去噪扩散起作用的主要原因是其增量很小，这在 GAN 和 VAE 时代是无法实现的。
•

尽管迭代去噪是当前最先进的技术，但该方法本身似乎并不是最终的解决方案。人类不会从纯粹的噪声中生成图像。此外，由于扩散模型的增量性质较小，尽管已经在知识蒸馏方面做出了一些努力来改善这种情况，但速度仍将是一个主要障碍。
•

关于从非高斯生成噪声的一些问题可能需要论证。如果引入高斯分布的全部原因是为了使推导变得更容易，那么为什么我们要通过让我们的生活变得更加困难而转向另一种类型的噪声呢？
•

扩散模型在反问题中的应用是很容易实现的。对于任何现有的逆解算器，例如即插即用 ADMM 算法，我们可以用显式扩散采样器替换降噪器。人们已经证明了基于这种方法改进的图像恢复结果。

参考

[1] D. P. Kingma and M. Welling, “An introduction to variational autoencoders,” Foundations and Trends in Machine Learning, vol. 12, no. 4, pp. 307–392, 2019. https://arxiv.org/abs/1906.02691.
[2] C. Doersch, “Tutorial on variational autoencoders,” 2016. https://arxiv.org/abs/1606.05908.
[3] D. P. Kingma and M. Welling, “Auto-encoding variational Bayes,” in ICLR, 2014. https://openreview.net/forum?id=33X9fd2-9FyZd.
[4] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” in NeurIPS, 2020. https://arxiv.org/abs/2006.11239.
[5] D. P. Kingma, T. Salimans, B. Poole, and J. Ho, “Variational diffusion models,” in NeurIPS, 2021. https://arxiv.org/abs/2107.00630.
[6] M. Delbracio and P. Milanfar, “Inversion by direct iteration: An alternative to denoising diffusion for image restoration,” Transactions on Machine Learning Research, 2023. https://openreview.net/forum?id=VmyFF5lL3F.
[7] S. H. Chan, Introduction to Probability for Data Science. Michigan Publishing, 2021. https://probability4datascience.com/.
[8] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-based generative modeling through stochastic differential equations,” in ICLR, 2021. https://openreview.net/forum?id=PxTIG12RRHS.
[9] P. Vincent, “A connection between score matching and denoising autoencoders,” Neural Computation, vol. 23, no. 7, pp. 1661–1674, 2011. https://www.iro.umontreal.ca/~vincentp/Publications/smdae_techreport.pdf.
[10] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, “Deep unsupervised learning using nonequilibrium thermodynamics,” in ICML, vol. 37, pp. 2256–2265, 2015. https://arxiv.org/abs/1503.03585.
[11] C. Luo, “Understanding diffusion models: A unified perspective,” 2022. https://arxiv.org/abs/2208.11970.
[12] J. Song, C. Meng, and S. Ermon, “Denoising diffusion implicit models,” in ICLR, 2023. https://openreview.net/forum?id=St1giarCHLP.
[13] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-resolution image synthesis with latent diffusion models,” in CVPR, pp. 10684–10695, 2022. https://arxiv.org/abs/2112.10752.
[14] C. Saharia, W. Chan, S. Saxena, L. Li, J. Whang, E. L. Denton, K. Ghasemipour, R. Gontijo Lopes, B. Karagol Ayan, T. Salimans, J. Ho, D. J. Fleet, and M. Norouzi, “Photorealistic text-to-image diffusion models with deep language understanding,” in NeurIPS, vol. 35, pp. 36479–36494, 2022. https://arxiv.org/abs/2205.11487.
[15] Y. Song and S. Ermon, “Generative modeling by estimating gradients of the data distribution,” in NeurIPS, 2019. https://arxiv.org/abs/1907.05600.
[16] Y. Song and S. Ermon, “Improved techniques for training score-based generative models,” in NeurIPS, 2020. https://arxiv.org/abs/2006.09011.
[17] B. Anderson, “Reverse-time diffusion equation models,” Stochastic Process. Appl., vol. 12, pp. 313–326, May 1982. https://www.sciencedirect.com/science/article/pii/0304414982900515.
[18] K. Atkinson, W. Han, and D. Stewart, Numerical solution of ordinary differential equations. Wiley, 2009. https://homepage.math.uiowa.edu/~atkinson/papers/NAODE_Book.pdf.
[19] T. Karras, M. Aittala, T. Aila, and S. Laine, “Elucidating the design space of diffusion-based generative models,” in NeurIPS, 2022. https://arxiv.org/abs/2206.00364.
[20] C. Lu, Y. Zhou, F. Bao, J. Chen, C. Li, and J. Zhu, “DPM-Solver: A fast ODE solver for diffusion probabilistic model sampling in around 10 steps,” in NeurIPS, 2022. https://arxiv.org/abs/2206.00927.
[21] G. Nagy, “MTH 235 differential equations,” 2024. https://users.math.msu.edu/users/gnagy/teaching/ade.pdf.
[22] M. S. Albergo, N. M. Boffi, and E. Vanden-Eijnden, “Stochastic interpolants: A unifying framework for flows and diffusions.” https://arxiv.org/abs/2303.08797.

$\displaystyle\text{ELBO}(\mathbf{x})$	$\displaystyle\overset{\text{def}}{=}\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{p(\mathbf{x},\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$	definition
	$\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{{\color[rgb]{0,0,1}p(\mathbf{x}\|\mathbf{z})p(\mathbf{z})}}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$	$\displaystyle\qquad p(\mathbf{x},\mathbf{z})=p(\mathbf{x}\|\mathbf{z})p(\mathbf{z})$
	$\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log p(\mathbf{x}\|\mathbf{z})\right]+\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log\frac{p(\mathbf{z})}{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\right]$	split expectation
	$\displaystyle=\mathbb{E}_{q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})}\left[\log{\color[rgb]{0,0,1}p_{\boldsymbol{\theta}}(\mathbf{x}\|\mathbf{z})}\right]-\mathbb{D}_{\text{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}\|\mathbf{x})\\|p(\mathbf{z})),$	definition of KL

$\displaystyle\log p_{\boldsymbol{\theta}}(\mathbf{x}\|\mathbf{z})$	$\displaystyle=\log\mathcal{N}(\mathbf{x}\,\|\,\text{decode}_{\boldsymbol{\theta}}(\mathbf{z}),\sigma_{\text{dec}}^{2}\mathbf{I})$
	$\displaystyle=\log\frac{1}{\sqrt{(2\pi\sigma_{\text{dec}}^{2})^{D}}}\exp\left\{-\frac{\\|\mathbf{x}-\text{decode}_{\boldsymbol{\theta}}(\mathbf{z})\\|^{2}}{2\sigma_{\text{dec}}^{2}}\right\}$
	$\displaystyle=-\frac{\\|\mathbf{x}-\text{decode}_{\boldsymbol{\theta}}(\mathbf{z})\\|^{2}}{2\sigma_{\text{dec}}^{2}}\;\;-\;\;\underset{\text{you can ignore this term}}{\underbrace{\log\sqrt{(2\pi\sigma_{\text{dec}}^{2})^{D}}}},$	(11)

	$\displaystyle q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0})$	$\displaystyle=\mathcal{N}\Big{(}\mathbf{x}_{t-1}\,\|\,\underset{\text{known}}{\underbrace{\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})}},\underset{\text{known}}{\underbrace{\sigma_{q}^{2}(t)\mathbf{I}}}\Big{)},$		(40)
	$\displaystyle p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t})$	$\displaystyle=\mathcal{N}\Big{(}\mathbf{x}_{t-1}\|\underset{\text{neural network}}{\underbrace{\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})}},\underset{\text{known}}{\underbrace{\sigma_{q}^{2}(t)\mathbf{I}}}\Big{)}.$		(41)

	$\displaystyle\mathbb{D}_{\text{KL}}\Big{(}q_{\boldsymbol{\phi}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0})\\|p_{\boldsymbol{\theta}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t})\Big{)}$
	$\displaystyle=\mathbb{D}_{\text{KL}}\Big{(}\mathcal{N}(\mathbf{x}_{t-1}\,\|\,\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0}),\sigma_{q}^{2}(t)\mathbf{I})\\|\mathcal{N}(\mathbf{x}_{t-1}\,\|\,\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t}),\sigma_{q}^{2}(t)\mathbf{I})\Big{)}$
	$\displaystyle=\frac{1}{2\sigma_{q}^{2}(t)}\\|\boldsymbol{\mu}_{q}(\mathbf{x}_{t},\mathbf{x}_{0})-\boldsymbol{\mu}_{\boldsymbol{\theta}}(\mathbf{x}_{t})\\|^{2},$		(42)

$\displaystyle J_{\text{ESM}}(\boldsymbol{\theta})$	$\displaystyle\overset{\text{def}}{=}\mathbb{E}_{q(\mathbf{x})}\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\\|^{2}$
	$\displaystyle=\int\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\\|^{2}\left[\frac{1}{M}\sum_{m=1}^{M}\frac{1}{h}K\left(\frac{\mathbf{x}-\mathbf{x}_{m}}{h}\right)\right]d\mathbf{x}$
	$\displaystyle=\frac{1}{M}\sum_{m=1}^{M}\int\\|\mathbf{s}_{\boldsymbol{\theta}}(\mathbf{x})-\nabla_{\mathbf{x}}\log q(\mathbf{x})\\|^{2}\frac{1}{h}K\left(\frac{\mathbf{x}-\mathbf{x}_{m}}{h}\right)d\mathbf{x}.$	(82)

	$\displaystyle\mathbf{x}_{t}\sim q(\mathbf{x}_{t}\|\mathbf{x}_{0})$	$\displaystyle=\mathcal{N}(\mathbf{x}_{t}\,\|\,\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0},\;\;(1-\overline{\alpha}_{t})\mathbf{I})$
		$\displaystyle=\sqrt{\overline{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{(1-\overline{\alpha}_{t})}\mathbf{z},\qquad\mathbf{z}\sim\mathcal{N}(0,\mathbf{I}).$


(a) $\mathcal{N}(1,1)$	(b) $0.6\mathcal{N}(2,0.5^{2})+0.4\mathcal{N}(-2,0.2^{2})$


(a) vector field of $\nabla_{\mathbf{x}}\log p(\mathbf{x})$	(b) $\mathbf{x}_{t}$ trajectory