[1505.02965] 1 Motivation

用于回归的**高斯过程**:

快速介绍

M. Ebden, 2008年8月

评论发送至 mebden@gmail.com

1 动机

图 1 说明了一个典型的预测问题: 给定在自变量 $x$ 的某些值处对因变量的一些噪声观察结果，我们对自变量在新的值 $x_{*}$ 处的最佳估计是什么？

如果我们期望底层函数 $f(x)$ 是线性的，并且可以对输入数据做一些假设，我们可以使用最小二乘法来拟合一条直线（线性回归）。此外，如果我们怀疑 $f(x)$ 也可能是二次、三次甚至非多项式的，我们可以使用模型选择原则在各种可能性之间进行选择。

高斯过程回归（GPR）比这更精细。与声称 $f(x)$ 与某些特定模型相关联（例如 $f(x)=mx+c$ ）不同，高斯过程可以通过让数据更清晰地“说话”来倾斜地、但严格地表示 $f(x)$ 。 GPR 仍然是一种监督学习的形式，但训练数据以更微妙的方式被利用。

因此，GPR 是一种不太“参数化”的工具。然而，它并不完全是自由形式的，如果我们不愿意对 $f(x)$ 做出任何基本假设，那么应该考虑更通用的技术，包括那些以最大熵原理为基础的技术；Sivia 和 Skilling (2006) 的第 6 章提供了一个介绍。

Refer to caption — 图 1: 给定六个噪声数据点（误差条用垂直线表示），我们感兴趣的是估计第七个数据点在 $x_{*}=0.2$ 处的值。

2 高斯过程的定义

高斯过程（GP）将多元高斯分布扩展到无限维。正式地，高斯过程在某个域中生成数据，使得范围的任何有限子集都遵循多元高斯分布。现在， $n$ ， $\mathbf{y}=\{y_{1},\ldots,y_{n}\}$ 因此，反向推理，这个数据集可以与一个GP配对。因此，GP既普遍又简单。

很多时候，假设这个配对GP的均值在任何地方都为零。在这种情况下，将一个观察结果与另一个观察结果联系起来的就是协方差函数， $k(x,x^{\prime})$ 。一个流行的选择是“平方指数”，

k(x,x^{\prime})=\sigma_{f}^{2}\exp\bigg{[}\frac{-(x-x^{\prime})^{2}}{2l^{2}}\bigg{]},

(1)

其中最大允许协方差被定义为 $\sigma_{f}^{2}$ - 对于在 $y$ 轴上覆盖广泛范围的函数，这应该很高。如果 $x\approx x^{\prime}$ ，那么 $k(x,x^{\prime})$ 接近这个最大值，这意味着 $f(x)$ 与 $f(x^{\prime})$ 几乎完全相关。这是好的：为了使我们的函数看起来平滑，邻居必须相似。现在如果 $x$ 距离 $x^{\prime}$ 很远，我们反而有 $k(x,x^{\prime})\approx 0$ ，即这两个点无法“看到”彼此。因此，例如，在新的 $x$ 值上的插值期间，距离较远的观察结果将具有可以忽略的影响。这种分离的影响程度将取决于长度参数 $l$ ，因此在(1)中内置了很大的灵活性。

尽管如此，灵活性还不够：数据通常也很嘈杂，例如来自测量误差。每个观察结果 $y$ 可以被认为是通过高斯噪声模型与基础函数 $f(x)$ 相关的：

y=f(x)+\mathcal{N}(0,\sigma_{n}^{2}),

(2)

对于那些以前做过回归的人来说，这应该看起来很熟悉。回归是寻找 $f(x)$ 。纯粹是为了简化下一页的说明，我们采用了将噪声折叠到 $k(x,x^{\prime})$ 中的新颖方法，通过编写

k(x,x^{\prime})=\sigma_{f}^{2}\exp\bigg{[}\frac{-(x-x^{\prime})^{2}}{2l^{2}}\bigg{]}+\sigma_{n}^{2}\delta(x,x^{\prime}),

(3)

其中 $\delta(x,x^{\prime})$ 是克罗内克德尔塔函数。（当大多数人使用高斯过程时，他们将 $\sigma_{n}$ 与 $k(x,x^{\prime})$ 分开。然而，我们对 $k(x,x^{\prime})$ 的重新定义同样适合于处理图 1 中提出的问题。因此，给定 $n$ 观测值 $\mathbf{y}$ ，我们的目标是预测 $y_{*}$ ，而不是“实际” $f_{*}$ ；根据 (2)，它们的期望值是相同的，但由于观测噪声过程，它们的方差有所不同。例如在图 1 中， $y_{*}$ 和 $f_{*}$ 的预期值是 $x_{*}$ 处的点。）

为了准备 GPR，我们在这些点的所有可能组合中计算协方差函数 (3)，总结我们在三个矩阵中的发现：

K=\begin{bmatrix}k(x_{1},x_{1})&k(x_{1},x_{2})&\cdots&k(x_{1},x_{n})\\ k(x_{2},x_{1})&k(x_{2},x_{2})&\cdots&k(x_{2},x_{n})\\ \vdots&\vdots&\ddots&\vdots\\ k(x_{n},x_{1})&k(x_{n},x_{2})&\cdots&k(x_{n},x_{n})\end{bmatrix}

(4)

K_{*}=\begin{bmatrix}k(x_{*},x_{1})&k(x_{*},x_{2})&\cdots&k(x_{*},x_{n})\end{bmatrix}~{}~{}~{}~{}~{}~{}~{}~{}~{}~{}~{}~{}~{}~{}K_{**}=k(x_{*},x_{*}).

(5)

亲自确认 $K$ 的对角线元素是 $\sigma_{f}^{2}+\sigma_{n}^{2}$ ，并且当 $x$ 跨越足够大的域时，其极端非对角线元素趋向于零。

3 如何使用高斯过程进行回归

由于 GP 建模的关键假设是我们的数据可以表示为多元高斯分布的样本，因此我们有

\begin{bmatrix}\mathbf{y}\\ y_{*}\end{bmatrix}\sim\mathcal{N}\bigg{(}\mathbf{0},\begin{bmatrix}K&K_{*}^{\mathrm{T}}\\ K_{*}&K_{**}\end{bmatrix}\bigg{)},

(6)

其中 $\mathrm{T}$ 表示矩阵转置。我们当然对条件概率 $p(y_{*}|\mathbf{y})$ 感兴趣：“给定数据， $y_{*}$ 的某个预测的可能性有多大？”。正如附录中更慢地解释的那样，概率遵循高斯分布：

y_{*}|\mathbf{y}\sim\mathcal{N}(K_{*}K^{-1}\mathbf{y},~{}K_{**}-K_{*}K^{-1}K_{*}^{\mathrm{T}}).

(7)

我们对 $y_{*}$ 的最佳估计是该分布的平均值：

\overline{y}_{*}=K_{*}K^{-1}\mathbf{y},

(8)

我们估计的不确定性体现在其方差中：

\mathrm{var}(y_{*})=K_{**}-K_{*}K^{-1}K_{*}^{\mathrm{T}}.

(9)

现在我们已准备好处理图 1 中的数据。

1.

有 $n=6$ 个观测值 $\mathbf{y}$ ，在

$\mathbf{x}=\begin{bmatrix}-1.50&-1.00&-0.75&-0.40&-0.25&0.00\end{bmatrix}.$

我们知道 $\sigma_{n}=0.3$ 来自误差范围。通过谨慎选择 $\sigma_{f}$ 和 $l$ （稍后会详细说明），我们有足够的信息使用 (4) 计算协方差矩阵：

$K=\begin{bmatrix}{\color[rgb]{1,0,0}1.70}&1.42&1.21&0.87&0.72&0.51\\ 1.42&{\color[rgb]{1,0,0}1.70}&1.56&1.34&1.21&0.97\\ 1.21&1.56&{\color[rgb]{1,0,0}1.70}&1.51&1.42&1.21\\ 0.87&1.34&1.51&{\color[rgb]{1,0,0}1.70}&1.59&1.48\\ 0.72&1.21&1.42&1.59&{\color[rgb]{1,0,0}1.70}&1.56\\ 0.51&0.97&1.21&1.48&1.56&{\color[rgb]{1,0,0}1.70}\end{bmatrix}.$

从 (5) 我们也有 $K_{**}=1.70$ 和

$K_{*}=\begin{bmatrix}0.38&0.79&1.03&1.35&1.46&1.58\end{bmatrix}.$
2.

从 (8) 和 (9)， $\overline{y}_{*}=0.95$ 和 $\mathrm{var}(y_{*})=0.21$ 。
3.

图 1 展示了一个带有问号的数据点，代表在 $x_{*}=0.2$ 处对因变量的估计。

我们可以在 $x$ 轴上的某些部分重复上述过程，如图 2 所示。（实际上，等效地，我们可以通过一次执行上述过程来避免重复，使用适当更大的 $K_{*}$ 和 $K_{**}$ 矩阵。在这种情况下，由于有 1,000 个测试点分布在 $x$ 轴上， $K_{**}$ 的大小将为 1,000 $\times$ 1,000。）与绘制简单的误差范围相比，我们决定绘制 $\overline{y}_{*}\pm 1.96\sqrt{\mathrm{var}(y_{*})}$ ，给出 95% 的置信区间。

4 GPR 在现实世界中的应用

我们回归的可靠性取决于我们选择协方差函数的程度。显然，如果它的参数——我们称之为 $\boldsymbol{\theta}=\{l,\sigma_{f},\sigma_{n}\}$ ——没有被明智地选择，结果就是无稽之谈。我们对 $\boldsymbol{\theta}$ 的最大后验估计发生在 $p(\boldsymbol{\theta}|\mathbf{x},\mathbf{y})$ 最大时。贝叶斯定理告诉我们，假设我们对 $\boldsymbol{\theta}$ 应该是什么几乎没有先验知识，这对应于最大化 $\log p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta})$ ，由

\log p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta})=-\frac{1}{2}\mathbf{y}^{\mathrm{T}}K^{-1}\mathbf{y}-\frac{1}{2}\log|K|-\frac{n}{2}\log 2\pi.

(10)

只需对该方程运行你最喜欢的多元优化算法（例如共轭梯度、Nelder-Mead单纯形等），你就会找到一个相当不错的 $\boldsymbol{\theta}$ 的选择；在我们的例子中， $l=1$ 和 $\sigma_{f}=1.27$ 。

它只是“相当不错”，因为当然，托马斯·贝叶斯正在他的坟墓里翻滚。当你可以对 $\boldsymbol{\theta}$ 的许多不同可能选择进行积分时，为什么只推荐一个 $\boldsymbol{\theta}$ 的答案？ Rasmussen 和 Williams (2006) 的第 5 章介绍了这种情况下必要的方程。

最后，如果你觉得你已经掌握了图 2 中的玩具问题，接下来的两个例子将处理更复杂的情况。图 3(a)，除了长期下降趋势，还有一些波动，因此我们可能会使用更复杂的协方差函数：

k(x,x^{\prime})={\sigma_{f}}_{1}^{2}\exp\bigg{[}\frac{-(x-x^{\prime})^{2}}{2l_{1}^{2}}\bigg{]}+{\sigma_{f}}_{2}^{2}\exp\bigg{[}\frac{-(x-x^{\prime})^{2}}{2l_{2}^{2}}\bigg{]}+\sigma_{n}^{2}\delta(x,x^{\prime}).

(11)

第一项考虑了因变量的小波动，第二项具有更长的长度参数 ( $l_{2}\approx 6l_{1}$ ) 来表示其长期趋势。协方差函数可以通过这种方式无限增长，以适应特定数据的复杂性。

该函数看起来好像可能包含一个周期性元素，但很难确定。让我们考虑另一个函数，我们被告知它有一个周期性元素。图 3(b) 中的实线是用以下协方差函数回归的：

k(x,x^{\prime})=\sigma_{f}^{2}\exp\bigg{[}\frac{-(x-x^{\prime})^{2}}{2l^{2}}\bigg{]}+\exp\{-2\sin^{2}[\nu\pi(x-x^{\prime})]\}+\sigma_{n}^{2}\delta(x,x^{\prime}).

(12)

第一项表示长期内的类似山丘的趋势，第二项以频率 $\nu$ 给出周期性。这是我们第一次遇到 $x$ 和 $x^{\prime}$ 距离很远，但仍然可以“看到”彼此的情况（即 $k(x,x^{\prime})\not\approx 0$ 对于 $x\gg x^{\prime}$ ）。

如果因变量有其他动态，先验地，您预计会出现的？ $k(x,x^{\prime})$ 可以变得多么复杂都没有限制，只要 $K$ 是正定的。 Rasmussen 和 Williams (2006) 的第 4 章概述了您应该在工具箱中保留的协方差函数范围。

“等等，”你问道，“从工具箱中选择一个协方差函数，是否很像选择模型类型，例如线性与立方——我们在开始时讨论过？”好吧，确实存在相似之处。事实上，如果没有对数据集施加至少一点结构，就无法执行回归；这是生成模型的本质。然而，值得重复的是，高斯过程确实允许数据非常清晰地表达。例如，在许多环境中使用 (1) 存在着良好的理论依据 (Rasmussen 和 Williams (2006)，第 4.3 节）。您仍然需要仔细调查哪些协方差函数适合您的数据集。本质上，在替代函数之间进行选择是反映对正在研究的物理过程的各种先验知识的一种方式。

5 讨论

我们已经简要概述了 GPR 的数学原理，但上述想法的实际实现需要解决一些算法障碍，而不是数据分析的障碍。如果您不是优秀的计算机程序员，那么图 1 和 2 的代码位于 github.com/mebden/GPtutorial，更通用的代码可以在 www.gaussianprocess.org/gpml 找到。

我们仅仅触及了一种强大技术的表面 (MacKay, 1998)。首先，虽然重点是一维输入，但接受更高维度的输入很简单。其中 $x$ 将从标量变为向量， $k(x,x^{\prime})$ 将保持为标量，因此总体数学运算几乎不会改变。其次，表示 (6) 中多元高斯分布均值的零向量可以替换为 $x$ 的函数。第三，除了在回归中的应用之外，GP 还适用于积分、全局优化、混合专家模型、无监督学习模型等等——参见 Rasmussen 和 Williams (2006) 的第 9 章。下一个教程将重点介绍它们在分类中的应用。

参考文献

MacKay (1998) MacKay, D. (1998). In C.M. Bishop (Ed.), Neural networks and machine learning. (NATO ASI Series, Series F, Computer and Systems Sciences, Vol. 168, pp. 133-166.) Dordrecht: Kluwer Academic Press.
Rasmussen and Williams (2006) Rasmussen, C. and C. Williams (2006). Gaussian Processes for Machine Learning. MIT Press.
Sivia and Skilling (2006) Sivia, D. and J. Skilling (2006). Data Analysis: A Bayesian Tutorial (second ed.). Oxford Science Publications.

附录

想象一个从某些具有零均值和由矩阵 $D$ 给出的协方差的多元高斯分布中取出的数据样本 $\mathbf{d}$ 。现在任意地将 $\mathbf{d}$ 分解为两个连续的子向量 $\mathbf{a}$ 和 $\mathbf{b}$ ——换句话说，写 $\mathbf{d}\sim\mathcal{N}(\mathbf{0},D)$ 等同于写

\begin{bmatrix}\mathbf{a}\\ \mathbf{b}\end{bmatrix}\sim\mathcal{N}\bigg{(}\mathbf{0},\begin{bmatrix}A&C^{\mathrm{T}}\\ C&B\end{bmatrix}\bigg{)},

(13)

其中 $A$ 、 $B$ 和 $C$ 是构成 $D$ 的相应部分。

有趣的是，给定 $\mathbf{a}$ 的 $\mathbf{b}$ 的条件分布本身是高斯分布的。如果协方差矩阵 $D$ 是对角线甚至是对角线块，那么知道 $\mathbf{a}$ 不会告诉我们关于 $\mathbf{b}$ 的任何信息：具体来说， $\mathbf{b}|\mathbf{a}\sim\mathcal{N}(\mathbf{0},B)$ 。另一方面，如果 $C$ 不为零，那么一些矩阵代数将引导我们得到

\mathbf{b}|\mathbf{a}\sim\mathcal{N}(CA^{-1}\mathbf{a},~{}B-CA^{-1}C^{\mathrm{T}}).

(14)

均值， $CA^{-1}\mathbf{a}$ ，被称为“回归系数矩阵”，而方差， $B-CA^{-1}C^{\mathrm{T}}$ ，是“ $A$ 在 $D$ 中的 Schur 补”。

总之，如果我们知道 $\mathbf{d}$ 的一部分，我们可以利用它来推断我们对 $\mathbf{d}$ 的其余部分的估计，这要归功于 $D$ 的揭示性的非对角元素。

用于分类的高斯过程：

快速入门

M. Ebden，2008 年 8 月

前提阅读：用于回归的高斯过程

1 概述

如前文所述，GP 可以应用于回归以外的问题。例如，如果 GP 的输出被压缩到范围 $[0,1]$ 内，它可以表示数据点属于两个类型之一的概率，瞧，我们可以确定分类。这就是本文的主题。

GPR 和 GPC 之间的最大区别在于输出数据 $\mathbf{y}$ 如何与底层函数输出 $\mathbf{f}$ 相关联。它们不再像前文中 (2) 中那样通过噪声过程简单地连接，而是现在是离散的：对于一个类别来说精确地是 $y=1$ ，而对于另一个类别来说则是 $y=-1$ 。原则上，我们可以尝试拟合一个 GP，它在 $x$ 的某些值下产生大约为 $1$ 的输出，而在其他值下则产生大约为 $-1$ 的输出，模拟这种离散化。相反，我们在数据和压缩函数之间插入 GP；然后，对新数据点 $x_{*}$ 的分类需要两个步骤而不是一个步骤：

1.

评估一个“潜在函数” $f$ ，它对一个类别与另一个类别在 $x$ 轴上的可能性如何变化进行定性建模。这就是 GP。
2.

使用任何 S 型函数 $\pi(f)=\text{prob}(y=1|f)$ 将此潜在函数的输出压缩到 $[0,1]$ 。

用图表表示这两个步骤，

数据， $x_{*}$ $\xrightarrow{\text{GP}}$ 潜在函数， $f_{*}|x_{*}$ $\xrightarrow{\text{sigmoid}}$ 类别概率， $\pi(f_{*})$ 。

下一节将逐步详细地向您介绍这种分类器是如何工作的。第 3 节解释了如何训练分类器，因此我们可能是在反向顺序介绍内容！第 4 节处理当有超过两个类别时的分类。

在我们开始之前，关于 $\pi(f)$ 的一个快速说明。虽然其他形式也可以，但这里我们将规定它是累积高斯分布， $\Phi(f)$ 。这个 $S$ 形的函数满足了我们的需求，将高 $f$ 映射到 $\pi(f)\approx 1$ ，将低 $f$ 映射到 $\pi(f)\approx 0$ 。

第二个简短的说明，回顾第一份文档中的(6)和(7)：自己确认一下，如果没有任何噪声( $\sigma_{n}=0$ )，这两个方程可以改写为

\begin{bmatrix}\mathbf{f}\\ f_{*}\end{bmatrix}\sim\mathcal{N}\bigg{(}\mathbf{0},\begin{bmatrix}K&K_{*}^{\mathrm{T}}\\ K_{*}&K_{**}\end{bmatrix}\bigg{)}

(1)

和

f_{*}|\mathbf{f}\sim\mathcal{N}(K_{*}K^{-1}\mathbf{f},~{}K_{**}-K_{*}K^{-1}K_{*}^{\mathrm{T}}).

(2)

2 使用分类器

假设我们已经从 $n$ 输入数据 $\mathbf{x}$ 及其对应的专家标注的输出数据 $\mathbf{y}$ 训练了一个分类器。并假设在这个过程中我们形成了一些与这些数据对应的GP输出 $\mathbf{f}$ ，这些数据有一些不确定性，但平均值由 $\hat{\mathbf{f}}$ 给出。我们现在准备输入一个新的数据点 $x_{*}$ ，在我们示意图的左侧，以便在另一端确定其类别成员资格的概率 $\pi_{*}$ 。

在第一步中，找到概率 $p(f_{*}|\mathbf{f})$ 类似于GPR，即我们调整(2)：

p(f_{*}|\mathbf{f})=\mathcal{N}(K_{*}K^{-1}\hat{\mathbf{f}},~{}K_{**}-K_{*}(K^{\prime})^{-1}K_{*}^{\mathrm{T}}).

(3)

( $K^{\prime}$ 将很快解释，但现在把它看作与 $K$ 非常相似。) 在第二步中，我们将 $f_{*}$ 压缩以找到类别成员资格的概率 $\pi_{*}=\pi(f_{*})=\Phi(f_{*})$ 。预期值是

\overline{\pi}_{*}=\int\pi(f_{*})p(f_{*}|\mathbf{f})df_{*}.

(4)

这是一个累积高斯与高斯的积分，可以解析求解。根据Rasmussen and Williams (2006)的第3.9节，解为：

\overline{\pi}_{*}=\Phi\bigg{(}\frac{\overline{f}_{*}}{\sqrt{1+\mathrm{var}(f_{*})}}\bigg{)}.

(5)

图1展示了一个示例。

3 在分类器中训练 GP

我们的目标现在是找到 $\hat{\mathbf{f}}$ 和 $K^{\prime}$ ，这样我们就知道关于生成 (3) 的 GP 的一切信息，这是分类器的第一步。分类器的第二步不需要训练，因为它是一个固定的 S 型函数。

在与我们的数据集配对的众多 GP 中，自然地，我们希望定量地比较它们的效用。考虑到某个 GP 的输出 $\mathbf{f}$ ，它们对于训练数据是否合适的可能性可以使用贝叶斯定理分解：

p(\mathbf{f}|\mathbf{x},\mathbf{y})=\frac{p(\mathbf{y}|\mathbf{f})p(\mathbf{f}|\mathbf{x})}{p(\mathbf{y}|\mathbf{x})}.

(6)

让我们关注分子中的两个因素。假设数据集是 i.i.d.，

p(\mathbf{y}|\mathbf{f})=\prod_{i=1}^{n}p(y_{i}|f_{i}).

(7)

丢弃乘积中的下标， $p(y|f)$ 由我们的 S 型函数 $\pi(f)$ 提供信息。具体来说， $p(y=1|f)$ 按定义等于 $\pi(f)$ ，为了完整起见， $p(y=-1|f)=1-\pi(f)$ 。结合这两种情况的简洁方式是写 $p(y|f)=\Phi(yf)$ 。

分子中的第二个因素是 $p(\mathbf{f}|\mathbf{x})$ 。这与我们示意图的第一步的输出有关，但首先我们对最大化后验概率 $p(\mathbf{f}|\mathbf{x},\mathbf{y})$ 的 $p(\mathbf{f}|\mathbf{x})$ 值感兴趣。当 (6) 对 $\mathbf{f}$ 的导数为零时，或者等效地更简单地说，当它的对数的导数为零时，就会发生这种情况。做到这一点，并使用与上一篇文档中产生 (10) 相同的逻辑，我们发现

\hat{\mathbf{f}}=K\nabla\log p(\mathbf{y}|\hat{\mathbf{f}}),

(8)

其中 $\hat{\mathbf{f}}$ 是我们问题中最好的 $\mathbf{f}$ 。不幸的是， $\hat{\mathbf{f}}$ 出现在等式两侧，因此我们先做一个初始猜测（零是可以的）并进行几次迭代。 (8) 的答案可以直接用于 (3)，因此我们找到了其中我们寻求的两个量之一。

$\mathbf{f}$ 的方差由 (6) 的对数的负二阶导数给出，结果为 $(K^{-1}+W)^{-1}$ ，其中 $W=-\nabla\nabla\log p(\mathbf{y}|\mathbf{f})$ 。进行拉普拉斯近似，我们假装 $p(\mathbf{f}|\mathbf{x},\mathbf{y})$ 服从高斯分布，即

p(\mathbf{f}|\mathbf{x},\mathbf{y})\sim q(\mathbf{f}|\mathbf{x},\mathbf{y})=\mathcal{N}(\hat{\mathbf{f}},(K^{-1}+W)^{-1}).

(9)

（这个假设有时不准确，因此如果它产生较差的分类，应该考虑表征 $\mathbf{f}$ 中不确定性的更好方法，例如通过期望传播。）

现在谈到一个微妙的点。 $\mathbf{f}$ 可以变化的事实意味着直接使用 (2) 是不合适的：特别是，它的平均值是正确的，但它的方差不再能说明全部情况。这就是我们使用自适应版本 (3) 的原因，其中 $K^{\prime}$ 代替 $K$ 。由于 (2) 中变化的量 $\mathbf{f}$ 被 $K_{*}K^{-1}$ 乘以，因此我们将 $K_{*}K^{-1}\text{cov}(\mathbf{f})K^{-1}K_{*}^{\mathrm{T}}$ 添加到 (2) 中的方差。简化后得到 (3)，其中 $K^{\prime}=K+W^{-1}$ 。

现在 GP 已完全指定，我们已准备好使用上一节中描述的分类器。

现实世界中的 GPC

与 GPR 一样，我们分类的可靠性取决于我们在第一步中选择 GP 中协方差函数的程度。参数为 $\boldsymbol{\theta}=\{l,\sigma_{f}\}$ ，现在少了一个，因为 $\sigma_{n}=0$ 。但是，像往常一样， $\boldsymbol{\theta}$ 通过最大化 $p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta})$ 来优化，或者（省略等式右侧的 $\boldsymbol{\theta}$ ），

p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta})=\int p(\mathbf{y}|\mathbf{f})p(\mathbf{f}|\mathbf{x})d\mathbf{f}.

(10)

这可以使用拉普拉斯近似进行简化，得到

p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta})=-\frac{1}{2}\hat{\mathbf{f}}^{\mathrm{T}}K^{-1}\hat{\mathbf{f}}+\log p(\mathbf{y}|\hat{\mathbf{f}})-\frac{1}{2}\log(|K|\cdot|K^{-1}+W|).

(11)

这是在 GPR 中执行时运行您最喜欢的优化器的方程。

4 多类别GPC

我们已经描述了二元分类，其中可能的类别数， $C$ ，只有两个。在 $C>2$ 类的情况下，一种方法是为每个类拟合一个 $f$ 。在分类的两个步骤中的第一步，我们的GP值被串联起来作为

\mathbf{f}=(f_{1}^{1},\ldots,f_{n}^{1},f_{1}^{2},\ldots,f_{n}^{2},\ldots,f_{1}^{C},\ldots,f_{n}^{C})^{\mathrm{T}}.

(12)

令 $\mathbf{y}$ 为与 $\mathbf{f}$ 长度相同的向量，对于每个 $i=1,\ldots,n$ ，它对于类别标签为 $1$ ，对于其他 $C-1$ 项为 $0$ 。令 $K$ 在矩阵 $K^{1},\ldots,K^{C}$ 中增长为块对角线。因此，对于 $C>2$ 我们看到的第一个变化是GP的延长。 Rasmussen和 Williams（2006）的第3.5节提供了关于如何使计算可管理的提示。

第二个变化是，（仅仅是一维的）累积高斯分布不再足以描述我们分类器中挤压函数；相反，我们使用softmax函数。对于第 $i$ 个数据点，

p(y_{i}^{c}|\mathbf{f}_{i})=\pi_{i}^{c}=\frac{\exp(f_{i}^{c})}{\sum_{c^{\prime}}\exp(f_{i}^{c^{\prime}})}

(13)

其中 $\mathbf{f}_{i}$ 是 $\mathbf{f}$ 的非连续子集，即 $\mathbf{f}_{i}=\{f_{i}^{1},f_{i}^{2},\ldots,f_{i}^{C}\}$ 。我们可以用 $\boldsymbol{\pi}=\{\pi_{1}^{1},\ldots,\pi_{n}^{1},\pi_{1}^{2},\ldots,\pi_{n}^{2},\ldots,\pi_{1}^{C},\ldots,\pi_{n}^{C}\}$ 总结我们的结果。

现在，我们已经介绍了从二元到多类GPC所需的两个重大变化，我们继续像以前一样。将(6)中分量对数的导数设置为零，我们用以下公式替换(8)

\hat{\mathbf{f}}=K(\mathbf{y}-\hat{\boldsymbol{\pi}}).

(14)

相应的方差与以前一样为 $(K^{-1}+W)^{-1}$ ，但现在为 $W=\text{diag}(\boldsymbol{\pi})-\Pi\Pi^{\mathrm{T}}$ ，其中 $\Pi$ 是通过将对角矩阵 $\text{diag}(\boldsymbol{\pi}^{c})$ 垂直堆叠获得的 $Cn\times n$ 矩阵，如果 $\boldsymbol{\pi}^{c}$ 是与类别 $c$ 相关的 $\boldsymbol{\pi}$ 的子向量。

估计了这些量后，我们有足够的条件将(3)推广到

p(f_{*}^{c}|\mathbf{f})=\mathcal{N}\big{(}K_{*}^{c}(K^{c})^{-1}\hat{\mathbf{f}}^{c},~{}\text{diag}(K_{**})-(K_{*}^{c})^{\mathrm{T}}(K^{c}+(W^{c})^{-1})^{-1}(K_{*}^{c})^{\mathrm{T}}\big{)},

(15)

其中 $f_{*}^{c}$ ， $K_{*}^{c}$ 和 $W^{c}$ 仅代表与类别相关的的信息。最后，将 (11) 替换为

p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta})=-\frac{1}{2}\hat{\mathbf{f}}^{\mathrm{T}}K^{-1}\hat{\mathbf{f}}+\mathbf{y}^{\mathrm{T}}\hat{\mathbf{f}}-\sum_{i=1}^{n}\log\Bigg{[}\sum_{c=1}^{C}\exp\hat{f}_{i}^{c}\Bigg{]}-\frac{1}{2}\log\big{(}|K|\cdot|K^{-1}+W|\big{)}.

(16)

我们不会展示多类 GPC 的示例，但希望您能理解。

5 讨论

与 GPR 一样，分类可以扩展为接受具有多个维度的 $x$ 值，同时保持大部分数学不变。其他可能的扩展包括使用期望传播方法代替前面提到的拉普拉斯近似，对分类概率设置置信区间，计算 (16) 的导数以帮助优化器，或者使用 MacKay (1998) 中描述的变分高斯过程分类器，仅举四种扩展为例。

其次，我们重复之前文档中的贝叶斯调用，以对一系列可能的协方差函数进行积分参数。无论有多少先验知识都应该这样做——例如，参见 Sivia 和 Skilling (2006) 的第 5 章，了解如何在最不透明的情况下选择先验。

第三，我们再次为您省去了一些实用的算法细节；计算机代码可在 www.gaussianprocess.org/gpml 找到，并附有示例。

致谢

感谢 Stephen Roberts 教授和模式分析研究小组的成员，以及 ALADDIN 项目 (www.aladdinproject.org)。

参考文献

MacKay (1998) MacKay, D. (1998). In C.M. Bishop (Ed.), Neural networks and machine learning. (NATO ASI Series, Series F, Computer and Systems Sciences, Vol. 168, pp. 133-166.) Dordrecht: Kluwer Academic Press.
Rasmussen and Williams (2006) Rasmussen, C. and C. Williams (2006). Gaussian Processes for Machine Learning. MIT Press.
Sivia and Skilling (2006) Sivia, D. and J. Skilling (2006). Data Analysis: A Bayesian Tutorial (second ed.). Oxford Science Publications.

用于降维的高斯过程：

快速入门

M. Ebden，2015 年 8 月

预备阅读：用于回归的高斯过程

假设您想学习一个数据集的低维表示，以便于解释，就像您的影子是对三维物体的简化二维表示一样。令原始数据为矩阵 $\mathbf{Y}$ ，其中包含 $n$ 行（观测值），每行有 $d$ 个维度，令新的表示为 $\mathbf{X}$ ，其中包含 $n$ 行，每行有 $q$ 个维度 ( $q<d$ )。

为了学习这种低维表示，我们假设对于 $\mathbf{Y}$ 的 $i$ 维度， $\mathbf{y}_{:,i}$ 中的 $n$ 个元素是基于低维空间的高斯过程的样本。具体来说，我们将使用一个零均值高斯过程， $\mathcal{GP}\left(\mathbf{0}_{n\times 1},k(\mathbf{x},\mathbf{x}^{\prime})\right)$ ，为 $\mathbf{Y}$ 的每个维度保留相同的模型。我们将为 $k(\cdot)$ 选择平方指数核（又称 RBF 核），以确保 $\mathbf{X}$ 中接近的点在 $\mathbf{Y}$ 中也会接近。将噪声方差从 $\sigma_{n}^{2}$ （在第一份报告中）重命名为 $1/\beta$ ，则核为：

k(\mathbf{x},\mathbf{x}^{\prime})=\sigma^{2}\exp\bigg{[}\frac{-|\mathbf{x}-\mathbf{x}^{\prime}|^{2}}{2l^{2}}\bigg{]}+\frac{\delta(x,x^{\prime})}{\beta}.

此 GP 的协方差矩阵 $\mathbf{K}$ 按照第一份报告中的 (4) 构建，我们不需要 (5) 中的 $\mathbf{K}_{*}$ 或 $\mathbf{K}_{**}$ ，因为 $\mathbf{Y}$ 中没有要预测的点。这次的核参数元组是 $\boldsymbol{\theta}=\{\sigma,l,\beta\}$ 。

我们进一步假设每个 $d$ 维度背后的 GP 是独立采样的。因此， $\mathbf{Y}$ 中观测值的似然是 $d$ 个独立 GP 的乘积：

\text{p}(\mathbf{Y}|\mathbf{X},\boldsymbol{\theta})=\prod_{i=1}^{d}\frac{\exp\left[-\frac{1}{2}\mathbf{y}_{:,i}^{\text{T}}\mathbf{K}^{-1}\mathbf{y}_{:,i}\right]}{(2\pi)^{n/2}|\mathbf{K}|^{1/2}}.

然后我们可以调整 $\mathbf{X}$ 和 $\boldsymbol{\theta}$ 以最大化此似然。如果我们只调整 $\mathbf{X}$ ，它就类似于确定最有可能对应您身体形状的阴影。因为我们也调整了 $\boldsymbol{\theta}$ ，所以想象一下操控光源和阴影出现的表面。

图 1 给出了对于某个 $\mathbf{Y}$ 的最可能 $\mathbf{X}$ 的示例结果，其中 $n=17$ 、 $d=2$ 和 $q=1$ 。 $\mathbf{Y}$ 已预处理为每个维度均值为零且方差相同。使用基于缩放共轭梯度的优化器，随后找到了最优的 $\boldsymbol{\theta}$ 和 $\mathbf{X}$ 。前者是 $\{\sigma,l,\beta\}=\{1.05,3.3\times 10^{-4},93\}$ ，后者在图 1(b) 中给出。在这个例子中， $\mathbf{X}$ 不仅仅是 $\mathbf{Y}$ 的“阴影”（简单投影）：上述降维方法足够强大，可以了解到图 1(a) 中左侧曲线的点应该组合在一起，而右侧曲线的点形成一个独立的组；没有简单的灯光投影可以实现这一点。我们为这种灵活性付出的代价是大量参数需要拟合：总数为 $3+17\times 1=20$ ，即 $\boldsymbol{\theta}$ 加上 $\mathbf{X}$ 中的一维值。通常 $\mathbf{X}$ 被称为潜在变量而不是参数，我们的整体设置被称为“高斯过程潜在变量模型”（GP-LVM）。该技术最初由 Neil Lawrence 于 2004 年提出；他检查了一组油流数据，其中 $n=1000$ 和 $d=12$ ，我们将它们简化为图 2 中的 $q=2$ 。

本 GP-LVM 教程由牛津大学的技术衍生公司 Mind Foundry 提供。