[2102.05497] Contents

软开围栏，分隔符 =;

u 导言

高斯过程模型

作者

Thomas Beckers

t.beckers@tum.de

摘要

在过去的二十年中，由于一些有利的特性，如偏差方差权衡和与贝叶斯数学的紧密联系，高斯过程回归在建模动态系统中得到越来越广泛的应用。作为一种数据驱动的方法，高斯过程是一种强大的非线性函数回归工具，无需太多先验知识。与大多数其他技术相比，高斯过程建模不仅提供平均预测，还提供模型保真度的衡量指标。在本文中，我们将介绍高斯过程及其在动态系统回归任务中的应用。自己尝试： gpr.tbeckers.com

原创作品：2020 年 4 月

当前修订：2021 年 2 月 10 日

信息导向控制

慕尼黑工业大学主席

1 引言

高斯过程 (GP) 是一种随机过程，通常是指由时间或空间索引的一组随机变量。它的特殊属性是，这些变量的任何有限集合都服从多元高斯分布。因此，GP 是一个对无限多个变量的分布，因此也是一个对具有连续域的函数的分布。因此，它描述了无限维向量空间上的概率分布。对于工程应用，GP 作为一种监督机器学习技术，在贝叶斯推理中被用作函数的先验概率分布，因此获得了越来越多的关注。连续变量的推理导致了高斯过程回归 (GPR)，其中先验 GP 模型用训练数据更新，以获得后验 GP 分布。从历史上看，GPR 用于时间序列预测，最初由 Wiener 和 Kolmogorov 在 1940 年代提出。之后，它在 1970 年代的地统计学中变得越来越流行，在那里 GPR 被称为 克里金法。最近，它在机器学习领域卷土重来 [Rad96, WR96]，特别是在计算能力快速增长的推动下。

在本文中，我们介绍了关于 GP 和 GPR 的背景信息，主要基于 [Ras06]，重点介绍了在控制中的应用。我们首先介绍 GPs，解释底层内核函数的作用，并展示它与再生核希尔伯特空间的关系。之后，将介绍动态系统中的嵌入以及模型不确定性作为误差边界的解释。除了形式化符号之外，还包含了一些例子，以帮助直观理解。

2 高斯过程

设 $(\Omega_{\text{ss}},\mathcal{F}_{\sigma},P)$ 为一个概率空间，样本空间为 $\Omega_{\text{ss}}$ ，相应的 $\sigma$ -代数为 $\mathcal{F}_{\sigma}$ ，概率测度为 P。索引集由 $\mathcal{Z}\subseteq\mathbb{R}^{n_{z}}$ 给出，其中 ${n_{z}}$ 为正整数。那么，一个函数 $f_{\text{GP}}({\boldsymbol{z}},\omega_{\text{ss}})$ ，它是 $\omega_{\text{ss}}\in\Omega_{\text{ss}}$ 的可测函数，索引为 ${\boldsymbol{z}}\in\mathcal{Z}$ ，称为随机过程。如果指定了 ${\boldsymbol{z}}\in\mathcal{Z}$ ，则函数 $f_{\text{GP}}({\boldsymbol{z}},\omega_{\text{ss}})$ 是 $\Omega_{\text{ss}}$ 上的随机变量。它简化为 $f_{\text{GP}}({\boldsymbol{z}})$ 。 GP 是一个随机过程，它完全由均值函数 $m\colon\mathcal{Z}\to\mathbb{R}$ 和协方差函数 $k\colon\mathcal{Z}\times\mathcal{Z}\to\mathbb{R}$ 描述，使得

	$\displaystyle f_{\text{GP}}({\boldsymbol{z}})$	$\displaystyle\sim\mathcal{GP}\left(m({\boldsymbol{z}}),k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})\right)$		(1)
	$\displaystyle\begin{split}m({\boldsymbol{z}})&=\operatorname{E}\left[f_{\text{GP}}({\boldsymbol{z}})\right]\\ k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})&=\operatorname{E}\left[\left(f_{\text{GP}}({\boldsymbol{z}})-m({\boldsymbol{z}})\right)\left(f_{\text{GP}}({\boldsymbol{z}}^{\prime})-m({\boldsymbol{z}}^{\prime})\right)\right]\end{split}$			(2)

其中 ${\boldsymbol{z}},{\boldsymbol{z}}^{\prime}\in\mathcal{Z}$ 。协方差函数是衡量两个状态 $({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})$ 之间相关性的指标，与 GPs 结合称为内核。尽管 GP 的概率密度函数通常不存在解析描述，但它有一个有趣的性质，即它的任何有限个随机变量集合 $\{f_{\text{GP}}({\boldsymbol{z}}_{1}),\ldots,f_{\text{GP}}({\boldsymbol{z}}_{n_{\text{GP}}})\}$ 都服从 $n_{\text{GP}}$ -维多元高斯分布。由于 GP 定义了函数上的分布，因此每个实现也是索引集 $\mathcal{Z}$ 上的函数。一个时间为 $t_{c}\in\mathbb{R}_{\geq 0}$ 的 GP $f_{\text{GP}}(t_{c})\sim\mathcal{GP}\left(m(t_{c}),k(t_{c},t_{c}^{\prime})\right)$ ，其中

\displaystyle m(t_{c})=1$\mathrm{A}$,\quad k(t_{c},t_{c}^{\prime})=\begin{cases}(0.1$\mathrm{A}$)^{2}&t_{c}=t_{c}^{\prime}\\ (0$\mathrm{A}$)^{2}&t_{c}\neq t_{c}^{\prime}\end{cases}

描述了具有标准差为 $0.1\text{\,}\mathrm{A}$ 、均值为 $1\text{\,}\mathrm{A}$ 的高斯白噪声的时间依赖性电流信号。

2.1 高斯过程回归

GP 可以用作贝叶斯推理中的先验概率分布，这使得可以执行函数回归。遵循贝叶斯方法，新信息与现有信息相结合：使用贝叶斯定理，将先验与新数据相结合以获得后验分布。新信息表示为训练数据集 $\mathcal{D}=\{X,Y\}$ 。它包含输入值 $X=[{\boldsymbol{x}}_{\text{dat}}^{\{1\}},{\boldsymbol{x}}_{\text{dat}}^{\{2\}},\ldots,{\boldsymbol{x}}_{\text{dat}}^{\{n_{\mathcal{D}}\}}]\in\mathcal{Z}^{1\times{n_{\mathcal{D}}}}$ 和输出值 $Y=[\tilde{y}_{\text{dat}}^{\{1\}},\tilde{y}_{\text{dat}}^{\{2\}},\ldots,\tilde{y}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}}]^{\top}\in\mathbb{R}^{{n_{\mathcal{D}}}}$ ，其中

\displaystyle\tilde{y}_{\text{dat}}^{\{i\}}=f_{\text{GP}}({\boldsymbol{x}}_{\text{dat}}^{\{i\}})+\nu

(3)

对于所有 $i=1,\ldots,n_{\mathcal{D}}$ 。输出数据可能被高斯噪声 $\nu\sim\mathcal{N}(0,\sigma_{n}^{2})$ 损坏。

Remark 1.

请注意，我们始终使用标准符号 $X$ 来表示输入训练数据，并使用 $Y$ 来表示输出训练数据，在本文档中始终如此。

由于 GP 的任何有限子集都遵循多元高斯分布，因此我们可以写出联合分布

\displaystyle\begin{bmatrix}Y\vphantom{\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\end{bmatrix}}\\ f_{\text{GP}}({\boldsymbol{z}}^{*})\end{bmatrix}\sim\mathcal{N}\left(\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\\ m({\boldsymbol{z}}^{*})\end{bmatrix},\begin{bmatrix}K(X,X)+\sigma_{n}^{2}I_{n_{\mathcal{D}}}\vphantom{\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\end{bmatrix}}&{\boldsymbol{k}}({\boldsymbol{z}}^{*},X)\\ {\boldsymbol{k}}({\boldsymbol{z}}^{*},X)^{\top}&k({\boldsymbol{z}}^{*},{\boldsymbol{z}}^{*})\end{bmatrix}\right)

(4)

对于任何任意测试点 ${\boldsymbol{z}}^{*}\in\mathcal{Z}$ 。函数 $m\colon\mathcal{Z}\to\mathbb{R}$ 表示均值函数。矩阵函数 $K\colon\mathcal{Z}^{1\times{n_{\mathcal{D}}}}\times\mathcal{Z}^{1\times{n_{\mathcal{D}}}}\to\mathbb{R}^{{n_{\mathcal{D}}}\times{n_{\mathcal{D}}}}$ 称为协方差或 Gram 矩阵，其中

\displaystyle K_{j,l}(X,X)=k(X_{:,l},X_{:,j})\text{ for all }j,l\in\{1,\ldots,{n_{\mathcal{D}}}\}

(5)

其中矩阵的每个元素表示训练数据 $X$ 中两个元素之间的协方差。表达式 $X_{:,l}$ 表示 $l$ 列的 $X$ 。为了简化符号，我们在必要时将 $K(X,X)$ 简化为 $K$ 。矢量值内核函数 ${\boldsymbol{k}}\colon\mathcal{Z}\times\mathcal{Z}^{1\times{n_{\mathcal{D}}}}\to\mathbb{R}^{n_{\mathcal{D}}}$ 计算测试输入 ${\boldsymbol{z}}^{*}$ 与输入训练数据 $X$ 之间的协方差，即

\displaystyle{\boldsymbol{k}}({\boldsymbol{z}}^{*},X)=[k({\boldsymbol{z}}^{*},X_{:,1}),\ldots,k({\boldsymbol{z}}^{*},X_{:,{n_{\mathcal{D}}}})]^{\top}.

(6)

为了获得 $f_{\text{GP}}({\boldsymbol{z}}^{*})$ 的后验预测分布，我们根据测试点 ${\boldsymbol{z}}^{*}$ 和训练数据集 $\mathcal{D}$ 进行条件化，由

\displaystyle\operatorname{p}(f_{\text{GP}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})=\frac{\operatorname{p}(f_{\text{GP}}({\boldsymbol{z}}^{*}),Y|X,{\boldsymbol{z}}^{*})}{\operatorname{p}(Y|X)}.

(7)

因此，条件后验高斯分布由均值和方差定义

	$\displaystyle\operatorname{\mu}(f_{\text{GP}}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{},\mathcal{D})$	$\displaystyle=m({\boldsymbol{z}}^{})+{\boldsymbol{k}}({\boldsymbol{z}}^{},X)^{\top}(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}\left(Y-[m(X_{:,1}),\ldots,m(X_{:,{n_{\mathcal{D}}}})]^{\top}\right)$
	$\displaystyle\operatorname{var}(f_{\text{GP}}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{},\mathcal{D})$	$\displaystyle=k({\boldsymbol{z}}^{},{\boldsymbol{z}}^{})-{\boldsymbol{k}}({\boldsymbol{z}}^{},X)^{\top}(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}{\boldsymbol{k}}({\boldsymbol{z}}^{},X).$		(8)

基于联合分布 4 的后验均值和方差的详细推导可以在附录 A 中找到。分析 8 可以得出以下结论：

i) 均值预测可以写成

\displaystyle\operatorname{\mu}(f_{\text{GP}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})=m({\boldsymbol{z}}^{*})+\sum_{j=1}^{n_{\mathcal{D}}}\alpha_{j}k({\boldsymbol{z}}^{*},X_{:,j})

(9)

其中 ${\boldsymbol{\alpha}}=(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}\left(Y-[m(X_{:,1}),\ldots,m(X_{:,{n_{\mathcal{D}}}})]^{\top}\right)\in\mathbb{R}^{n_{\mathcal{D}}}$ 。该公式突出了 GPR 的数据驱动特性，因为后验均值是核函数的总和，其数量随着训练数据的数量 ${n_{\mathcal{D}}}$ 而增长。

ii) 方差并不依赖于观测数据，而只依赖于输入，这是高斯分布的特性。方差是两个项之间的差值：第一项 $k({\boldsymbol{z}}^{*},{\boldsymbol{z}}^{*})$ 只是先验协方差，从其中减去一个 (正) 项，表示观测值包含关于函数的信息。预测的不确定性，以方差表示，只适用于 $f_{\text{GP}}({\boldsymbol{z}}^{*})$ ，不考虑训练数据中的噪声。为此，可以在 8 中的方差中添加一个额外的噪声项 $\sigma_{n}^{2}I_{{n_{\mathcal{D}}}}$ 。最后，8清楚地表明了后验均值和方差对核 $k$ 的强烈依赖性，我们将在部分中深入讨论3。我们假设一个均值为零的 GP，其核函数由

\displaystyle k(z,z^{\prime})=0.3679^{2}\exp\left(-\frac{(z-z^{\prime})^{2}}{2\cdot 2.7183^{2}}\right)

作为先验分布。假设训练数据集 $\mathcal{D}$ 为

\displaystyle X=\begin{bmatrix}1&3&6&10\end{bmatrix},\quad Y=\begin{bmatrix}0&-0.3&0.3&-0.2\end{bmatrix}^{\top},

其中输出被标准差为 $\sigma_{n}=0.0498$ 的高斯噪声所破坏，并且假设测试点为 $z^{*}=5$ 。根据 5 到 8，Gram 矩阵 $K(X,X)$ 计算为

\displaystyle K(X,X)=\begin{bmatrix}0.1378&0.1032&0.0249&0.0006\\ 0.1032&0.1378&0.0736&0.0049\\ 0.0249&0.0736&0.1378&0.0458\\ 0.0006&0.0049&0.0458&0.1378\end{bmatrix}

并且核向量 ${\boldsymbol{k}}(z^{*},X)$ 和 $k(z^{*},z^{*})$ 被获得为

	$\displaystyle{\boldsymbol{k}}(z^{*},X)$	$\displaystyle=\begin{bmatrix}0.0458&0.1032&0.1265&0.0249\end{bmatrix}$
	$\displaystyle k(z^{},z^{})$	$\displaystyle=0.1378.$

最后，用 8，我们计算了 $f_{\text{GP}}(z^{*})$ 的预测均值和方差

\displaystyle\operatorname{\mu}(f_{\text{GP}}(z^{*})|z^{*},\mathcal{D})=0.0278,\quad\operatorname{var}(f_{\text{GP}}(z^{*})|z^{*},\mathcal{D})=0.0015,

这相当于 $2\sigma$ 标准差为 $0.0775$ 。图 1 显示了先验分布（左）、具有两个训练点（黑色十字）的后验分布（中间）以及给定完整训练集 $\mathcal{D}$ 的后验分布（右）。实线红色线是均值函数，灰色阴影区域表示 $2\sigma$ 标准差。五个实现（虚线）可视化了函数分布的特征。

[Uncaptioned image]

图 1： GP 的先验分布用导致后验分布的数据进行更新。

2.2 多输出回归

到目前为止，GP 回归允许函数具有标量输出，如 8。对于扩展到向量值输出，存在多种方法：i) 将内核扩展到多元输出 [ÁRL12]，ii) 将输出维度作为训练数据添加 [Ber+17]，或 iii) 针对每个输出使用单独的 GPR [Ras06]。虽然前两种方法对输出维度之间的相关性设定了先验，但后一种方法在不失一般性的情况下忽略了相关性。遵循方法 iii)，训练集 $\mathcal{D}$ 的先前定义被扩展到具有向量值输出，其中

\displaystyle X=[{\boldsymbol{x}}_{\text{dat}}^{\{1\}},{\boldsymbol{x}}_{\text{dat}}^{\{2\}},\ldots,{\boldsymbol{x}}_{\text{dat}}^{\{n_{\mathcal{D}}\}}]\in\mathcal{Z}^{1\times{n_{\mathcal{D}}}},\quad Y=[\tilde{{\boldsymbol{y}}}_{\text{dat}}^{\{1\}},\tilde{{\boldsymbol{y}}}_{\text{dat}}^{\{2\}},\ldots,\tilde{{\boldsymbol{y}}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}}]^{\top}\in\mathbb{R}^{{n_{\mathcal{D}}}\times{n_{y\text{dat}}}},

(10)

其中 ${n_{y\text{dat}}}\in\mathbb{N}$ 是输出的维度，向量值 GP 由

	$\displaystyle{\boldsymbol{f}}_{\text{GP}}({\boldsymbol{z}})$	$\displaystyle\sim\begin{cases}\mathcal{GP}\big{(}m^{1}({\boldsymbol{z}}),k^{1}({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})\big{)}\\ \hphantom{aaaaa}\vdots\hphantom{aaaaa}\vdots\\ \mathcal{GP}\big{(}m^{{n_{y\text{dat}}}}({\boldsymbol{z}}),k^{{n_{y\text{dat}}}}({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})\big{)}\end{cases}$		(11)
	$\displaystyle{\boldsymbol{m}}({\boldsymbol{z}})$	$\displaystyle\coloneqq\left[m^{1}({\boldsymbol{z}}),\ldots,m^{{n_{y\text{dat}}}}({\boldsymbol{z}})\right]^{\top}$		(12)

遵循 4 到 8，我们得到预测均值和方差

	$\displaystyle\operatorname{\mu}(f_{\text{GP},i}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{}\!,\mathcal{D})$	$\displaystyle=m^{i}({\boldsymbol{z}}^{})+{\boldsymbol{k}}^{i}({\boldsymbol{z}}^{},X)^{\top}(K^{i}\!+\!\sigma_{n,i}^{2}I_{n_{\mathcal{D}}})^{-1}\left(Y_{:,i}\!-\![m^{i}(X_{:,1}),\ldots,m^{i}(X_{:,{n_{\mathcal{D}}}})]^{\top}\right)$
	$\displaystyle\operatorname{var}(f_{\text{GP},i}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{}\!,\mathcal{D})$	$\displaystyle=k^{i}({\boldsymbol{z}}^{},{\boldsymbol{z}}^{})-{\boldsymbol{k}}^{i}({\boldsymbol{z}}^{},X)^{\top}(K^{i}\!+\!\sigma_{n,i}^{2}I_{n_{\mathcal{D}}})^{-1}{\boldsymbol{k}}^{i}({\boldsymbol{z}}^{},X)$		(13)

对于每个输出维度 $i\in\{1,\ldots,{n_{y\text{dat}}}\}$ ，相对于内核 $k^{1},\ldots,k^{{n_{y\text{dat}}}}$ 。变量 $\sigma_{n,i}$ 表示破坏输出测量 $i$ 维度的标准差。 ${n_{y\text{dat}}}$ components of ${\boldsymbol{f}}_{\text{GP}}|{\boldsymbol{z}}^{*},\mathcal{D}$ are combined into a multi-variable Gaussian distribution with

\displaystyle\begin{split}\operatorname{{\boldsymbol{\mu}}}({\boldsymbol{f}}_{\text{GP}}|{\boldsymbol{z}}^{*},\mathcal{D})&=[\operatorname{\mu}(f_{\text{GP},1}|{\boldsymbol{z}}^{*},\mathcal{D}),\ldots,\operatorname{\mu}(f_{\text{GP},{n_{y\text{dat}}}}|{\boldsymbol{z}}^{*},\mathcal{D})]^{\top}\\ \operatorname{\Sigma}({\boldsymbol{f}}_{\text{GP}}|{\boldsymbol{z}}^{*},\mathcal{D})&=\operatorname{diag}\left(\operatorname{var}(f_{\text{GP},1}|{\boldsymbol{z}}^{*},\mathcal{D}),\ldots,\operatorname{var}(f_{\text{GP},{n_{y\text{dat}}}}|{\boldsymbol{z}}^{*},\mathcal{D})\right),\end{split}

(14)

where $\operatorname{\Sigma}({\boldsymbol{f}}_{\text{GP}}|{\boldsymbol{z}}^{*},\mathcal{D})$ denotes the posterior variance matrix. This formulation allows to use a GP prior on vector-valued functions to perform predictions for test points ${\boldsymbol{z}}^{*}$ . 这种方法单独处理每个输出维度，这基本上是足够的并且易于处理。 An alternative approach is to include the dimension as additional input, e.g., as in [Ber+17], with the benefit of a single GP at the price of loss of interpretability. For highly correlated output data, a multi-output kernel might be beneficial, see [ÁRL12].

Remark 2。

Without specific knowledge about a trend in the data, the prior mean functions $m^{1},\ldots,m^{{n_{y\text{dat}}}}$ are often set to zero, see [Ras06]. 因此，如果没有另外说明，我们将报告其余部分的均值函数设置为零。

2.3 基于内核的视图

In Section 2.1, we target the GPR from a Bayesian perspective. 然而，对于探地雷达的某些应用，不同的观点是有益的；即从内核角度。接下来，我们从通过核变换扩展的线性回归导出 GPR。 In general, the prediction of parametric models is based on a parameter vector ${\boldsymbol{w}}$ which is typically learned using a set of training data points. 相比之下，非参数模型通常在内存中至少维护训练数据点的子集，以便对新数据点进行预测。许多线性模型可以转换为对偶表示，其中预测基于核函数的线性组合。想法是将模型的数据点转换为一个通常是高维的特征空间，其中可以应用线性回归来预测模型输出，如图图 2 所示。对于非线性特征映射 ${\boldsymbol{\phi}}\colon\mathcal{Z}\to\mathcal{F}$ ，其中 $\mathcal{F}$ 是一个 $n_{\phi}\in\mathbb{N}\cup\{\infty\}$ 维希尔伯特空间，核函数由内积 $k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\langle{\boldsymbol{\phi}}({\boldsymbol{z}}),{\boldsymbol{\phi}}({\boldsymbol{z}}^{\prime})\rangle,\forall{\boldsymbol{z}},{\boldsymbol{z}}^{\prime}\in\mathcal{Z}$ 给出。

Refer to caption — 图 2: 映射 ${\boldsymbol{\phi}}$ 将数据点转换为一个特征空间，其中可以应用线性回归器来预测输出。

因此，内核隐式地编码了数据点如何转换为更高维空间的方式。在特征空间中作为内积的公式允许扩展许多标准回归方法。同样，GPR 可以使用标准线性回归模型推导

\displaystyle f_{\text{lin}}({\boldsymbol{z}})={\boldsymbol{z}}^{\top}{\boldsymbol{w}},\quad\tilde{y}_{\text{dat}}^{\{i\}}=f_{\text{GP}}({\boldsymbol{x}}_{\text{dat}}^{\{i\}})+\nu

(15)

其中 ${\boldsymbol{z}}\in\mathcal{Z}$ 是输入向量， ${\boldsymbol{w}}\in\mathbb{R}^{n_{z}}$ 是权重向量，其中 $n_{z}=\dim(\mathcal{Z})$ 和 $f_{\text{lin}}\colon\mathcal{Z}\to\mathbb{R}$ 是未知函数。输入 ${\boldsymbol{x}}_{\text{dat}}^{\{i\}}\in\mathcal{Z}$ 的观测值 $\tilde{y}_{\text{dat}}^{\{i\}}\in\mathbb{R}$ 被高斯噪声 $\nu\sim\mathcal{N}(0,\sigma_{n}^{2})$ 污染，对于所有 $i=1,\ldots,n_{\mathcal{D}}$ 都是如此。该模型的分析类似于标准线性回归，即我们对权重进行先验假设，使得 ${\boldsymbol{w}}\sim\mathcal{N}({\boldsymbol{0}},\Sigma_{p})$ ，其中 $\Sigma_{p}\in\mathbb{R}^{n_{z}\times n_{z}}$ 。基于 ${n_{\mathcal{D}}}$ 收集的训练数据点，如部分 2.1 中所定义，这导致了著名的线性贝叶斯回归

\displaystyle\operatorname{p}(f_{\text{lin}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})=\mathcal{N}\big{(}\underbrace{\frac{1}{\sigma_{n}^{2}}{{\boldsymbol{z}}^{*}}^{\top}A_{\text{lin}}^{-1}XY}_{\operatorname{\mu}(f_{\text{lin}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})},\underbrace{\vphantom{\frac{1}{\sigma_{n}^{2}}}{{\boldsymbol{z}}^{*}}^{\top}A_{\text{lin}}^{-1}{{\boldsymbol{z}}^{*}}}_{\operatorname{var}(f_{\text{lin}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})}\big{)}

(16)

其中 $A_{\text{lin}}=\sigma_{n}^{-2}XX^{\top}+\Sigma_{p}^{-1}$ 。现在，使用特征映射 ${\boldsymbol{\phi}}({\boldsymbol{z}})$ 而不是直接使用 ${\boldsymbol{z}}$ ，会导致 $f_{\text{GP}}({\boldsymbol{z}})={\boldsymbol{\phi}}({\boldsymbol{z}})^{\top}\check{{\boldsymbol{w}}}$ ，其中 $\check{{\boldsymbol{w}}}\sim\mathcal{N}({\boldsymbol{0}},\check{\Sigma}_{p}),\check{\Sigma}_{p}\in\mathbb{R}^{n_{\phi}\times n_{\phi}}$ 。只要投影是固定函数，即独立于参数 $w$ ，模型在参数中仍然是线性的，因此是可解析处理的。特别是，使用映射 ${\boldsymbol{\phi}}({\boldsymbol{z}})$ 的贝叶斯回归 16 可以写成

\displaystyle(f_{\text{GP}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})\sim\mathcal{N}\left(\frac{1}{\sigma_{n}^{2}}{\boldsymbol{\phi}}({\boldsymbol{z}}^{*})^{\top}A_{\text{GP}}^{-1}\left[{\boldsymbol{\phi}}(X_{:,1});\ldots;{\boldsymbol{\phi}}(X_{:,{n_{\mathcal{D}}}})\right]Y,{\boldsymbol{\phi}}({\boldsymbol{z}}^{*})^{\top}A_{\text{GP}}^{-1}{\boldsymbol{\phi}}({\boldsymbol{z}}^{*})\right),

(17)

其中矩阵 $A_{\text{GP}}\in\mathbb{R}^{n_{\phi}\times n_{\phi}}$ 由

\displaystyle A_{\text{GP}}=\sigma_{n}^{-2}\left[{\boldsymbol{\phi}}(X_{:,1});\ldots;{\boldsymbol{\phi}}(X_{:,{n_{\mathcal{D}}}})\right]\left[{\boldsymbol{\phi}}(X_{:,1});\ldots;{\boldsymbol{\phi}}(X_{:,{n_{\mathcal{D}}}})\right]^{\top}+\check{\Sigma}_{p}^{-1}.

(18)

此方程可以简化并改写为

\displaystyle(f_{\text{GP}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})\sim\mathcal{N}\big{(}\underbrace{{\boldsymbol{k}}({\boldsymbol{z}}^{*},X)^{\top}K^{-1}Y}_{\operatorname{\mu}(f_{\text{GP}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})},\underbrace{k({\boldsymbol{z}}^{*},{\boldsymbol{z}}^{*})-{\boldsymbol{k}}({\boldsymbol{z}}^{*},X)^{\top}K^{-1}{\boldsymbol{k}}({\boldsymbol{z}}^{*},X)}_{\operatorname{var}(f_{\text{GP}}({\boldsymbol{z}}^{*})|{\boldsymbol{z}}^{*},\mathcal{D})}\big{)},

(19)

其中 $k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})={\boldsymbol{\phi}}({\boldsymbol{z}})^{\top}\check{\Sigma}_{p}{\boldsymbol{\phi}}({\boldsymbol{z}}^{\prime})$ 等于 8。事实上，在 19 中，特征图 ${\boldsymbol{\phi}}({\boldsymbol{z}})$ 是不需要的，这被称为 核技巧。这个技巧也被用在其他基于核的模型中，例如支持向量机 (SVM)，更多细节见 [SC08]。

2.4 再现核希尔伯特空间

尽管核既不能唯一定义特征图，也不能唯一定义特征空间，但总能构造一个规范特征空间，即给定某个核的再现核希尔伯特空间 (RKHS)。在介绍理论之后，将给出一些说明性示例，以便直观理解。我们现在将正式介绍这个构造过程，从希尔伯特空间的概念开始，遵循 [BLG16]：一个希尔伯特空间 $\mathcal{F}$ 表示某一类函数的所有可能实现，例如所有连续度为 $i$ 的函数，用 $\mathcal{C}^{i}$ 表示。此外，希尔伯特空间是一个向量空间，因此任何函数 $f_{\mathcal{F}}\in\mathcal{F}$ 都必须具有非负范数 $\|f_{\mathcal{F}}\|_{\mathcal{F}}>0$ ，对于 $f_{\mathcal{F}}\neq 0$ 。所有函数 $f_{\mathcal{F}}$ 还必须在 $\mathcal{F}$ 中配备内积。简单地说，希尔伯特空间是一个无限维向量空间，其中许多运算的行为与有限情况下的行为类似。希尔伯特空间的性质已经在文献中被详细探讨过，例如在 [DM+05] 中。希尔伯特空间一个极其有用的性质是，它们等价于一个相关的核函数 [Aro50]。这种等价性允许简单地定义一个核，而不是完全定义相关的向量空间。从形式上说，如果一个希尔伯特空间 $\mathcal{H}$ 是一个 RKHS，它将具有唯一的正定核 $k\colon\mathcal{Z}\times\mathcal{Z}\to\mathbb{R}$ ，它跨越空间 $\mathcal{H}$ 。 [Moore-Aronszajn [Aro50]] 每个正定核 $k$ 都与一个唯一的 RKHS $\mathcal{H}$ 相关联。 [[Aro50]] 令 $\mathcal{F}$ 为希尔伯特空间， $\mathcal{Z}$ 为一个非空集， ${\boldsymbol{\phi}}\colon\mathcal{Z}\to\mathcal{F}$ 。那么，内积 $\langle{\boldsymbol{\phi}}({\boldsymbol{z}}),{\boldsymbol{\phi}}({\boldsymbol{z}}^{\prime})\rangle_{\mathcal{F}}\coloneqq k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})$ 是正定的。重要的是， $\mathcal{H}$ 中的任何函数 $f_{\mathcal{H}}$ 都可以表示为在空间 $\mathcal{H}$ 上评估的此核的加权线性组合，如

\displaystyle f_{\mathcal{H}}(\cdot)=\langle f_{\mathcal{H}}(\cdot),k(x,\cdot)\rangle_{\mathcal{H}}=\sum_{i=1}^{n_{\phi}}\alpha_{i}k\left({\boldsymbol{x}}_{\text{dat}}^{\{i\}},\cdot\right),

(20)

其中 $\alpha_{i}\in\mathbb{R}$ 对于所有 $i=\{1,\dots,n_{\phi}\}$ 成立，其中 $n_{\phi}\in\mathbb{N}\cup\{\infty\}$ 是特征空间 $\mathcal{F}$ 的维数。因此，RKHS 配备了内积

\displaystyle\langle f_{\mathcal{H}},f_{\mathcal{H}}^{\prime}\rangle_{\mathcal{H}}=\sum_{i=1}^{n_{\phi}}\sum_{j=1}^{n_{\phi}}\alpha_{i}\alpha_{j}^{\prime}k({\boldsymbol{x}}_{\text{dat}}^{\{i\}},{\boldsymbol{x}}_{\text{dat}}^{\prime\{j\}}),

(21)

其中 $f_{\mathcal{H}}^{\prime}(\cdot)=\sum_{j=1}^{n_{\phi}}\alpha_{j}^{\prime}k\left({\boldsymbol{x}}_{\text{dat}}^{\prime\{j\}},\cdot\right)\in\mathcal{H},\alpha_{j}^{\prime}\in\mathbb{R}$ 。现在，再生特性表现为

\displaystyle\forall{\boldsymbol{z}}\in\mathcal{Z},\forall f_{\mathcal{H}}\in\mathcal{H},\,\langle f_{\mathcal{H}},k(x,\cdot)\rangle_{\mathcal{H}}=f_{\mathcal{H}}({\boldsymbol{z}}),\text{ in particular }k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\langle k(\cdot,{\boldsymbol{z}}),k(\cdot,{\boldsymbol{z}}^{\prime})\rangle_{\mathcal{H}}.

(22)

根据 [SHS06]，RKHS 定义为

\displaystyle\mathcal{H}=\{f_{\mathcal{H}}\colon\mathcal{Z}\to\mathbb{R}|\exists{\boldsymbol{c}}\in\mathcal{F},f_{\mathcal{H}}({\boldsymbol{z}})=\langle{\boldsymbol{c}},{\boldsymbol{\phi}}({\boldsymbol{z}})\rangle_{\mathcal{F}},\forall{\boldsymbol{z}}\in\mathcal{Z}\},

(23)

其中 ${\boldsymbol{\phi}}({\boldsymbol{z}})$ 是通过 $k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\langle{\boldsymbol{\phi}}({\boldsymbol{z}}),{\boldsymbol{\phi}}({\boldsymbol{z}}^{\prime})\rangle_{\mathcal{F}}$ 构造核的特征映射。我们想找到度为 $2$ 的多项式核的 RKHS，它由下式给出

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=({\boldsymbol{z}}^{\top}{\boldsymbol{z}}^{\prime})^{2}=(z_{1}z_{1}^{\prime})^{2}+2(z_{1}z_{1}^{\prime}z_{2}z_{2}^{\prime})+(z_{2}z_{2}^{\prime})^{2}.

对于任何 ${\boldsymbol{z}},{\boldsymbol{z}}^{\prime}\in\mathbb{R}^{2}$ 。首先，我们必须找到一个特征映射 ${\boldsymbol{\phi}}$ ，使核对应于内积 $k({\boldsymbol{z}},{\boldsymbol{y}})=\langle{\boldsymbol{\phi}}({\boldsymbol{z}}),{\boldsymbol{\phi}}({\boldsymbol{y}})\rangle$ 。特征映射的一个可能候选是

	$\displaystyle{\boldsymbol{\phi}}({\boldsymbol{z}})$	$\displaystyle=\begin{bmatrix}z_{1}^{2},\sqrt{2}z_{1}z_{2},z_{2}^{2}\end{bmatrix}^{\top}\text{, because}$
	$\displaystyle\langle{\boldsymbol{\phi}}({\boldsymbol{z}}),{\boldsymbol{\phi}}({\boldsymbol{z}}^{\prime})\rangle_{\mathbb{R}^{3}}$	$\displaystyle={\boldsymbol{\phi}}({\boldsymbol{z}})^{\top}{\boldsymbol{\phi}}({\boldsymbol{y}})=(z_{1}z_{1}^{\prime})^{2}+2(z_{1}z_{1}^{\prime}z_{2}z_{2}^{\prime})+(z_{2}z_{2}^{\prime})^{2}=k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime}).$

我们知道 RKHS 包含所有以下形式的线性组合

	$\displaystyle f_{\mathcal{H}}({\boldsymbol{z}})$	$\displaystyle=\sum_{i=1}^{3}\alpha_{i}k\left({\boldsymbol{x}}_{\text{dat}}^{\{i\}},{\boldsymbol{z}}\right)=\sum_{i=1}^{3}\alpha_{i}\langle{\boldsymbol{\phi}}({\boldsymbol{z}}^{\prime}),{\boldsymbol{\phi}}({\boldsymbol{z}})\rangle_{\mathbb{R}^{3}}=\sum_{i=1}^{3}\langle{\boldsymbol{c}},{\boldsymbol{\phi}}({\boldsymbol{z}})\rangle_{\mathbb{R}^{3}}$
		$\displaystyle=c_{1}z_{1}^{2}+c_{2}\sqrt{2}z_{1}z_{2}+c_{3}z_{2}^{2},$

其中 ${\boldsymbol{\alpha}},{\boldsymbol{c}},{\boldsymbol{x}}_{\text{dat}}^{\{i\}}\in\mathbb{R}^{3}$ 。因此，RKHS $\mathcal{H}$ 的一个可能候选由下式给出

\displaystyle\mathcal{H}=\left\{f_{\mathcal{H}}\colon\mathbb{R}^{2}\to\mathbb{R}|f_{\mathcal{H}}({\boldsymbol{z}})=c_{1}z_{1}^{2}+c_{2}\sqrt{2}z_{1}z_{2}+c_{3}z_{2}^{2},{\boldsymbol{c}}\in\mathbb{R}^{3}\right\}

(24)

接下来，必须检查所提出的希尔伯特空间是否与具有度数 $2$ 的多项式核相关的 RKHS。这是通过两个步骤来实现的：i) 检查空间是否为希尔伯特空间，以及 ii) 确认再生性。首先，我们可以很容易地证明这是一个希尔伯特空间，通过使用对称矩阵 $S\in\mathbb{R}^{2\times 2}$ 重写 $f_{\mathcal{H}}({\boldsymbol{z}})={\boldsymbol{z}}^{\top}S{\boldsymbol{z}}$ ，并使用 $\mathcal{H}$ 是欧几里得空间且与 $S$ 同构的事实。其次，必须满足 RKHS 的条件，即再生性 $f_{\mathcal{H}}({\boldsymbol{z}})=\langle f_{\mathcal{H}}(\cdot),k(\cdot,{\boldsymbol{z}})\rangle_{\mathcal{H}}$ 。因为我们可以写成

\displaystyle\langle f_{\mathcal{H}}(\cdot),k(\cdot,{\boldsymbol{z}})\rangle_{\mathcal{H}}=\langle{\boldsymbol{c}}^{\top}{\boldsymbol{\phi}}(\cdot),k(\cdot,{\boldsymbol{z}})\rangle_{\mathcal{H}}=\sum_{i=1}^{3}c_{i}k(\cdot,{\boldsymbol{z}})={\boldsymbol{c}}^{\top}{\boldsymbol{\phi}}({\boldsymbol{z}})=f_{\mathcal{H}}({\boldsymbol{z}}),

属性 22 得以满足，因此 $\mathcal{H}$ 是度数为 $2$ 的多项式核的 RKHS。请注意，即使映射 ${\boldsymbol{\phi}}$ 对于核 $k$ 并不唯一，但 $k$ 与 RKHS $\mathcal{H}$ 之间的关系是唯一的。给定一个由 ${n_{\mathcal{D}}}$ 个观测值定义的函数 $f_{\mathcal{H}}\in\mathcal{H}$ ，它的 RKHS 范数定义为

\displaystyle\|f_{\mathcal{H}}\|_{\mathcal{H}}^{2}=\langle f_{\mathcal{H}},f_{\mathcal{H}}\rangle_{\mathcal{H}}=\sum_{i=1}^{{n_{\mathcal{D}}}}\sum_{j=1}^{{n_{\mathcal{D}}}}\alpha_{i}\alpha_{j}k({\boldsymbol{x}}_{\text{dat}}^{\{i\}},{\boldsymbol{x}}_{\text{dat}}^{\prime\{j\}})={\boldsymbol{\alpha}}^{\top}K(X,X){\boldsymbol{\alpha}},

(25)

其中 ${\boldsymbol{\alpha}}\in\mathbb{R}^{n_{\mathcal{D}}}$ 和 $K(X,X)$ 由 5 给出。我们也可以使用特征映射，使得

\displaystyle\|f_{\mathcal{H}}\|_{\mathcal{H}}=\inf\{\|{\boldsymbol{c}}\|_{\mathcal{F}}\colon{\boldsymbol{c}}\in\mathcal{F},f_{\mathcal{H}}({\boldsymbol{z}})=\langle{\boldsymbol{c}},{\boldsymbol{\phi}}({\boldsymbol{z}})\rangle_{\mathcal{F}},\forall{\boldsymbol{z}}\in\mathcal{Z}\}.

(26)

由于 RKHS $\mathcal{H}$ 和核 $k$ 之间存在唯一的关联，因此范数 $\|f_{\mathcal{H}}\|_{\mathcal{H}}$ 可以等效地写成 $\|f_{\mathcal{H}}\|_{k}$ 。 RKHS 中函数的范数表示函数相对于由核定义的几何结构在 $\mathcal{Z}$ 上的变化速度。从形式上来说，它可以写成

\displaystyle\frac{|f_{\mathcal{H}}({\boldsymbol{z}})-f_{\mathcal{H}}({\boldsymbol{z}}^{\prime})|}{d({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})}\leq\|f_{\mathcal{H}}\|_{\mathcal{H}},

(27)

其中距离为 $d({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})^{2}=k({\boldsymbol{z}},{\boldsymbol{z}})-2k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})+k({\boldsymbol{z}}^{\prime},{\boldsymbol{z}}^{\prime})$ 。具有有限 RKHS 范数的函数也是 RKHS 的元素。关于 RKHS 和范数的更详细讨论在 [Wah90] 中给出。

我们想要找到函数 $f_{\mathcal{H}}$ 的 RKHS 范数，该函数是度数为 $2$ 的多项式核的 RKHS 的元素，该多项式核由

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=({\boldsymbol{z}}^{\top}{\boldsymbol{z}}^{\prime})^{2}=(z_{1}z_{1}^{\prime})^{2}+2(z_{1}z_{1}^{\prime}z_{2}z_{2}^{\prime})+(z_{2}z_{2}^{\prime})^{2}.

令函数为

$\displaystyle f_{\mathcal{H}}({\boldsymbol{z}})$	$\displaystyle=\sum_{i=1}^{3}\alpha_{i}k\left({\boldsymbol{x}}_{\text{dat}}^{\{i\}},{\boldsymbol{z}}\right),\text{ with}$	(28)
$\displaystyle\alpha_{1}$	$\displaystyle=1,\,\alpha_{2}=-2,\,\alpha_{3}=3$	(29)
$\displaystyle{\boldsymbol{x}}_{\text{dat}}^{\{1\}}$	$\displaystyle=[1,1]^{\top},\,{\boldsymbol{x}}_{\text{dat}}^{\{2\}}=[1,2]^{\top},\,{\boldsymbol{x}}_{\text{dat}}^{\{3\}}=[2,1]^{\top}.$	(30)

因此，函数 28 带有 29 和 30 对应于

\displaystyle f_{\mathcal{H}}({\boldsymbol{z}})

\displaystyle=11z_{1}^{2}+6z_{1}z_{2}-4z_{2}^{2}.

现在，我们有两种方法来计算 RKHS 范数。首先， $f_{\mathcal{H}}$ 的 RKHS 范数使用 25 通过

\displaystyle\|f_{\mathcal{H}}\|_{\mathcal{H}}^{2}={\boldsymbol{\alpha}}^{\top}K(X,X){\boldsymbol{\alpha}}=\begin{bmatrix}1&-2&3\end{bmatrix}\begin{bmatrix}4&9&9\\ 9&25&16\\ 9&16&25\end{bmatrix}\begin{bmatrix}1\\ -2\\ 3\end{bmatrix}=155

带有 $X=[{\boldsymbol{x}}_{\text{dat}}^{\{1\}},{\boldsymbol{x}}_{\text{dat}}^{\{2\}},{\boldsymbol{x}}_{\text{dat}}^{\{3\}}]$ 。或者，我们可以使用 26，这将导致 $\|f_{\mathcal{H}}\|_{\mathcal{H}}=\|{\boldsymbol{c}}\|$ ，其中 ${\boldsymbol{c}}$ 由 24 定义。因此，范数计算为

\displaystyle f_{\mathcal{H}}({\boldsymbol{z}})

\displaystyle=11z_{1}^{2}+6z_{1}z_{2}-4z_{2}^{2}\Rightarrow c_{1}=11,\,c_{2}=\frac{6}{\sqrt{2}},\,c_{3}=-4\Rightarrow\|f_{\mathcal{H}}\|_{\mathcal{H}}^{2}=155.

在此示例中，我们可视化 RKHS 范数的含义。图 3 显示了具有相同 RKHS 范数（左上角和右上角）、较小 RKHS 范数（左下角）和较大 RKHS 范数（右下角）的不同二次函数。相同的范数表示函数的相似变化，而更高的范数会导致更变化的函数。

[Uncaptioned image]

图 3：具有不同 RKHS 范数的函数：

\|f_{1}\|_{\mathcal{H}}^{2}\!=\!\|f_{2}\|_{\mathcal{H}}^{2}\!=\!4\|f_{3}\|_{\mathcal{H}}^{2}\!=\!\frac{1}{2}\|f_{4}\|_{\mathcal{H}}^{2}

。

总之，我们研究了内核与其 RKHS 之间的独特关系。再现属性允许我们将内积写为可处理的函数，该函数隐式地定义了更高（甚至无限）的特征维空间。函数的 RKHS 范数是基于内核定义的度量的类 Lipschitz 指标。此 RKHS 视图与机器学习中的内核技巧相关。在下一节中，将利用 RKHS 范数来确定 GPR 预测值与实际数据生成函数之间的误差。

2.5 模型误差

GPR 最有趣的特性之一是预测方差中编码的不确定性描述。这种不确定性有利于量化实际潜在数据生成过程与 GPR 之间的误差。在本节中，我们假设存在一个未知函数 $f_{\text{uk}}\colon\mathbb{R}^{n_{z}}\to\mathbb{R}$ 来生成训练数据。详细来说，数据集 $\mathcal{D}=\{X,Y\}$ 由

\displaystyle\begin{split}X&=[{\boldsymbol{x}}_{\text{dat}}^{\{1\}},{\boldsymbol{x}}_{\text{dat}}^{\{2\}},\ldots,{\boldsymbol{x}}_{\text{dat}}^{\{n_{\mathcal{D}}\}}]\in\mathbb{R}^{n_{z}\times{n_{\mathcal{D}}}}\\ Y&=[\tilde{y}_{\text{dat}}^{\{1\}},\tilde{y}_{\text{dat}}^{\{2\}},\ldots,\tilde{y}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}}]^{\top}\in\mathbb{R}^{{n_{\mathcal{D}}}},\end{split}

(31)

其中数据由

\displaystyle\tilde{y}_{\text{dat}}^{\{i\}}=f_{\text{uk}}({\boldsymbol{x}}_{\text{dat}}^{\{i\}})+\nu,\,\nu\sim\mathcal{N}(0,\sigma_{n}^{2})

(32)

对所有 $i=\{1,\ldots,{n_{\mathcal{D}}}\}$ 生成。如果不对 $f_{\text{uk}}$ 做任何假设，显然不可能量化模型误差。笼统地说，具有核 $k$ 的 GPR 的先验分布必须适合学习未知函数。更技术地说， $f_{\text{uk}}$ 必须是 23 中所述的核所跨越的 RKHS 的一个元素。这导致了以下假设。

Assumption 1.

函数 $f_{\text{uk}}$ 关于核 $k$ 具有有限的 RKHS 范数，即 $\|f_{\text{uk}}\|_{\mathcal{H}}<\infty$ ，其中 $\mathcal{H}$ 是由 $k$ 跨越的 RKHS。

这听起来很矛盾，因为假设 $f_{\text{uk}}$ 是未知的。但是，存在可以任意精确地逼近任何连续函数的核。因此，对于任何连续函数，任意接近的函数都是通用核的 RKHS 的元素。更多细节，请参考第 2.4 节。关于错误指定的 Gaussian Process 模型的模型误差的更多信息可以在 [BUH18]

中找到。我们把误差量化分为三种不同的方法：i) 鲁棒方法，ii) 场景方法，以及 iii) 信息论方法。以下介绍了不同的技术，并在图 4 中进行了可视化。在本节的剩余部分，我们假设 GPR 使用数据集 31 和假设 1 进行训练。

2.5.1 鲁棒方法

鲁棒方法利用了 GPR 的预测是高斯分布的事实。因此，对于任何 ${\boldsymbol{z}}^{*}\in\mathbb{R}^{n_{z}}$ ，模型误差由

\displaystyle|f_{\text{uk}}({\boldsymbol{z}}^{*})-\operatorname{\mu}(f_{\text{GP}}|{\boldsymbol{z}}^{*},\mathcal{D})|\leq c\operatorname{var}(f_{\text{GP}}|{\boldsymbol{z}}^{*},\mathcal{D})

(33)

以高概率限制，其中 $c\in\mathbb{R}_{>0}$ 调整概率。但是，对于多个测试点 ${\boldsymbol{z}}^{*}_{1},{\boldsymbol{z}}^{*}_{2},\ldots\in\mathbb{R}^{n_{z}}$ ，这种方法忽略了 $f_{\text{GP}}({\boldsymbol{z}}^{*}_{1}),f_{\text{GP}}({\boldsymbol{z}}^{*}_{2}),\ldots$ 之间的任何相关性。图 4 显示了如何对于给定的 ${\boldsymbol{z}}^{*}_{1}$ 和 ${\boldsymbol{z}}^{*}_{2}$ ，方差被用作上限。因此，任何预测都是独立处理的，这会导致一个非常保守的上限，见 [UBH18]。

2.5.2 场景方法

场景方法不像鲁棒方法那样使用均值和方差，而是直接处理 GPR 的样本。与其他方法不同的是，场景方法没有直接的模型误差量化，而是基于样本的量化。其思想是在 $n_{s}\in\mathbb{N}$ 个采样点上绘制大量 $n_{\text{scen}}\in\mathbb{N}$ 个样本函数 $f_{\text{GP}}^{1},f_{\text{GP}}^{2},\ldots,f_{\text{GP}}^{n_{\text{scen}}}$ 。通过从多元高斯分布给出的 $f_{\text{GP}}$ 中抽取多个实例来执行采样

\displaystyle\begin{bmatrix}Y\vphantom{\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\end{bmatrix}}\\ f_{\text{GP}}({\boldsymbol{z}}^{*}_{1})\\ \vdots\\ f_{\text{GP}}({\boldsymbol{z}}^{*}_{n_{s}})\end{bmatrix}\sim\mathcal{N}\left(\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\\ m({\boldsymbol{z}}^{*}_{1})\\ \vdots\\ m({\boldsymbol{z}}^{*}_{n_{s}})\end{bmatrix},\begin{bmatrix}K(X,X)+\sigma_{n}^{2}I_{n_{\mathcal{D}}}\vphantom{\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\end{bmatrix}}&K(X^{*},X)\\ K(X^{*},X)^{\top}\vphantom{\begin{bmatrix}m({\boldsymbol{x}}_{\text{dat}}^{\{1\}})\\ \vdots\\ m({\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}})\end{bmatrix}}&K(X^{*},X^{*})\end{bmatrix}\right),

(34)

其中 $X^{*}=[{\boldsymbol{z}}^{*}_{1},\cdots,{\boldsymbol{z}}^{*}_{n_{s}}]$ 包含抽样点。然后，每个样本都可以在应用程序中使用，而不是未知函数。对于大量的样本，假设未知函数接近这些样本中的一个。但是，这种方法的关键在于确定给定模型误差 $c\in\mathbb{R}_{>0}$ 时，所需的样本数 $n_{\text{scen}}$ 和概率 $\delta_{scen}>0$ ，使得

\displaystyle\operatorname{P}\big{(}|f_{\text{uk}}({\boldsymbol{z}}^{*})-f_{\text{GP}}^{i}({\boldsymbol{z}}^{*})|\leq c,i\in\{1,\ldots,n_{\text{scen}}\}\big{)}\geq\delta_{scen}

(35)

对于所有 ${\boldsymbol{z}}^{*}\in Z$ 。在图 4 中，作为示例绘制了 GP 模型的五个不同样本。

2.5.3 信息论方法

或者，[Sri+12] 中的工作推导出一个上限，用于在具有特定概率的紧凑集上的 GPR 样本。与稳健方法相比，考虑了函数值之间的相关性。我们在这里重新陈述 [Sri+12] 中的定理。 [[Sri+12]] 给定假设 1，模型误差 $\Delta\in\mathbb{R}$

\displaystyle\Delta=|\operatorname{\mu}(f_{\text{GP}}|{\boldsymbol{z}},\mathcal{D})-f_{\text{uk}}({\boldsymbol{z}})|

(36)

对所有 ${\boldsymbol{z}}$ 在紧凑集 $\Omega\subset\mathbb{R}^{n_{z}}$ 上以至少 $\delta\in(0,1)$ 的概率进行界定

\displaystyle\left\{\forall{\boldsymbol{z}}\in\Omega,\,\Delta\leq|\beta\operatorname{\Sigma}^{\frac{1}{2}}(f_{\text{GP}}|{\boldsymbol{z}},\mathcal{D})|\right\}\geq\delta,

(37)

其中 $\beta\in\mathbb{R}$ 定义为

\displaystyle\beta

\displaystyle=\sqrt{2{\left\|f_{\text{uk}}\right\|}^{2}_{k}+300\gamma_{\text{max}}\ln^{3}\left(\frac{{n_{\mathcal{D}}}+1}{1-\delta}\right)}.

(38)

变量 $\gamma_{\text{max}}\in\mathbb{R}$ 是信息增益的最大值

\displaystyle\gamma_{\text{max}}

\displaystyle=\max_{{\boldsymbol{x}}_{\text{dat}}^{\{1\}},\ldots,{\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}+1\}}\in\Omega}\frac{1}{2}\log|I_{n_{\mathcal{D}}+1}+\sigma_{n}^{-2}K({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})|

(39)

具有 Gram 矩阵 $K({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})$ 和输入元素 ${\boldsymbol{z}},{\boldsymbol{z}}^{\prime}\in\{{\boldsymbol{x}}_{\text{dat}}^{\{1\}},\ldots,{\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}+1\}}\}$ 。为了计算这个边界，必须知道 $f_{\text{uk}}$ 的 RKHS 范数。在应用中，通常情况并非如此。但是，通常范数可以被上限约束，因此， Section 2.5.3 中的边界可以被上限约束。为此，RKHS 范数与 27 给出的 Lipschitz 常数之间的关系是有益的，因为 Lipschitz 常数更有可能已知。一般而言，信息增益的计算是一个非凸优化问题。然而，对于许多常用的核函数 [Sri+12]，信息容量 $\gamma_{\text{max}}$ 对训练点的数量具有次线性依赖关系。因此，即使 $\beta$ 随着训练数据的数量而增加，仍然有可能任意精确地学习到真实函数 $f_{\text{uk}}$ [Ber+16]。与其他方法相比，Section 2.5.3 允许对紧凑集中的任何测试点进行误差边界。在 [BKH19] 中，我们在基于 GP 模型的控制任务中利用了这种方法。 Fig. 4 的右侧插图可视化了信息论边界。

3 模型选择

Equation 8 清楚地表明了核对后验均值和方差的巨大影响。然而，这并不奇怪，因为核是先验模型的重要组成部分。对于实际应用，这会导致如何选择核的问题。此外，大多数内核依赖于必须定义的一组超参数。因此，为了将 GPR 变成一个强大的实用工具，必须开发解决模型选择问题的方法。我们将模型选择视为内核及其超参数的确定。我们只关注定义在 $\mathcal{Z}\subseteq\mathbb{R}^{n_{z}}$ 上的内核。在接下来的两个小节中，我们将介绍不同的内核，并解释超参数及其选择的作用，主要基于 [Ras06]。

Remark 3.

内核函数的选择似乎类似于参数模型的模型选择。但是，存在两个主要差异：i) 选择完全由贝叶斯方法涵盖，并且 ii) 许多内核允许对各种不同函数进行建模，而参数模型通常仅限于非常特定类型的函数。

3.1 内核函数

内核函数 $k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})$ 的值是两个状态 $({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})$ 交互的指标。因此，GPR 的一个重要部分是选择内核函数并估计其自由参数 $\varphi_{1},\varphi_{2},\ldots,\varphi_{n_{\varphi}}$ ，称为超参数。超参数的数量 $n_{\varphi}$ 取决于内核函数。内核函数的选择和相应超参数的确定可以看作是回归的自由度。首先，我们从要被归类为 GPR 内核的函数的一般属性开始。函数 $k\colon\mathcal{Z}\times\mathcal{Z}\to\mathbb{R}$ 成为有效内核的必要和充分条件是 Gram 矩阵（参见 5）对于所有可能的输入值 [SC04] 都是半正定的。

Remark 4.

如部分 2.4所示，核函数必须是正定才能跨越唯一的RKHS。这似乎与 Gram 矩阵所需的 半正定 性矛盾。解决方法是定义正定核，因为它等同于半正定的 Gram 矩阵。具体来说，对称函数 $k\colon\mathcal{Z}\times\mathcal{Z}\to\mathbb{R}$ 是 $\mathcal{Z}$ 上的正定核，如果

\displaystyle\sum_{j=1}^{n_{\mathcal{D}}}\sum_{i=1}^{n_{\mathcal{D}}}k({\boldsymbol{x}}_{\text{dat}}^{\{i\}},{\boldsymbol{x}}_{\text{dat}}^{\{j\}})c_{i}c_{j}\geq 0

(40)

对任何 ${n_{\mathcal{D}}}\in\mathbb{N}$ 、 ${\boldsymbol{x}}_{\text{dat}}^{\{1\}},\ldots,{\boldsymbol{x}}_{\text{dat}}^{\{{n_{\mathcal{D}}}\}}\in\mathcal{Z}$ 和 $c_{1},\ldots,c_{n}\in\mathbb{R}$ 成立。因此，存在一个 半正定 矩阵 $A_{G}\in\mathbb{R}^{{n_{\mathcal{D}}}\times{n_{\mathcal{D}}}}$ ，使得

\displaystyle{\boldsymbol{x}}_{\text{dat}}^{\top}A_{G}{\boldsymbol{x}}_{\text{dat}}=\sum_{j=1}^{n_{\mathcal{D}}}\sum_{i=1}^{n_{\mathcal{D}}}k({\boldsymbol{x}}_{\text{dat}}^{\{i\}},{\boldsymbol{x}}_{\text{dat}}^{\{j\}})c_{i}c_{j}

(41)

对任何 ${n_{\mathcal{D}}}\in\mathbb{N}$ 和 ${\boldsymbol{z}}\in\mathcal{Z}$ 成立。

满足此条件的函数集 $k$ 用 $\mathcal{K}$ 表示。核函数可以分为两类：平稳核和 非平稳 核。平稳核是距离 ${\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}$ 的函数。因此，它对输入空间中的平移是不变的。相反，非平稳核直接依赖于 ${\boldsymbol{z}}$ 、 ${\boldsymbol{z}}^{\prime}$ ，并且通常是点积 ${\boldsymbol{z}}^{\top}{\boldsymbol{z}}$ 的函数。接下来，我们将列出一些常见的核函数及其基本属性。即使所呈现的核数量有限，新的核也可以很容易地构建，因为 $\mathcal{K}$ 在特定操作（如加法和标量乘法）下是封闭的。最后，我们在表 1 中总结了每个核的公式，并提供了一个比较示例。

3.1.1 常数核

常数核的公式如下

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\varphi_{1}^{2}.

(42)

此内核主要用于其他内核函数的补充。它取决于单个超参数 $\varphi_{1}\in\mathbb{R}_{\geq 0}$ 。

3.1.2 线性内核

线性内核的方程式为

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})={\boldsymbol{z}}^{\top}{\boldsymbol{z}}^{\prime}.

(43)

线性内核是一个点积内核，因此是非平稳的。核可以从贝叶斯线性回归获得，如部分2.3所示。线性内核通常与常数内核一起使用，以包含偏差。

3.1.3 多项式内核

多项式内核的方程式为

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\left({\boldsymbol{z}}^{\top}{\boldsymbol{z}}^{\prime}+\varphi_{1}^{2}\right)^{p},\,p\in\mathbb{N}.

(44)

多项式内核有一个额外的参数 $p\in\mathbb{N}$ ，它决定多项式的次数。由于包含点积，因此内核也是非平稳的。对于 $\|{\boldsymbol{z}}\|>1$ ，先验方差快速增长，因此其在某些回归问题中的使用受到限制。它取决于单个超参数 $\varphi_{1}\in\mathbb{R}_{\geq 0}$ 。

3.1.4 Matérn 内核

Matérn 内核的方程式为

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})\!=\!\varphi_{1}^{2}\exp\!\left(-{\frac{{\sqrt{2\check{p}}}\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\|}{\varphi_{2}}}\right)\!{\frac{p!}{(2p)!}}\sum_{i=0}^{p}{\frac{(p+i)!}{i!(p-i)!}}\!\left({\frac{{\sqrt{8\check{p}}}\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\|}{\varphi_{2}}}\right)^{p-i}

(45)

其中 $\check{p}=p+\frac{1}{2},p\in\mathbb{N}$ 。 Matérn 核是一个非常强大的核，这里给出了 $\check{p}$ 最常见的参数化。从具有 Matérn 核的 GP 模型中提取的函数是 $p$ 次可微的。这个平稳核的更一般的方程可以在[Bis06]中找到。这个核是一个通用核，这将在下面解释。 [[SC08, 引理 4.55]] 考虑在任何规定的紧致子集 $\mathcal{Z}_{c}\in\mathcal{Z}$ 上的通用核的 RKHS $\mathcal{H}(\mathcal{Z}_{c})$ 。给定任何正数 $\varepsilon$ 和任何函数 $f_{\mathcal{C}}\in\mathcal{C}^{1}(\mathcal{Z}_{C})$ ，存在一个函数 $f_{\mathcal{H}}\in\mathcal{H}(\mathcal{Z}_{c})$ 使得 $\|f_{\mathcal{C}}-f_{\mathcal{H}}\|_{\mathcal{Z}_{c}}\leq\varepsilon$ 。直观地说，具有通用核的 GPR 可以任意精确地逼近紧致集上的任何连续函数。对于 $p\to\infty$ ，它会导致平方指数核。两个超参数是 $\varphi_{1}\in\mathbb{R}_{\geq 0}$ 和 $\varphi_{2}\in\mathbb{R}_{>0}$ 。

3.1.5 平方指数核

平方指数核的方程由下式给出

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\varphi_{1}^{2}\exp{\left(-\frac{\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\|^{2}}{2\varphi_{2}^{2}}\right)}.

(46)

GPR 最常用的核函数可能是平方指数核，参见[Ras06]。超参数 $\varphi_{1}$ 描述了信号方差，它决定了数据生成函数与其平均值的平均距离。长度尺度 $\varphi_{2}$ 定义了在输入空间中沿着特定轴移动多远才能使函数值变得不相关。正式地，长度尺度决定了零均值 GP 在单位区间内期望的零电平穿越次数。平方指数核是无限可微的，这意味着 GPR 表现出平滑的行为。作为 Matérn 核的极限，它也是一个通用核，参见 [MXZ06]。图 5 显示了通用核函数的回归能力。在此示例中，使用具有平方指数核的 GPR 用于不同的训练数据集。通过似然函数，对每个训练数据集的超参数进行单独优化，参见第 3.2 节。注意，所有展示的回归都是基于相同的 GP 模型，即相同的核函数，但使用不同的数据集。这再次突出了 GPR 优越的灵活性。

[Uncaptioned image]

图 5: 回归灵活性的示例，所有示例都基于相同的 GP 模型。

3.1.6 有理二次核

有理二次核的公式由

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\varphi_{1}^{2}\left(1+\frac{{\left\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\right\|}^{2}}{2p\varphi_{2}^{2}}\right)^{-p},\,p\in\mathbb{N}.

(47)

该核等效于对具有不同长度尺度的无限多个平方指数核求和。因此，使用该核的 GP 先验预计会看到在许多长度尺度上平滑变化的函数。参数 $p$ 决定了大尺度和小尺度变化的相对权重。对于 $p\to\infty$ ，有理二次核与平方指数核相同。

3.1.7 平方指数 ARD 核

平方指数 ARD 核的公式由

\displaystyle k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=\varphi_{1}^{2}\exp{\left(-({\boldsymbol{z}}-{\boldsymbol{z}}^{\prime})^{\top}P^{-1}({\boldsymbol{z}}-{\boldsymbol{z}}^{\prime})\right)},\,P=\operatorname{diag}(\varphi_{2}^{2},\ldots,\varphi_{1+n_{z}}^{2}).

(48)

对平方指数核的自动相关性确定 (ARD) 扩展允许为 ${\boldsymbol{z}},{\boldsymbol{z}}^{\prime}\in\mathbb{R}^{n_{z}}$ $\varphi_{2},\ldots,\varphi_{1+n_{z}}\in\mathbb{R}_{>0}$ 设置独立的长度尺度。当协方差几乎独立于该输入时，不相关维度的单个长度尺度通常较大。例如，在[Mac97] 和[Bis06] 中可以找到有关不同核的优势的更详细的讨论。在此示例中，我们使用三组具有相同训练数据的 GPR

\displaystyle X=[1,3,5,7,9],\,Y=[0,1,2,3,6]

(49)

但具有不同的核，即平方指数46、线性43 和多项式44 核。图 6 显示了具有后验均值（红色）、后验方差（灰色阴影）和训练点（黑色）的回归的不同形状。即使对于这个简单的数据集，平方指数核的灵活性也已显而易见。

[Uncaptioned image]

图 6：具有不同核的 GPR：平方指数（左）、线性（中）和二次多项式（右）。

Kernel name	$k({\boldsymbol{z}},{\boldsymbol{z}}^{\prime})=$
Constant	$\varphi_{1}^{2}$
Linear	${\boldsymbol{z}}^{\top}{\boldsymbol{z}}^{\prime}+\varphi_{1}^{2}$
Polynomial $p\in\mathbb{N}$	$\left({\boldsymbol{z}}^{\top}{\boldsymbol{z}}^{\prime}+\varphi_{1}^{2}\right)^{p}$
Matérn $\check{p}=p+\frac{1}{2},p\in\mathbb{N}$	$\varphi_{1}^{2}\exp\left(-{\frac{{\sqrt{2\check{p}}}\\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\\|}{\varphi_{2}}}\right){\frac{p!}{(2p)!}}\sum_{i=0}^{p}{\frac{(p+i)!}{i!(p-i)!}}\left({\frac{{\sqrt{8\check{p}}}\\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\\|}{\varphi_{2}}}\right)^{p-i}$
Squared exponential	$\varphi_{1}^{2}\exp{\left(-\frac{\\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\\|^{2}}{2\varphi_{2}^{2}}\right)}$
Rational quadratic	$\varphi_{1}^{2}\left(1+\frac{{\left\\|{\boldsymbol{z}}-{\boldsymbol{z}}^{\prime}\right\\|}^{2}}{2p\varphi_{2}^{2}}\right)^{-p}$
Squared exponential ARD	$\varphi_{1}^{2}\exp{\left(-({\boldsymbol{z}}-{\boldsymbol{z}}^{\prime})^{\top}P^{-1}({\boldsymbol{z}}-{\boldsymbol{z}}^{\prime})\right)},\,P=\operatorname{diag}(\varphi_{2}^{2},\ldots,\varphi_{1+n_{z}}^{2})$

表 1：一些常用核函数的概述。

3.2 超参数优化

除了选择核函数外，还必须确定任何超参数的值才能执行回归。超参数的数量取决于所使用的核函数。我们将所有超参数连接成一个向量 ${\boldsymbol{\varphi}}$ ，大小为 $n_{\varphi}\in\mathbb{N}$ ，其中 ${\boldsymbol{\varphi}}\in\Phi\subseteq\mathbb{R}^{n_{\varphi}}$ 。引入超参数集 $\Phi$ 以涵盖以下定义的各个超参数的不同空间。

Definition 1。

集合 $\Phi$ 被称为核函数 $k$ 的超参数集，当且仅当集合 $\Phi$ 是 $k$ 的超参数 ${\boldsymbol{\varphi}}$ 的域。

通常，信号噪声 $\sigma_{n}^{2}$ ，见 4，也被视为超参数。为了更好地理解，我们将信号噪声与超参数分开。存在几种技术允许根据一个最优性准则计算超参数和信号噪声。从贝叶斯角度来看，我们想要找到超参数向量 ${\boldsymbol{\varphi}}$ ，它在给定输入 $X$ 和 GP 模型的情况下，最有可能用于输出数据 $Y$ 。为此，一种方法是优化 GP 的 对数边际似然函数。另一个想法是将训练集分成两个不相交的集合，一个用于训练，另一个用于验证集，用于监控性能。这种方法被称为 交叉验证。下面介绍了这两种选择超参数的技术。

3.2.1 对数边际似然方法

一种非常常见的优化超参数的方法是使用 负对数边际似然函数，通常简称为（负。对数）似然函数。它边际，因为它是在函数 $f_{\text{GP}}$ 上边缘化得到的。边际似然是输出数据 $Y\in\mathbb{R}^{{n_{\mathcal{D}}}}$ 符合输入数据 $X$ 的可能性，使用超参数 ${\boldsymbol{\varphi}}$ 。它由以下给出

\displaystyle\log p(Y|X,{\boldsymbol{\varphi}})=-\frac{1}{2}Y^{\top}(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}Y-\frac{1}{2}\log|K+\sigma_{n}^{2}I_{n_{\mathcal{D}}}|-\frac{{n_{\mathcal{D}}}}{2}\log 2\pi.

(50)

详细推导可在 [Ras06] 中找到。 50 中边缘似然的三个项具有以下作用：

•

$\frac{1}{2}Y^{\top}(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}Y$ 是唯一依赖于输出数据 $Y$ 的项，它表示数据拟合。
•

$\frac{1}{2}\log|K+\sigma_{n}^{2}I_{n_{\mathcal{D}}}|$ 对复杂度进行惩罚，这取决于核函数和输入数据 $X$ 。
•

$\frac{{n_{\mathcal{D}}}}{2}\log 2\pi$ 是一个归一化常数。

Remark 5。

为了符号简洁，我们尽可能地省略对核函数 $k$ 的超参数的依赖。

在似然意义上，最佳超参数 ${\boldsymbol{\varphi}}^{*}\in\Phi$ 和信号噪声 $\sigma_{n}^{*}$ 是作为负对数边缘似然函数的最小值获得的

\displaystyle\begin{bmatrix}{\boldsymbol{\varphi}}^{*}\\ \sigma_{n}^{*}\end{bmatrix}=\arg\min_{{\boldsymbol{\varphi}}\in\Phi,\sigma_{n}\in\mathbb{R}_{\geq 0}}\log p(Y|X,{\boldsymbol{\varphi}}).

(51)

由于 50 推导的解析解是不可能的，因此通常使用基于梯度的优化算法来最小化该函数。然而，负对数似然通常是非凸的，因此无法保证找到最优值 ${\boldsymbol{\varphi}}^{*},\sigma_{n}^{*}$ 。事实上，每个局部最小值都对应于对数据的特定解释。在以下示例中，我们将可视化超参数如何影响回归。在八个数据点上训练具有平方指数核的 GPR。信号方差固定为 $\varphi_{1}=2.13$ 。首先，我们可视化长度尺度的影响。为此，信号噪声固定为 $\sigma_{n}=0.21$ 。图 7 显示了回归的后验均值和负对数似然函数。 log likelihood function. 左侧是三种不同长度尺度的后验均值。短长度尺度会导致过拟合，而大长度尺度会平滑训练数据（黑色十字）。虚线红色函数表示使用梯度下降算法针对 51 优化后的长度尺度的均值。右侧图显示了负对数似然函数。对数似然函数在信号方差 $\varphi_{1}$ 和长度尺度 $\varphi_{2}$ 上。最小值位于 ${\boldsymbol{\varphi}}^{*}=[2.13,1.58]^{\top}$ 。

[Uncaptioned image]

图 7: 左侧：具有不同长度尺度的回归：

\varphi_{2}=0.67

（青色，实线），

\varphi_{2}=7.39

（棕色，虚线）和

\varphi_{2}=1.58

（红色，点线）。右侧：负对数似然函数在信号方差

\varphi_{1}

和长度尺度

\varphi_{2}

上。

接下来，通过改变信号噪声 $\sigma_{n}$ 和长度尺度 $\varphi_{2}$ 来可视化数据不同解释的含义。图 8 的右侧图显示了负对数似然函数的两个最小值。左下角的最小值位于 $\log(\sigma_{n})=0.73$ 和 $\log(\varphi_{2})=-1.51$ ，它将数据解释为轻微噪声，从而导致左侧图中的点线红色后验均值。相反，右上角的最小值位于 $\log(\sigma_{n})=5$ 和 $\log(\varphi_{2})=-0.24$ ，它将数据解释为没有趋势的非常噪声，这表现为左侧图中的青色后验均值。根据初始值，基于梯度的优化器将终止于这些极小值之一。

[Uncaptioned image]

图 8: 左：数据的不同解释：没有趋势的噪声数据（青色，实线）和略带噪声的数据（红色，点线）。右：信号噪声

\sigma_{n}

和长度尺度

\varphi_{2}

上的负对数似然函数。

3.2.2 交叉验证方法

这种方法将数据集 $\mathcal{D}$ 分成两类：一类用于训练，另一类用于验证。交叉验证几乎总是用于 $k_{\text{cv}}$ -折交叉验证设置中： $k_{\text{cv}}$ -折交叉验证数据被分成 $k_{\text{cv}}$ 个不相交的、大小相等的子集；验证在一个子集上进行，训练使用剩余 $k_{\text{cv}}-1$ 个子集的并集进行，整个过程重复 $k_{\text{cv}}$ 次，每次使用一个不同的子集进行验证。在这里，不失一般性，我们介绍了留一交叉验证，这意味着 $k_{\text{cv}}={n_{\mathcal{D}}}$ 。遗漏一个训练点 $\{{\boldsymbol{x}}_{\text{dat}}^{\{i\}},\tilde{y}_{\text{dat}}^{\{i\}}\}$ 时的预测对数概率由下式给出

\displaystyle\log p(y_{\text{dat}}^{\{i\}}|X,Y_{-i},{\boldsymbol{\varphi}})=-\frac{1}{2}\log\left(\operatorname{var}_{-i}\right)-\frac{\left(\tilde{y}_{\text{dat}}^{\{i\}}-\operatorname{\mu}_{-i}\right)^{2}}{2\operatorname{var}_{-i}}-\frac{{n_{\mathcal{D}}}}{2}\log 2\pi,

(52)

其中 $\operatorname{\mu}_{-i}=\operatorname{\mu}(f_{\text{GP}}({\boldsymbol{x}}_{\text{dat}}^{\{i\}})|{\boldsymbol{x}}_{\text{dat}}^{\{i\}},X_{:,-i},Y_{-i})$ 和 $\operatorname{var}_{-i}=\operatorname{var}(f_{\text{GP}}({\boldsymbol{x}}_{\text{dat}}^{\{i\}})|{\boldsymbol{x}}_{\text{dat}}^{\{i\}},X_{:,-i},Y_{-i})$ 。 $-i$ 索引表示 $X$ 和 $Y$ 分别不包含元素 ${\boldsymbol{x}}_{\text{dat}}^{\{i\}}$ 和 $\tilde{y}_{\text{dat}}^{\{i\}}$ 。因此， 52 是在 ${\boldsymbol{x}}_{\text{dat}}^{\{i\}}$ 处输出 $y_{\text{dat}}^{\{i\}}$ 的概率，但没有训练点 $\{{\boldsymbol{x}}_{\text{dat}}^{\{i\}},\tilde{y}^{\{i\}}\}$ 。因此，留一交叉验证对数预测概率 $L_{\text{LOO}}\in\mathbb{R}$ 为

\displaystyle L_{\text{LOO}}=\sum_{i=1}^{n_{\mathcal{D}}}\log p(y_{\text{dat}}^{\{i\}}|X,Y_{-i},{\boldsymbol{\varphi}}).

(53)

与对数似然方法 51 相比，交叉验证通常计算量更大，但可能找到数据的更好表示，有关讨论和相关方法，请参见 [GE79]。

4 高斯过程动力学模型

到目前为止，我们考虑在非动态设置中使用 GPR，其中只考虑输入到输出的映射。然而，高斯过程动力学模型 (GPDMs) 最近已成为系统识别中的一种多功能工具，因为它们具有诸如偏差方差权衡和与贝叶斯数学的紧密联系等有益特性，参见 [FCR14]。在许多将 GPs 应用于动力学模型的工作中，只使用了过程的均值函数，例如，在 [WHB05] 和 [Cho+13] 中。这主要是因为 GP 模型通常用于替代确定性参数模型。然而，GPDMs 包含对底层动力学的更丰富描述，但也包含关于模型本身的不确定性，当考虑完整的概率表示时。因此，GPDMs 的一个主要方面是区分循环结构和非循环结构。如果回归向量的一部分取决于模型的输出，则该模型称为循环模型。尽管循环模型在行为方面变得更加复杂，但它们允许对数据序列进行建模，参见 [Sjö+95]。如果所有状态都从模型本身反馈回来，那么我们就会得到一个模拟模型，它是循环结构的特例。这种模型的优点是它独立于实际系统。因此，它适用于模拟，因为它允许进行多步预测。在本报告中，我们重点关注两种常用的循环结构：高斯过程状态空间模型 (GP-SSM) 和高斯过程非线性误差输出 (GP-NOE) 模型。

4.1 高斯过程状态空间模型

高斯过程状态空间模型被构建为离散时间系统。在这种情况下，状态是回归量，这在图 9 中进行了可视化。这种方法可以提高效率，因为回归量的内部结构不如输入输出模型那样受限。因此，可能存在一个在回归量数量方面非常有效的模型。从状态到输出的映射通常被认为是已知的。输出映射描述已知传感器模型的情况就是这样一个例子。在 [Fri+13]中提到，对状态映射 ${\boldsymbol{f}}$ 和输出映射使用过于灵活的模型会导致不可识别问题。因此，我们专注于已知的输出映射。因此，GP-SSM 的数学模型由

\displaystyle\begin{split}{\boldsymbol{x}}_{t+1}&={\boldsymbol{f}}({\boldsymbol{\xi}}_{t})=\begin{cases}f_{1}({\boldsymbol{\xi}}_{t})\sim\mathcal{GP}\left(m^{1}({\boldsymbol{\xi}}_{t}),k^{1}({\boldsymbol{\xi}}_{t},{\boldsymbol{\xi}}_{t}^{\prime})\right)\\ \vdots\hskip 25.6073pt\vdots\hskip 14.22636pt\vdots\\ f_{n_{x}}({\boldsymbol{\xi}}_{t})\sim\mathcal{GP}\left(m^{n_{x}}({\boldsymbol{\xi}}_{t}),k^{n_{x}}({\boldsymbol{\xi}}_{t},{\boldsymbol{\xi}}_{t}^{\prime})\right).\end{cases}\\ {\boldsymbol{y}}_{t}&\sim p({\boldsymbol{y}}_{t}|{\boldsymbol{x}}_{t},{\boldsymbol{\gamma}}_{y}),\end{split}

(54)

其中 ${\boldsymbol{\xi}}_{t}\in\mathbb{R}^{n_{\xi}},n_{\xi}=n_{x}+n_{u}$ 是状态向量 ${\boldsymbol{x}}_{t}\in\mathcal{X}\subseteq\mathbb{R}^{n_{x}}$ 和输入 ${{\boldsymbol{u}}}_{t}\in\mathcal{U}\subseteq\mathbb{R}^{n_{u}}$ 的串联，使得 ${\boldsymbol{\xi}}_{t}=[{{\boldsymbol{x}}_{t}};{\boldsymbol{u}}_{t}]$ 。均值函数由连续函数 $m^{1},\ldots,m^{n_{x}}\colon\mathbb{R}^{n_{\xi}}\to\mathbb{R}$ 给出。输出映射由已知向量 ${\boldsymbol{\gamma}}_{y}\in\mathbb{R}^{n_{\gamma}}$ 参数化，其中 $n_{\gamma}\in\mathbb{N}$ 。 GP-SSM 的系统识别任务主要集中在 ${\boldsymbol{f}}$ 上。它可以被描述为找到基于观察到的训练数据的状态转移概率。

Remark 6.

可以使用已建立的非线性识别技术（如 [KL99] 中介绍的）或利用嵌入式技术（如自动相关性确定 [Koc16]）来确定潜在的未知回归器数量。不匹配会导致与参数化系统识别中类似的问题。

4.2 高斯过程非线性输出误差模型

GP-NOE 模型使用模型的过去 $n_{\text{in}}\in\mathbb{N}_{>0}$ 输入值 ${{\boldsymbol{u}}}_{t}\in\mathcal{U}$ 和过去的 $n_{\text{out}}\in\mathbb{N}_{>0}$ 输出值 ${\boldsymbol{y}}_{t}\in\mathbb{R}^{n_{y}}$ 作为回归器。图 10 展示了 GP-NOE 的结构，其中输出被反馈。与 GP-SSM 类似，GP-NOE 的数学模型由

\displaystyle{\boldsymbol{y}}_{t+1}={\boldsymbol{h}}({\boldsymbol{\zeta}}_{t})=\begin{cases}h_{1}({\boldsymbol{\zeta}}_{t})\sim\mathcal{GP}\left(m^{1}({\boldsymbol{\zeta}}_{t}),k^{1}({\boldsymbol{\zeta}}_{t},{\boldsymbol{\zeta}}_{t}^{\prime})\right)\\ \vdots\hskip 25.6073pt\vdots\hskip 14.22636pt\vdots\\ h_{n_{y}}({\boldsymbol{\zeta}}_{t})\sim\mathcal{GP}\left(m^{n_{y}}({\boldsymbol{\zeta}}_{t}),k^{n_{y}}({\boldsymbol{\zeta}}_{t},{\boldsymbol{\zeta}}_{t}^{\prime})\right),\end{cases}

(55)

其中 ${\boldsymbol{\zeta}}_{t}\in\mathbb{R}^{n_{\zeta}},n_{\zeta}=n_{\text{out}}n_{y}+n_{\text{in}}n_{u}$ 是过去输出 ${\boldsymbol{y}}_{t}$ 和输入 ${{\boldsymbol{u}}}_{t}$ 的串联，使得 ${\boldsymbol{\zeta}}_{t}=[{\boldsymbol{y}}_{t-n_{\text{out}}+1};\ldots;{\boldsymbol{y}}_{t};{\boldsymbol{u}}_{t-n_{\text{in}}+1};\ldots;{\boldsymbol{u}}_{t}]$ 。均值函数由连续函数 $m^{1},\ldots,m^{n_{y}}\colon\mathbb{R}^{n_{\zeta}}\to\mathbb{R}$ 给出。与专注于单步预测的非线性自回归外生模型相反，NOE 模型更适合模拟，因为它考虑了多步预测 [Nel13]。然而，缺点是由于其递归结构，更复杂的训练过程需要非线性优化方案 [Koc16]。

Remark 7.

始终可以将识别的输入-输出模型转换为状态空间模型，参见 [PL70]。但是，仅仅关注状态空间模型将阻碍大量有用识别结果的开发。

Remark 8.

GP-SSM 和 GO-NOE 模型的控制相关属性在 [BH16a, BH16, BH20] 中讨论。

5 总结

在本文中，我们介绍了 GP 及其在 GPR 中的应用。基于以下属性：高斯过程 (GP) 的任何有限子集都遵循多元高斯分布，可以推导出一个封闭形式的公式来预测新测试点的均值和方差。如果高斯过程 (GP) 的输出数据是高斯分布的，它可以内在地处理噪声输出数据。由于高斯过程 (GP) 是一种数据驱动的方法，因此回归只需要很少的先验知识。此外，高斯过程 (GP) 模型的复杂度随着训练点的数量而增加。模型建模中的一个自由度是选择核函数及其超参数。我们概述了常见的内核以及成为有效内核函数的必要属性。对于超参数确定，展示了两种基于数值优化的方法。高斯过程 (GP) 的核与 RKHS 唯一相关，它决定了高斯过程 (GP) 样本的形状。基于此，我们比较了不同方法来量化模型误差，这些方法量化了高斯过程 (GP) 与实际数据生成函数之间的误差。最后，我们介绍了如何在 GP-SSM 和 GP-NOE 模型中将高斯过程 (GP) 模型用作动力系统。

附录 A 条件分布

令 ${\boldsymbol{\nu}}_{1}\in\mathbb{R}^{n_{\nu_{1}}},{\boldsymbol{\nu}}_{2}\in\mathbb{R}^{n_{\nu_{2}}}$ 为概率变量，其中 $n_{\nu_{1}},n_{\nu_{1}}\in\mathbb{N}$ ，它们是多元高斯分布

\displaystyle\begin{bmatrix}{\boldsymbol{\nu}}_{1}\\ {\boldsymbol{\nu}}_{2}\end{bmatrix}\sim\mathcal{N}\left(\begin{bmatrix}\operatorname{{\boldsymbol{\mu}}}_{1}\\ \operatorname{{\boldsymbol{\mu}}}_{2}\end{bmatrix},\begin{bmatrix}\Sigma_{11}&\Sigma_{12}^{\top}\\ \Sigma_{12}&\Sigma_{22}\end{bmatrix}\right)

(56)

均值为 $\operatorname{{\boldsymbol{\mu}}}_{1}\!\in\mathbb{R}^{n_{\nu_{1}}},\operatorname{{\boldsymbol{\mu}}}_{2}\!\in\mathbb{R}^{n_{\nu_{2}}}$ ，方差为 $\Sigma_{11}\!\in\mathbb{R}^{n_{\nu_{1}}\times n_{\nu_{1}}},\Sigma_{12}\!\in\mathbb{R}^{n_{\nu_{2}}\times n_{\nu_{1}}},\Sigma_{22}\!\in\mathbb{R}^{n_{\nu_{2}}\times n_{\nu_{2}}}$ 。任务是确定条件概率

\displaystyle\operatorname{p}({\boldsymbol{\nu}}_{2}|{\boldsymbol{\nu}}_{1})

\displaystyle=\frac{\operatorname{p}({\boldsymbol{\nu}}_{1},{\boldsymbol{\nu}}_{2})}{\operatorname{p}({\boldsymbol{\nu}}_{1})}.

(57)

联合概率 $\operatorname{p}({\boldsymbol{\nu}}_{1},{\boldsymbol{\nu}}_{2})$ 是一个多元高斯分布，其中

	$\displaystyle\operatorname{p}({\boldsymbol{\nu}}_{1},{\boldsymbol{\nu}}_{2})$	$\displaystyle=\frac{1}{(2\pi)^{(n_{\nu_{1}}+n_{\nu_{2}})/2}\det(\Sigma)^{\frac{1}{2}}}\exp\left(-\frac{1}{2}({\boldsymbol{x}}-\operatorname{{\boldsymbol{\mu}}})^{\top}\Sigma^{-1}({\boldsymbol{x}}-\operatorname{{\boldsymbol{\mu}}})\right)$		(58)
	$\displaystyle\operatorname{{\boldsymbol{\mu}}}$	$\displaystyle\coloneqq\begin{bmatrix}\operatorname{{\boldsymbol{\mu}}}_{1}\\ \operatorname{{\boldsymbol{\mu}}}_{2}\end{bmatrix},\quad\Sigma\coloneqq\begin{bmatrix}\Sigma_{11}&\Sigma_{12}^{\top}\\ \Sigma_{12}&\Sigma_{22}\end{bmatrix},$		(59)

其中 ${\boldsymbol{x}}=[{\boldsymbol{x}}_{1};{\boldsymbol{x}}_{2}],{\boldsymbol{x}}_{1}\in\mathbb{R}^{n_{\nu_{1}}},{\boldsymbol{x}}_{2}\in\mathbb{R}^{n_{\nu_{2}}}$ 。 ${\boldsymbol{\nu}}_{1}$

\displaystyle\operatorname{p}({\boldsymbol{\nu}}_{1})=\frac{1}{(2\pi)^{\frac{n_{\nu_{1}}}{2}}\det(\Sigma_{11})^{\frac{1}{2}}}\exp\left(-\frac{1}{2}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})^{\top}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})\right).

(60)

将联合分布除以边际分布再次得到一个高斯分布，其中

\displaystyle\operatorname{p}({\boldsymbol{\nu}}_{2}|{\boldsymbol{\nu}}_{1})

\displaystyle=\underbrace{\frac{\det(\Sigma_{11})^{\frac{1}{2}}}{(2\pi)^{\frac{n_{\nu_{2}}}{2}}\det(\Sigma)^{\frac{1}{2}}}}_{*}\exp\Bigl{(}-\frac{1}{2}\underbrace{\vphantom{\frac{\det(\Sigma_{22})^{\frac{1}{2}}}{(2\pi)^{(n/2)}}}\left[({\boldsymbol{x}}-\operatorname{{\boldsymbol{\mu}}})^{\top}\Sigma^{-1}({\boldsymbol{x}}-\operatorname{{\boldsymbol{\mu}}})-({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})^{\top}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})\right]}_{**}\Bigr{)},

(61)

其中第一部分 $*$

\displaystyle*=\frac{1}{(2\pi)^{\frac{n_{\nu_{2}}}{2}}}\left(\frac{\det(\Sigma_{11})}{\det(\Sigma_{11})\det(\Sigma_{22}-\Sigma_{12}\Sigma_{11}^{-1}\Sigma_{12}^{\top})}\right)^{\frac{1}{2}}=\frac{1}{(2\pi)^{\frac{n_{\nu_{2}}}{2}}\det(\Sigma_{22}-\Sigma_{12}\Sigma_{11}^{-1}\Sigma_{12}^{\top})^{\frac{1}{2}}}.

(62)

因此，条件分布 $\operatorname{p}({\boldsymbol{\nu}}_{2}|{\boldsymbol{\nu}}_{1})$

\displaystyle\Sigma_{22|1}=\Sigma_{22}-\Sigma_{12}\Sigma_{11}^{-1}\Sigma_{12}^{\top}.

(63)

为了简化 61 的第二部分 $**$

	$\displaystyle\Sigma$	$\displaystyle=\begin{bmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{bmatrix},\qquad\qquad\Sigma^{-1}=\begin{bmatrix}\Sigma_{11}^{\prime}&\Sigma_{12}^{\prime}\\ \Sigma_{21}^{\prime}&\Sigma_{22}^{\prime}\end{bmatrix}$		(64)
	$\displaystyle\begin{split}\Sigma_{11}^{\prime}&=\Sigma_{11}^{-1}+\Sigma_{11}^{-1}\Sigma_{12}N\Sigma_{21}\Sigma_{11}^{-1}\\ \Sigma_{12}^{\prime}&=-\Sigma_{11}^{-1}\Sigma_{12}N\\ \Sigma_{21}^{\prime}&=-N\Sigma_{21}\Sigma_{11}^{-1}\\ \Sigma_{22}^{\prime}&=N\end{split}$			(65)

其中 $N=(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}$ 因此，我们计算 $**$

$\displaystyle**$	$\displaystyle=\begin{bmatrix}{\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1}\\ {\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2}\end{bmatrix}^{\top}\begin{bmatrix}\Sigma_{11}&\Sigma_{12}^{\top}\\ \Sigma_{12}&\Sigma_{22}\end{bmatrix}^{-1}\begin{bmatrix}{\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1}\\ {\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2}\end{bmatrix}-({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})^{\top}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})$	(66)
	$\displaystyle=({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2})^{\top}\Sigma_{22\|1}^{-1}({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2})+2({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2})^{\top}\left(-\Sigma_{11}^{-1}\Sigma_{12}^{\top}\Sigma_{22\|1}^{-1}\right)({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})$
	$\displaystyle+({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})^{\top}\left(\Sigma_{11}^{-1}+\Sigma_{11}^{-1}\Sigma_{12}^{\top}\Sigma_{22\|1}^{-1}\Sigma_{12}\Sigma_{11}^{-1}\right)({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})-({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})^{\top}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})$	(67)
	$\displaystyle=\big{(}{\boldsymbol{x}}_{2}-\underbrace{\operatorname{{\boldsymbol{\mu}}}_{2}+\Sigma_{12}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})}_{\operatorname{{\boldsymbol{\mu}}}_{2\|1}}\big{)}^{\top}\Sigma_{22\|1}^{-1}\big{(}{\boldsymbol{x}}_{2}-\underbrace{\operatorname{{\boldsymbol{\mu}}}_{2}+\Sigma_{12}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})}_{\operatorname{{\boldsymbol{\mu}}}_{2\|1}}\big{)}$	(68)

最后，条件概率由条件均值 $\operatorname{{\boldsymbol{\mu}}}_{2|1}\in\mathbb{R}^{n_{\nu_{2}}}$

	$\displaystyle p({\boldsymbol{\nu}}_{2}\|{\boldsymbol{\nu}}_{1})$	$\displaystyle=\frac{1}{(2\pi)^{\frac{n_{\nu_{2}}}{2}}\det(\Sigma_{22\|1})^{\frac{1}{2}}}\exp\left(-\frac{1}{2}({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2\|1})^{\top}\Sigma_{22\|1}^{-1}({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2\|1})\right)$		(69)
	$\displaystyle\begin{split}\operatorname{{\boldsymbol{\mu}}}_{2\|1}&=\operatorname{{\boldsymbol{\mu}}}_{2}+\Sigma_{12}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})\\ \Sigma_{22\|1}&=\Sigma_{22}-\Sigma_{12}\Sigma_{11}^{-1}\Sigma_{12}^{\top}.\end{split}$			(70)

参考文献

[ÁRL12] Mauricio A. Álvarez, Lorenzo Rosasco and Neil D. Lawrence “Kernels for Vector-Valued Functions: A Review” In Foundations and Trends in Machine Learning 4.3, 2012, pp. 195–266 DOI: 10.1561/2200000036
[Aro50] Nachman Aronszajn “Theory of reproducing kernels” In Transactions of the American mathematical society 68.3, 1950, pp. 337–404 DOI: 10.2307/1990404
[Ber+16] Felix Berkenkamp, Riccardo Moriconi, Angela P. Schoellig and Andreas Krause “Safe Learning of Regions of Attraction for Uncertain, Nonlinear Systems with Gaussian Processes” In 2016 IEEE 55th Conference on Decision and Control (CDC), 2016, pp. 4661–4666
[Ber+17] Felix Berkenkamp, Matteo Turchetta, Angela P. Schoellig and Andreas Krause “Safe Model-based Reinforcement Learning with Stability Guarantees” In Advances in Neural Information Processing Systems, 2017, pp. 908–918
[BH16] Thomas Beckers and Sandra Hirche “Equilibrium distributions and stability analysis of Gaussian Process State Space Models” In 2016 IEEE 55th Conference on Decision and Control (CDC), 2016, pp. 6355–6361 DOI: 10.1109/CDC.2016.7799247
[BH16a] Thomas Beckers and Sandra Hirche “Stability of Gaussian Process State Space Models” In 2016 European Control Conference (ECC), 2016, pp. 2275–2281 DOI: 10.1109/ECC.2016.7810630
[BH20] Thomas Beckers and Sandra Hirche “Prediction with Gaussian Process Dynamical Models” In Transaction on Automatic Control, 2020
[Bis06] Christopher Bishop “Pattern recognition and machine learning” Springer-Verlag New York, 2006
[BKH19] Thomas Beckers, Dana Kulić and Sandra Hirche “Stable Gaussian Process based Tracking Control of Euler-Lagrange Systems” In Automatica, 2019, pp. 390–397 DOI: 10.1016/j.automatica.2019.01.023
[BLG16] Yusuf Bhujwalla, Vincent Laurain and Marion Gilson “The impact of smoothness on model class selection in nonlinear system identification: An application of derivatives in the RKHS” In 2016 American Control Conference (ACC), 2016, pp. 1808–1813 DOI: 10.1109/ACC.2016.7525181
[BUH18] Thomas Beckers, Jonas Umlauft and Sandra Hirche “Mean Square Prediction Error of Misspecified Gaussian Process Models” In 2018 IEEE Conference on Decision and Control (CDC), 2018, pp. 1162–1167 DOI: 10.1109/CDC.2018.8619163
[Cho+13] Girish Chowdhary, Hassan Kingravi, Jonathan How and Patricio A. Vela “Bayesian nonparametric adaptive control of time-varying systems using Gaussian processes” In 2013 American Control Conference, 2013, pp. 2655–2661 DOI: 10.1109/ACC.2013.6580235
[DM+05] Lokenath Debnath and Piotr Mikusinski “Introduction to Hilbert spaces with applications” Academic press, 2005
[FCR14] Roger Frigola, Yutian Chen and Carl E. Rasmussen “Variational Gaussian Process State-Space Models”, 2014 arXiv:1406.4905 [cs.LG]
[Fri+13] Roger Frigola, Fredrik Lindsten, Thomas B. Schön and Carl E. Rasmussen “Bayesian inference and learning in Gaussian process state-space models with particle MCMC” In Advances in Neural Information Processing Systems, 2013, pp. 3156–3164
[GE79] Seymour Geisser and William F. Eddy “A Predictive Approach to Model Selection” In Journal of the American Statistical Association 74.365, 1979, pp. 153–160 DOI: 10.1080/01621459.1979.10481632
[KL99] Robert Keviczky and Haber Laszlo “Nonlinear system identification: input-output modeling approach” Springer Netherlands, 1999
[Koc16] Juš Kocijan “Modelling and Control of Dynamic Systems Using Gaussian Process Models” Springer International Publishing, 2016 DOI: 10.1007/978-3-319-21021-6
[Mac97] David J. MacKay “Gaussian Processes - A Replacement for Supervised Neural Networks?”, 1997
[MXZ06] Charles A. Micchelli, Yuesheng Xu and Haizhang Zhang “Universal kernels” In Journal of Machine Learning Research 7, 2006, pp. 2651–2667
[Nel13] Oliver Nelles “Nonlinear system identification: from classical approaches to neural networks and fuzzy models” Springer-Verlag Berlin Heidelberg, 2013 DOI: 10.1007/978-3-662-04323-3
[PL70] M.. Phan and R.. Longman “Relationship between state-space and input-output models via observer Markov parameters” In WIT Transactions on The Built Environment 22 WIT Press, 1970 DOI: 10.2495/DCSS960121
[Rad96] Neal M. Radford “Bayesian learning for neural networks” Springer-Verlag New York, 1996 DOI: 10.1007/978-1-4612-0745-0
[Ras06] Carl E. Rasmussen “Gaussian processes for machine learning” The MIT Press, 2006
[SC04] John Shawe-Taylor and Nello Cristianini “Kernel methods for pattern analysis” Cambridge university press, 2004 DOI: 10.1017/CBO9780511809682
[SC08] Ingo Steinwart and Andreas Christmann “Support vector machines” Springer Science & Business Media, 2008 DOI: 10.1007/978-0-387-77242-4
[SHS06] Ingo Steinwart, Don Hush and Clint Scovel “An explicit description of the reproducing kernel Hilbert spaces of Gaussian RBF kernels” In IEEE Transactions on Information Theory 52.10, 2006, pp. 4635–4643 DOI: 10.1109/TIT.2006.881713
[Sjö+95] Jonas Sjöberg et al. “Nonlinear black-box modeling in system identification: a unified overview” In Automatica 31.12, 1995, pp. 1691–1724 DOI: 10.1016/0005-1098(95)00120-8
[Sri+12] Niranjan Srinivas, Andreas Krause, Sham M. Kakade and Matthias W. Seeger “Information-theoretic regret bounds for Gaussian process optimization in the bandit setting” In IEEE Transactions on Information Theory 58.5, 2012, pp. 3250–3265 DOI: 10.1109/TIT.2011.2182033
[UBH18] Jonas Umlauft, Thomas Beckers and Sandra Hirche “A Scenario-based Optimal Control Approach for Gaussian Process State Space Models” In 2018 European Control Conference (ECC), 2018, pp. 1386–1392 DOI: 10.23919/ECC.2018.8550458
[Wah90] Grace Wahba “Spline models for observational data” SIAM, 1990 DOI: 10.1137/1.9781611970128
[WHB05] Jack Wang, Aaron Hertzmann and David M. Blei “Gaussian process dynamical models” In Proceedings of the 18th International Conference on Neural Information Processing System, 2005, pp. 1441–1448 DOI: 10.5555/2976248.2976429
[WR96] Christopher K. Williams and Carl E. Rasmussen “Gaussian processes for regression” In Advances in neural information processing systems, 1996, pp. 514–520

	$\displaystyle\operatorname{\mu}(f_{\text{GP}}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{},\mathcal{D})$	$\displaystyle=m({\boldsymbol{z}}^{})+{\boldsymbol{k}}({\boldsymbol{z}}^{},X)^{\top}(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}\left(Y-[m(X_{:,1}),\ldots,m(X_{:,{n_{\mathcal{D}}}})]^{\top}\right)$
	$\displaystyle\operatorname{var}(f_{\text{GP}}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{},\mathcal{D})$	$\displaystyle=k({\boldsymbol{z}}^{},{\boldsymbol{z}}^{})-{\boldsymbol{k}}({\boldsymbol{z}}^{},X)^{\top}(K+\sigma_{n}^{2}I_{n_{\mathcal{D}}})^{-1}{\boldsymbol{k}}({\boldsymbol{z}}^{},X).$		(8)

	$\displaystyle\operatorname{\mu}(f_{\text{GP},i}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{}\!,\mathcal{D})$	$\displaystyle=m^{i}({\boldsymbol{z}}^{})+{\boldsymbol{k}}^{i}({\boldsymbol{z}}^{},X)^{\top}(K^{i}\!+\!\sigma_{n,i}^{2}I_{n_{\mathcal{D}}})^{-1}\left(Y_{:,i}\!-\![m^{i}(X_{:,1}),\ldots,m^{i}(X_{:,{n_{\mathcal{D}}}})]^{\top}\right)$
	$\displaystyle\operatorname{var}(f_{\text{GP},i}({\boldsymbol{z}}^{})\|{\boldsymbol{z}}^{}\!,\mathcal{D})$	$\displaystyle=k^{i}({\boldsymbol{z}}^{},{\boldsymbol{z}}^{})-{\boldsymbol{k}}^{i}({\boldsymbol{z}}^{},X)^{\top}(K^{i}\!+\!\sigma_{n,i}^{2}I_{n_{\mathcal{D}}})^{-1}{\boldsymbol{k}}^{i}({\boldsymbol{z}}^{},X)$		(13)

	$\displaystyle p({\boldsymbol{\nu}}_{2}\|{\boldsymbol{\nu}}_{1})$	$\displaystyle=\frac{1}{(2\pi)^{\frac{n_{\nu_{2}}}{2}}\det(\Sigma_{22\|1})^{\frac{1}{2}}}\exp\left(-\frac{1}{2}({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2\|1})^{\top}\Sigma_{22\|1}^{-1}({\boldsymbol{x}}_{2}-\operatorname{{\boldsymbol{\mu}}}_{2\|1})\right)$		(69)
	$\displaystyle\begin{split}\operatorname{{\boldsymbol{\mu}}}_{2\|1}&=\operatorname{{\boldsymbol{\mu}}}_{2}+\Sigma_{12}\Sigma_{11}^{-1}({\boldsymbol{x}}_{1}-\operatorname{{\boldsymbol{\mu}}}_{1})\\ \Sigma_{22\|1}&=\Sigma_{22}-\Sigma_{12}\Sigma_{11}^{-1}\Sigma_{12}^{\top}.\end{split}$			(70)