深度学习中的身份很重要

莫里茨·哈特谷歌大脑。 m@mrtz.org 马腾宇斯坦福大学。 tengyu@stanford.edu。在 Google 进行的工作。

摘要

深度学习中的一个新兴设计原则是深度人工神经网络的每一层都应该能够轻松地表达恒等变换。这个想法不仅激发了各种标准化技术，例如批量标准化，而且也是残差网络取得巨大成功的关键。

在这项工作中，我们将身份参数化的原理置于更坚实的理论基础上，同时取得了进一步的实证进展。我们首先给出一个非常简单的证明，证明任意深度的线性残差网络没有虚假的局部最优值。线性前馈网络在其标准参数化中的相同结果要微妙得多。其次，我们表明，具有 ReLu 激活的残差网络具有通用的有限样本表达能力，只要模型的参数多于样本大小，网络就可以表示其样本的任何函数。

直接受到我们理论的启发，我们尝试了一种极其简单的残差架构，仅包含残差卷积层和 ReLu 激活，但没有批量归一化、dropout 或最大池。我们的模型在 CIFAR10、CIFAR100 和 ImageNet 分类基准上比之前的全卷积网络有了显着改进。

1简介

用于图像分类的传统卷积神经网络，例如 AlexNet ([13])，其参数化方式为：当所有可训练权重均为 $0$ 时，卷积层表示 $0$ -映射。此外，权重围绕 $0 .$ 对称初始化这种标准参数化使得使用随机梯度方法训练的卷积层保留已经很好的特征变得非常重要。换句话说，这样的卷积层在训练时不能轻易收敛到恒等变换。

[9] 通过批量归一化观察到并部分解决了这个缺点，即使用学习的均值和协方差对输入进行逐层白化。但这个想法仍然有些隐含，直到残差网络([6];[7])明确引入了卷积层的重新参数化，这样当所有可训练的权重都是 $0,$ 层代表恒等函数。形式上，对于输入 $x,$ ，每个残差层的形式为 $x+h(x),$ 而不是 $h(x).$ 这种简单的重新参数化允许更深层次的架构，很大程度上避免了梯度消失（或爆炸）的问题。从那时起，残差网络以及使用相同参数化的后续架构在各种计算机视觉基准（例如 CIFAR10 和 ImageNet）上始终取得了最先进的结果。

1.1 我们的贡献

在这项工作中，我们从理论角度考虑恒等参数化，同时将我们的一些理论见解转化为实验。宽松地说，我们的第一个结果强调了身份参数化如何使优化变得更容易，而我们的第二个结果表明对于表示来说也是如此。

线性残差网络。

由于一般的非线性神经网络超出了当前优化理论方法的范围，因此我们将深度线性网络的情况视为简化模型。线性网络将任意线性映射表示为矩阵序列 $A_{\ell}\cdots A_{2}A_{1}.$ 目标函数为 $\mathbb{E}\|y-A_{\ell}\cdots A_{1}x\|^{2}$ ，其中 $y=Rx$ 用于某些未知的线性变换， $R$ 和 $x$ 是从分布中得出的。近年来，人们对这种线性网络进行了积极的研究，作为通向一般非线性情况的垫脚石（参见1.2节）。尽管 $A_{\ell}\cdots A_{1}$ 只是一个线性映射，但因子变量 $(A_{\ell},\dots,A_{1})$ 的优化问题是非凸的。

与残差网络类似，我们将目标函数参数化为

\min_{A_{1},\dots,A_{\ell}}\mathbb{E}\|y-(I+A_{\ell})\cdots(I+A_{1})x\|^{2}\,.

(1.1)

直观地说，当深度 $\ell$ 足够大时，我们可以希望目标函数 $R$ 具有因子表示，其中每个矩阵 $A_{i}$ 具有较小的矩阵规范。例如，任何对称正半inite 矩阵 $O$ 都可以写成乘积 $O=O_{\ell}\cdots O_{1},$ ，其中每个 $O_{i}=O^{1/\ell}$ 对于大的 $\ell$ 都非常接近同一性，因此 $A_{i}=O_{i}-I$ 具有较小的谱规范。我们首先证明类似的主张对于所有具有正行列式的线性变换 $R$ 都是正确的¹¹1正如下面将要讨论的定理2.1，不失一般性地假设 $R$ 的行列式是积极的。 . 具体来说，我们证明对于每个具有 $\det(R)>0$ 的线性变换 $R$ ，都存在一个 (1.1) 的全局优化器 $(A_{1},\dots,A_{\ell})$ ，使得足够大的深度 $\ell,$

\max_{1\leq i\leq\ell}\|A_{i}\|\leq O(1/\ell).

(1.2)

这里， $\|A\|$ 表示 $A .$ 的谱范数常数因子取决于 $R .$ 的条件。我们在定理2.1中给出了正式的陈述。该定理有一个有趣的结果，即随着深度的增加，存在较小的范数解，因此正则化可能会抵消参数的增加。

确定了小范数解的存在性后，我们对线性残差网络的主要结果表明，当所有矩阵都具有足够小的范数时，目标函数 (1.1) 实际上很容易优化。更正式地说，让 $A=(A_{1},\dots,A_{\ell})$ 和 $f(A)$ 表示 (1.1) 中的目标函数，我们可以证明仅当 $f(A)=0$ 时梯度才消失> 前提是 $\max_{i}\|A_{i}\|\leq O(1/\ell).$ 参见定理2.2。这个结果意味着线性残差网络除了全局最优之外没有临界点。相比之下，对于标准线性神经网络，通过[12]的工作，我们只知道这些网络除了全局最优之外没有局部最优，但并不排除其他临界点。事实上，设置 $A_{i}=0$ 总是会导致标准参数化中出现错误的临界点。

通用有限样本表达能力。

回到具有 ReLU 激活的非线性残差网络，我们可以问：仅基于具有 ReLU 激活的残差层的深度神经网络的表达能力如何？为了回答这个问题，我们给出了一个非常简单的结构，表明这种残差网络具有完美的有限样本表达能力。换句话说，具有 ReLU 激活的残差网络可以轻松表达大小为 $n,$ 的样本的任何函数，只要它具有足够多于 $n$ 的参数。请注意，这个要求在实践中很容易满足。例如，在 CIFAR 10 ( $n=50000$ ) 上，成功的残差网络通常具有多个 $10^{6}$ 个参数。更正式地说，对于大小为 $n$ 且具有 $r$ 类的数据集，我们的构造需要 $O(n\log n+r^{2})$ 参数。定理3.2给出了正式的陈述。

我们构造中的每个残差层的形式为 $x+V\mathrm{ReLU}(Ux),$ ，其中 $U$ 和 $V$ 是线性变换。这些层比标准残差层简单得多，标准残差层通常具有两个 ReLU 激活以及两个批量归一化实例。

全卷积残差网络的强大功能。

直接受到我们表达性结果的简单性的启发，我们在 CIFAR10、CIFAR100 和 ImageNet 数据集上尝试了非常相似的架构。我们的架构只是一系列卷积残差层，每个层都有一个 ReLU 激活，但没有标准架构中常见的批量归一化、丢失或最大池化。最后一层是未经训练的固定随机投影。根据我们的理论，卷积权重在 $0,$ 附近初始化，主要使用高斯噪声作为对称破坏器。唯一的正则化器是标准权重衰减( $\ell_{2}$ -正则化），并且不需要 dropout。尽管很简单，我们的架构在 CIFAR10 基准（使用标准数据增强）上达到了 $6.38\%$ top- $1$ 分类错误。这与[6]中报告的最佳残差网络具有竞争力，后者实现了 $6.43\%$ 。此外，它还改进了之前由 [15] 实现的最佳全卷积网络 $7.25\%$ 的性能。与我们的不同，之前的全卷积架构还需要对整个数据集进行 dropout 和非标准预处理（ZCA）。我们的架构还显着改进了 Cifar100 和 ImageNet 上的 [15]。

1.2相关工作

自从残差网络([6];[7])出现以来，大多数最先进的图像分类网络都采用了卷积网络的残差参数化层。 [8] 报告了残差网络变体（称为密集网络)的进一步令人印象深刻的改进。这些网络不是将原始输入添加到卷积层的输出，而是直接通过串联保留原始特征。在此过程中，密集网络还能够轻松地在更高维空间中对身份嵌入进行编码。看看我们的理论结果是否也适用于这种残差网络变体将会很有趣。

尽管全面的答案仍然难以捉摸，但在理解神经网络的优化领域方面最近取得了进展。 [5]和[4]中的实验表明，训练目标具有有限数量的具有较大函数值的不良局部最小值。 [3] 的工作在神经网络的优化景观与物理学中的自旋玻璃模型的优化景观之间进行了类比 ([1])。 [14]表明 $2$ 层神经网络没有不好的可微局部最小值，但他们没有证明一个好的可微局部最小值确实存在。 [2]和[12]表明线性神经网络没有坏的局部极小值。相比之下，我们表明深度线性残差网络的优化景观没有坏的临界点，这是一个更强、更理想的特性。我们的证明也明显更简单，说明了重新参数化优化的力量。我们的结果还表明，与较浅的网络相比，更深的网络可能具有更理想的优化景观。

2 线性残差网络的优化景观

考虑从噪声测量 $y=Rx+\xi,$ 学习线性变换 $R\colon\mathbb{R}^{d}\to\mathbb{R}^{d}$ 的问题，其中 $\xi\in\mathcal{N}(0,I_{d})$ 是 $d$ 维球形高斯向量。用 $\mathcal{D}$ 表示输入数据 $x,$ 的分布，令 $\Sigma=\mathop{\mathbb{E}}\displaylimits_{x\sim\mathcal{D}}[xx^{\top}]$ 为其协方差矩阵。

当然，有很多方法可以解决这个经典问题，但我们的目标是深入了解神经网络，特别是残差网络的优化领域。因此，我们通过一系列权重矩阵 $A_{1},\dots,A_{\ell}\in\mathbb{R}^{d\times d}$ 来参数化我们的学习模型，

\displaystyle h_{0}

\displaystyle=x\,,\qquad h_{j}=h_{j-1}+A_{j}h_{j-1}\,,\qquad\hat{y}=h_{\ell}\,.

(2.1)

这里 $h_{1},\dots,h_{\ell-1}$ 是 $\ell-1$ 隐藏层， $\hat{y}=h_{\ell}$ 是学习模型对输入 $x .$ 的预测更简洁地说，我们有

\displaystyle\hat{y}=(I+A_{\ell})\dots(I+A_{1})x\,.

很容易看出这个模型可以表达任何线性变换 $R .$ 我们将使用 $A$ 作为所有权重矩阵的简写，即 $\ell\times d\times d$ 维张量，包含 $A_{1},\dots,A_{\ell}$ 作为切片。我们的目标函数是最大似然估计，

\displaystyle f(A,(x,y))=\lVert\hat{y}-y\rVert^{2}=\lVert(I+A_{\ell})\dots(I+A_{1})x-Rx-\xi\rVert^{2}\,.

(2.2)

我们将分析人口风险的情况，定义为：

\displaystyle f(A):=\mathop{\mathbb{E}}\displaylimits\left[f(A,(x,y))\right]\,.

回想一下， $\lVert A_{i}\rVert$ 是 $A_{i}$ 的谱范数。我们将张量 $A$ 的范数 ${\left|\kern-1.07639pt\left|\kern-1.07639pt\left|\cdot\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}$ 定义为其切片的谱范数的最大值，

\displaystyle{\left|\kern-1.07639pt\left|\kern-1.07639pt\left|A\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}:=\max_{1\leq i\leq\ell}\lVert A_{i}\rVert\,.

本节第一个定理指出，目标函数 $f$ 具有较小 ${\left|\kern-1.07639pt\left|\kern-1.07639pt\left|\cdot\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}$ 范数的最优解，其与层数成反比 $\ell$ 。因此，当架构很深时，我们可以寻找相当小的范数解决方案。我们定义 $\gamma:=\max\{|\log\sigma_{\max}(R)|,|\log\sigma_{\min}(R)|\}$ 。这里 $\sigma_{\min}(\cdot),\sigma_{\max}(\cdot)$ 分别表示 $R$ 的最小和最大奇异值。

Theorem 2.1.

假设 $\ell\geq 3\gamma$ 和 $\det(R)>0$ 。那么，存在一个具有范数的群体风险 $f(\cdot)$ 的全局最优解 $A^{\star}$

{\left|\kern-1.07639pt\left|\kern-1.07639pt\left|A^{\star}\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}\leq(4\pi+3\gamma)/\ell\,.

我们首先注意到条件 $\det(R)>0$ 在以下意义上不失一般性。给定任何具有负行列式的线性变换 $R$ ，我们可以通过使用附加维度增强数据和标签来有效地翻转行列式：让 $x^{\prime}=[x,b]$ 和 $y^{\prime}=[y,-b]$ ，其中 $b$ 是一个独立的随机变量（例如，来自标准正态分布），并让 $R^{\prime}=\begin{bmatrix}R&0\\ 0&-1\end{bmatrix}$ 。然后，我们有 $y^{\prime}=R^{\prime}x^{\prime}+\xi$ 和 $\det(R^{\prime})=-\det(R)>0$ 。²²2当维度为奇数时，有一个更简单的方法可以看到这一点 - 翻转标签对应于翻转 $R$ ，我们有 $\det(-R)=-\det(R)$ 。

其次，我们注意到这里 $\gamma$ 应该被认为是一个常量，因为如果 $R$ 太大（或太小），我们可以适当缩放数据，以便 $\sigma_{\min}(R)\leq 1\leq\sigma_{\max}(R)$ . 具体来说，如果 $\sigma_{\max}(R)/\sigma_{\min}(R)=\kappa$ ，那么我们可以正确缩放输出，以便 $\sigma_{\min}(R)=1/\sqrt{\kappa}$ 和 $\sigma_{\max}(R)=\sqrt{\kappa}$ 。在本例中，我们有 $\gamma=\log\sqrt{\kappa}$ ，对于相当大的条件数 $\kappa$ ，它将保持一个小常数。我们还指出，我们在分析中没有尝试优化常量因素。定理2.1的证明比较复杂，推迟到A节。

鉴于对定理 2.1 的观察，我们将注意力限制在分析 $A$ 与 ${\left|\kern-1.07639pt\left|\kern-1.07639pt\left|\cdot\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}$ 集合中的 $f(\cdot)$ 的景观 -范数小于 $\tau$ ，

\displaystyle\mathcal{B}_{\tau}=\{A\in\mathbb{R}^{\ell\times d\times d}:{\left|\kern-1.07639pt\left|\kern-1.07639pt\left|A\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}\leq\tau\}\,.

这里使用定理2.1，半径 $\tau$ 应该被认为是 $1/\ell$ 的量级。我们在本节中的主要定理声称，对于任何 $\tau<1$ ，域 $\mathcal{B}_{\tau}$ 中不存在坏临界点。回想一下，临界点具有消失梯度。

Theorem 2.2.

对于任何 $\tau<1$ ，我们有域 $\mathcal{B}_{\tau}$ 内目标函数 $f(\cdot)$ 的任何临界点 $A$ 也必须是全局最小值。

定理2.2表明优化器足以收敛到总体风险的临界点，因为所有临界点也是全局最小值。

此外，除了定理2.2之外，我们还有域 $\mathcal{B}_{\tau}$ 内的任何 $A$ 满足

\displaystyle\left\lVert\nabla f(A)\right\rVert_{F}^{2}\geq 4\ell(1-\tau)^{2\ell-2}\sigma_{\min}(\Sigma)(f(A)-C_{\textup{opt}})\,.

(2.3)

这里 $C_{\textup{opt}}$ 是 $f(\cdot)$ 的全局最小值， $\lVert\nabla f(A)\rVert_{F}$ 表示欧氏范数³³3即 $\lVert T\rVert_{F}:=\sqrt{\sum_{ijk}T_{ijk}^{2}}$ 。 $\ell\times d\times d$ 维张量 $\nabla f(A)$ 的。注意， $\sigma_{\min}(\Sigma)$ 表示 $\Sigma$ 的最小奇异值。

方程 (2.3) 表示，与误差相比，梯度具有相当大的范数，这保证了迭代时梯度下降收敛到全局最小值 ([11])留在域 $\mathcal{B}_{\tau},$ 内，这不能由定理2.2本身保证。

为了证明定理2.2，我们从一个简化群体风险的简单主张开始。我们用 $\lVert\cdot\rVert_{F}$ 表示矩阵的Frobenius范数， $\langle A,B\rangle$ 表示标准基中 $A$ 和 $B$ 的内积（即 $\langle A,B\rangle=\textup{tr}(A^{\top}B)$ ，其中 $\textup{tr}(\cdot)$ 表示矩阵的迹。）

断言 2.3。

在本节的设置中，我们有，

\displaystyle f(A)=\left\lVert((I+A_{\ell})\dots(I+A_{1})-R)\Sigma^{1/2}\right\rVert_{F}^{2}+C\,.

(2.4)

这里 $C$ 是一个不依赖于 $A$ 的常数， $\Sigma^{1/2}$ 表示 $\Sigma$ 的平方根，即满足 $B^{2}=\Sigma$ 的唯一对称矩阵 $B$ 。

断言 2.3 的证明。

设 $\textup{tr}(A)$ 表示矩阵 $A$ 的迹。让 $E=(I+A_{\ell})\dots(I+A_{1})-R$ 。回顾 $f(A)$ 的定义并使用方程 (2.2)，我们有

$\displaystyle f(A)$	$\displaystyle=\mathop{\mathbb{E}}\displaylimits\left[\lVert Ex-\xi\rVert^{2}\right]$	(by equation (2.2) )
	$\displaystyle=\mathop{\mathbb{E}}\displaylimits\left[\lVert Ex\rVert^{2}+\lVert\xi\rVert^{2}-2\langle Ex,\xi\rangle\right]$
	$\displaystyle=\mathop{\mathbb{E}}\displaylimits\left[\textup{tr}(Exx^{\top}E^{\top})\right]+\mathop{\mathbb{E}}\displaylimits\left[\lVert\xi\rVert^{2}\right]$	(since $\mathop{\mathbb{E}}\displaylimits\left[\langle Ex,\xi\rangle\right]=\mathop{\mathbb{E}}\displaylimits\left[\langle Ex,\mathop{\mathbb{E}}\displaylimits\left[\xi\|x\right]\rangle\right]=0$ )
	$\displaystyle=\textup{tr}\left(E\mathop{\mathbb{E}}\displaylimits\left[xx^{\top}\right]E^{\top}\right)+C$	(where $C=\mathop{\mathbb{E}}\displaylimits[\xi^{2}]$ )
	$\displaystyle=\textup{tr}(E\Sigma E^{\top})+C=\lVert E\Sigma^{1/2}\rVert_{F}^{2}+C\,.$	(since $\mathop{\mathbb{E}}\displaylimits\left[xx^{\top}\right]=\Sigma$ )

∎

接下来，我们通过简单的矩阵演算计算目标函数 $f(\cdot)$ 的梯度。我们将完整的证明推迟到 A 部分。

Lemma 2.4.

$f(\cdot)$ 的梯度可以写为，

\displaystyle{\frac{\partial f}{\partial A_{i}}}=2(I+A_{i+1}^{\top})\dots(I+A_{\ell}^{\top})E\Sigma(I+A_{1}^{\top})\dots(I+A_{i-1}^{\top})\,,

(2.5)

其中 $E=(I+A_{\ell})\dots(I+A_{1})-R$ 。

现在我们准备证明定理2.2。关键的观察是每个矩阵 $A_{j}$ 具有较小的范数并且不能取消单位矩阵。因此，方程(2.5)中的梯度是除误差矩阵 $E$ 之外的非零矩阵的乘积。因此，如果梯度消失，那么唯一的可能是矩阵 $E$ 消失，这又意味着 $A$ 是最优解。

定理证明2.2。

使用引理 2.4，我们有，

$\displaystyle\left\lVert{\frac{\partial f}{\partial A_{i}}}\right\rVert_{F}$	$\displaystyle=2\left\lVert(I+A_{i+1}^{\top})\dots(I+A_{\ell}^{\top})E\Sigma(I+A_{1}^{\top})\dots(I+A_{i-1}^{\top})\right\rVert_{F}$	(by Lemma 2.4)
	$\displaystyle\geq 2\prod_{j\neq i}\sigma_{\min}(I+A_{i}^{\top})\cdot\sigma_{\min}(\Sigma)\lVert E\rVert_{F}$	(by Claim C.2)
	$\displaystyle\geq 2(1-\tau)^{\ell-1}\sigma_{\min}(\Sigma^{1/2})\lVert E\Sigma^{1/2}\rVert_{F}\,.$	(since $\sigma_{\min}(I+A)\geq 1-\lVert A\rVert$ )

它遵循

$\displaystyle\left\lVert\nabla f(A)\right\rVert_{F}^{2}$	$\displaystyle=\sum_{i=1}^{\ell}\left\lVert{\frac{\partial f}{\partial A_{i}}}\right\rVert_{F}^{2}\geq 4\ell(1-\tau)^{2(\ell-1)}\sigma_{\min}(\Sigma)\lVert E\Sigma^{1/2}\rVert_{F}^{2}$
	$\displaystyle=4\ell(1-\tau)^{2(\ell-1)}\sigma_{\min}(\Sigma)(f(A)-C)$	(by the definition of $E$ and Claim 2.3)
	$\displaystyle\geq 4\ell(1-\tau)^{2(\ell-1)}\sigma_{\min}(\Sigma)(f(A)-C_{\textup{opt}})\,.$

因此我们完成了方程的证明(2.3)。最后，如果 $A$ 是一个临界点，即 $\nabla f(A)=0$ ，那么通过方程(2.3)我们可以得到 $f(A)=C_{\textup{opt}}$ 。也就是说， $A$ 是全局最小值。 ∎

3 残差网络的表征能力

在本节中，我们描述残差网络的有限样本表达能力。我们考虑具有单个 ReLU 激活且没有批量归一化的残差层。基本残差构建块是一个函数 $\mathcal{T}_{U,V,s}(\cdot):\mathbb{R}^{k}\rightarrow\mathbb{R}^{k}$ ，它由两个权重矩阵 $U\in\mathbb{R}^{k\times k},V\in\mathbb{R}^{k\times k}$ 和一个偏差向量 $s\in\mathbb{R}^{k}$ 参数化，

\displaystyle\mathcal{T}_{U,V,s}(h)=V\textup{ReLu}(Uh+s)\,.

(3.1)

残差网络由一系列此类残差块组成。与[7]中的完整预激活架构相比，我们在每个构建块中删除了两个批量归一化层和一个ReLU层。

我们假设数据具有 $r$ 标签，编码为 $\mathbb{R}^{r}$ 中的 $r$ 标准基向量，用 $e_{1},\dots,e_{r}$ 表示。我们有 $n$ 训练示例 $(x^{(1)},y^{(1)}),\dots,(x^{(n)},y^{(n)})$ ，其中 $x^{(i)}\in\mathbb{R}^{d}$ 表示第 $i$ 数据， $y^{(i)}\in\{e_{1},\dots,e_{r}\}$ 表示 $i$ -第一个标签。不失一般性，我们假设数据已标准化，因此 $x^{(i)}=1.$ 我们还做出温和的假设，即没有两个数据点彼此非常接近。

Assumption 3.1.

我们假设对于每个 $1\leq i<j\leq n$ ，我们都有 $\lVert x^{(i)}-x^{(j)}\rVert^{2}\geq\rho$ 对于某个绝对常数 $\rho>0.$

例如，图像总是可以在像素空间中受到难以察觉的扰动，从而满足小但恒定的 $\rho.$ 的假设

在这个温和的假设下，我们证明只要参数数量是大于 $n$ 的对数因子，残差网络就有能力表达数据的任何可能的标签。

Theorem 3.2.

假设训练示例满足假设3.1。然后，存在一个残差网络 $N$ （如下指定），其参数 $O(n\log n+r^{2})$ 完美地表达了训练数据，即对于所有 $i\in\{1,\dots,n\},$ 网络 $N$ 将 $x^{(i)}$ 映射到 $y^{(i)}.$

在实践中， $n>r^{2},$ 很常见，例如 Imagenet 数据集的情况，其中 $n>10^{6}$ 和 $r=1000.$

我们使用等式 (3.1) 中定义的 $\mathcal{T}_{U,V,s}$ 形式的构建块构建以下残差网络。该网络由 $\ell+1$ 隐藏层 $h_{0},\dots,h_{\ell}$ 组成，输出由 $\hat{y}\in\mathbb{R}^{r}$ 表示。第一层权重矩阵 $A_{0}$ 将 $d$ 维输入映射到 $k$ 维隐藏变量 $h_{0}$ 。然后我们应用带有权重矩阵 $A_{j},B_{j}\in\mathbb{R}^{k\times k}$ 的构建块 $\mathcal{T}$ 的 $\ell$ 层。最后，我们应用另一个层将隐藏变量 $h_{\ell}$ 映射到 $\mathbb{R}^{k}$ 中的标签 $\hat{y}$ 。从数学上来说，我们有

	$\displaystyle h_{0}$	$\displaystyle=A_{0}x\,,$
	$\displaystyle h_{j}$	$\displaystyle=h_{j-1}+\mathcal{T}_{A_{j},B_{j},b_{j}}(h_{j-1}),\quad\forall j\in\{1,\dots,\ell\}$
	$\displaystyle\hat{y}$	$\displaystyle=\mathcal{T}_{A_{\ell+1},B_{\ell+1},s_{\ell+1}}(h_{\ell})\,.$

我们注意这里的 $A_{\ell+1}\in\mathbb{R}^{k\times r}$ 和 $B_{\ell+1}\in\mathbb{R}^{r\times r}$ 以便维度兼容。我们假设标签数 $r$ 和输入维度 $d$ 都小于 $n$ ，这在实际应用中是安全的。⁴⁴4In computer vision, typically $r$ is less than $10^{3}$ and $d$ is less than $10^{5}$ while $n$ is larger than $10^{6}$ 超参数 $k$ 将选择为 $O(\log n)$ ，层数选择为 $\ell=\lceil n/k\rceil$ 。因此，第一层具有 $d k$ 参数，中间的每个 $\ell$ 构建块包含 $2k^{2}$ 参数，最终构建块具有 $kr+r^{2}$ 参数。因此，参数总数为 $O(kd+\ell k^{2}+rk+r^{2})=O(n\log n+r^{2})$ 。

为了构建适合数据的上述形式的网络 $N$ ，我们首先采用一个随机矩阵 $A_{0}\in\mathbb{R}^{k\times d}$ 将所有数据点 $x^{(i)}$ 映射到向量 $h_{0}^{(i)}:=A_{0}x^{(i)}$ 。这里我们将使用 $h_{j}^{(i)}$ 来表示第 $i$ 示例的第 $j$ 层隐藏变量。根据 Johnson-Lindenstrauss 定理([10]，或参见 [17])，很有可能，结果向量 $h_{0}^{(i)}$ 仍然满足假设3.1（缩放比例略有不同，常数 $\rho$ 较大），即任意两个向量 $h_{0}^{(i)}$ 和 $h_{0}^{(j)}$ 不是很相关的。

然后我们构造 $\ell$ 中间层，将每个 $i\in\{1,\dots,n\}$ 的 $h_{0}^{(i)}$ 映射到 $h_{\ell}^{(i)}$ 。这些向量 $h_{\ell}^{(i)}$ 将根据标签聚集到 $r$ 组中，尽管它们位于 $\mathbb{R}^{k}$ 中，而不是所需的 $\mathbb{R}^{r}$ 中。具体来说，我们通过在 $\mathbb{R}^{k}$ 中挑选 $r$ 随机单位向量 $q_{1},\dots,q_{r}$ 来设计这个聚类中心。我们将它们视为维度 $k$ 中的代理标签向量（请注意， $k$ 可能比 $r$ 小得多）。在高维度（技术上，如果 $k>4\log r$ )随机单位向量 $q_{1},\dots,q_{r}$ 与小于 $<0.5$ 的内积成对不相关。我们将第 $i$ 个示例与定义如下的目标代理标签向量 $v^{(i)}$ 相关联，

\displaystyle\textup{if }y^{(i)}=e_{j},\textup{ then }v^{(i)}=q_{j}\,.

(3.2)

然后，我们将构造矩阵 $(A_{1},B_{1}),\dots,(A_{\ell},B_{\ell})$ ，以便网络的前 $\ell$ 层将向量 $h_{0}^{(i)}$ 映射到代理标签向量 $v^{(i)}$ 。从数学上讲，我们将构造 $(A_{1},B_{1}),\dots,(A_{\ell},B_{\ell})$ 使得

\displaystyle\forall i\in\{1,\dots,n\},h_{\ell}^{(i)}=v^{(i)}\,.

(3.3)

最后，我们将构造最后一层 $\mathcal{T}_{A_{\ell+1},B_{\ell+1},b_{\ell+1}}$ ，以便它将向量 $q_{1},\dots,q_{r}\in\mathbb{R}^{k}$ 映射到 $e_{1},\dots,e_{r}\in\mathbb{R}^{r}$ ，

\displaystyle\forall j\in\{1,\dots,r\},\mathcal{T}_{A_{\ell+1},B_{\ell+1},b_{\ell+1}}(q_{j})=e_{j}\,.

(3.4)

将它们放在一起，通过定义 (3.2) 和方程 (3.3)，对于每个 $i$ ，如果标签为 $y^{(i)}$ 是 $e_{j}$ ，那么 $h_{\ell}^{(i)}$ 将是 $q_{j}$ 。然后通过方程(3.4)，我们得到 $\hat{y}^{(i)}=\mathcal{T}_{A_{\ell+1},B_{\ell+1},b_{\ell+1}}(q_{j})=e_{j}$ 。因此我们得到 $\hat{y}^{(i)}=y^{(i)}$ 。该计划的关键部分是构建中间 $\ell$ 层权重矩阵，以便 $h_{\ell}^{(i)}=v^{(i)}$ 。我们将其封装到以下非正式引理中。正式声明和完整证明推迟到B节。

Lemma 3.3 （引理B.2的非正式版本）。

在上面的设置中，对于（几乎）任意向量 $h_{0}^{(1)},\dots,h_{0}^{(n)}$ 和 $v^{(1)},\dots,v^{(n)}\in\{q_{1},\dots,q_{r}\}$ ，存在权重矩阵 $(A_{1},B_{1}),\dots,(A_{\ell},B_{\ell})$ ，这样，

\displaystyle\forall i\in\{1,\dots,n\},~{}~{}~{}h_{\ell}^{(i)}=v^{(i)}\,.

我们简要地概述引理的证明以提供直觉，并将完整的证明推迟到 B 节。每个残差块应用于隐藏变量的操作可以抽象地写为：

\displaystyle\hat{h}\rightarrow h+\mathcal{T}_{U,V,s}(h)\,.

(3.5)

其中 $h$ 对应于块之前的隐藏变量， $\hat{h}$ 对应于块之后的隐藏变量。我们声称，对于（几乎）任意的向量序列 $h^{(1)},\dots,h^{(n)}$ ，存在 $\mathcal{T}_{U,V,s}(\cdot)$ ，使得操作(3.5)变换 $k$ $h^{(i)}$ 的向量到我们可以自由选择的任意一组其他 $k$ 向量，并保持其余 $n-k$ 向量的值。具体来说，对于任何大小为 $k$ 的子集 $S$ 和任何所需的向量 $v^{(i)}(i\in S)$ ，都存在 $U, V, s$ 使得

	$\displaystyle v^{(i)}$	$\displaystyle=h^{(i)}+\mathcal{T}_{U,V,s}(h^{(i)})~{}~{}\forall i\in S$
	$\displaystyle h^{(i)}$	$\displaystyle=h^{(i)}+\mathcal{T}_{U,V,s}(h^{(i)})~{}~{}\forall i\not\in S$		(3.6)

该主张在引理 B.1 中得到了形式化。我们可以重复使用它来构建 $\ell$ 层构建块，每个构建块将 $\{h_{0}^{(1)},\dots,h_{0}^{(n)}\}$ 中的 $k$ 向量子集转换为 $\{v^{(1)},\dots,v^{(n)}\}$ ，并维护他人的价值观。回想一下，我们有 $\ell=\lceil n/k\rceil$ 层，因此在 $\ell$ 层之后，所有向量 $h_{0}^{(i)}$ 都会转换为 $v^{(i)}$ 的，这完成校样草图。 ∎

4 全卷积残差网络的功效

受我们理论的启发，我们在标准图像分类基准上尝试了全卷积残差网络。

4.1 CIFAR10 和 CIFAR100

我们的 CIFAR10 和 CIFAR100 架构是相同的，除了最终维度分别对应于类 $10$ 和 $100$ 的数量。在表 1 中，我们概述了我们的架构。每个残差块的形式为 $x+C_{2}(\mathrm{ReLU}(C_{1}x)),$ ，其中 $C_{1},C_{2}$ 是指定维度的卷积（内核宽度、内核高度、输入通道数、输出通道数））。每个块中的第二个卷积始终具有步幅 $1$ ，而第一个卷积可能具有指定的步幅 $2$ 。在变换不保持维度的情况下，原始输入 $x$ 使用平均池化和填充进行调整，这是残差层中的标准。

我们使用 Tensorflow 框架训练模型，使用动量优化器，动量为 $0.9,$ ，批量大小为 $128$ 。所有卷积权重均通过权重衰减 $0.0001.$ 进行训练初始学习率为 $0.05,$ ，下降了 $10$ 、 $30000$ 和 $50000$ 步长。该模型在大约 $50k$ 步时达到峰值性能，在单个 NVIDIA Tesla K40 GPU 上大约需要 $24h$ 步。我们的代码可以轻松地从开源实现⁵⁵5https://github.com/tensorflow/models/tree/master/resnet 通过删除批量归一化，调整剩余组件和模型架构。与代码的一个重要区别是，我们使用标准差 $\sigma=1/k^{2}c,$ 的随机正态初始化器来初始化内核大小 $k\times k$ 和 $c$ 输出通道的残差卷积层，而不是比用于标准卷积层的 $1/k\sqrt{c}$ 更好。这种小得多的权重初始化有助于训练，同时不影响表示。

与标准模型的一个显着区别是最后一层没有经过训练，而只是一个固定的随机投影。一方面，这稍微改善了测试误差（可能是由于正则化效应）。另一方面，这意味着我们模型中唯一可训练的权重是卷积的权重，使我们的架构成为“全卷积”。

表格1： CIFAR10/100 的架构(

55

卷积，

13.5

M 个参数）

variable dimensions	initial stride	description
$3\times 3\times 3\times 16$	$1$	1 standard conv
$3\times 3\times 16\times 64$	$1$	9 residual blocks
$3\times 3\times 64\times 128$	$2$	9 residual blocks
$3\times 3\times 128\times 256$	$2$	9 residual blocks
–	–	$8\times 8$ global average pool
$256\times\mathtt{num\_classes}$	–	random projection (not trained)

我们模型的一个有趣的方面是，尽管其大小为 $13.59$ 万个可训练参数，但即使数据集大小为 $50000 .$ ，模型似乎也不会过快过拟合。相比之下，我们发现很难在 CIFAR10 上训练具有这种大小的批量归一化的模型而不会出现明显的过度拟合。

Refer to caption — 图1： CIFAR10（左）和 CIFAR (100)（右）最佳模型的收敛图。第一步是批量大小 $128$ 的梯度更新。

表 2 总结了我们的模型与之前工作的非详尽列表相比的 top- $1$ 分类误差，仅限于之前的最佳全卷积结果[ 15]，第一个残差结果[6]，以及[8]在CIFAR上的最新结果。所有结果均采用标准数据增强。

表2：不同基准上top-

1

分类误差的比较

Method	CIFAR10	CIFAR100	ImageNet	remarks
All-CNN	$7.25$	$32.39$	$41.2$	all-convolutional, dropout extra data processing
Ours	$6.38$	$24.64$	$35.29$	all-convolutional
ResNet	$6.43$	$25.16$	$19.38$
DenseNet	$3.74$	$19.25$	N/A

4.2ImageNet

ImageNet ILSVRC 2012 数据集具有 $1,281,167$ 个数据点和 $1000$ 类。每个图像的大小都调整为具有 $3$ 通道的 $224\times 224$ 像素。我们在 [6] 中尝试了 $34$ 层网络的全卷积变体。原始模型实现了 $25.03\%$ 分类错误。我们的派生模型具有 $35.7M$ 可训练参数。我们使用动量优化器（动量为 $0.9$ ）和学习率时间表对模型进行训练，学习率时间表从初始学习率 $0.1 .$ 开始，每两个历时衰减 $0.94$ 倍。训练分布在 $6$ 机器上，异步更新。每台机器都配备了 $8$ GPU (NVIDIA Tesla K40)，并使用批量大小 $256$ 分割在 $8$ GPU 上，以便每个 GPU 更新的批量大小 $32 .$

与 CIFAR10 和 CIFAR100 的情况相比，在 ImageNet 上，我们的全卷积模型的表现明显比其原始模型差。具体来说，我们经历了大量的欠拟合，这表明较大的模型可能会表现更好。

尽管存在这个问题，我们的模型在测试集( $50000$ 数据点）上仍然达到了 $35.29\%$ top- $1$ 分类错误，并且 $14.17\%$ top- $5$ 在 $700,000$ 步骤后测试训练错误（大约一周）。虽然不再是最先进的，但这种性能明显优于 [13] 报告的 $40.7\%$ 以及 [15]。我们相信，我们模型的更好的学习率计划和超参数设置很可能可以大大提高此处报告的初步性能。

5结论

我们的理论强调了训练深度人工神经网络时身份参数化的重要性。一个突出的开放问题是将我们的优化结果扩展到非线性情况，其中每个残差都有一个 ReLU 激活，就像我们的表达结果一样。我们推测类似于定理2.2的结果对于一般非线性情况是正确的。与标准参数化不同，我们认为获得这样的结果没有根本障碍。

我们希望我们的理论和实验共同帮助简化深度学习的状态，旨在用一些基本原理来解释深度学习的成功，而不是需要巧妙组合的大量技巧。我们相信，图像识别方面的大部分进步可以仅通过残差卷积层和 ReLU 激活来实现。这可能会导致极其简单（尽管很深）的架构，与所有图像分类基准的最新技术相匹配。

致谢：我们感谢 Jason D. Lee、Qixing Huang 和 Jonathan Shewchuk 进行了有益的讨论，并善意地指出了本文早期版本中的错误。我们还感谢 Jonathan Shewchuk 建议改进方程 (2.3)，并将其纳入当前版本。马腾宇感谢Dodds Fellowship和Siebel奖学金的支持。

参考

[1] Antonio Auffinger, Gérard Ben Arous, and Jiří Černỳ. Random matrices and complexity of spin glasses. Communications on Pure and Applied Mathematics, 66(2):165–201, 2013.
[2] P. Baldi and K. Hornik. Neural networks and principal component analysis: Learning from examples without local minima. Neural Netw., 2(1):53–58, January 1989.
[3] Anna Choromanska, Mikael Henaff, Michael Mathieu, Gérard Ben Arous, and Yann LeCun. The loss surfaces of multilayer networks. In AISTATS, 2015.
[4] Yann N Dauphin, Razvan Pascanu, Caglar Gulcehre, Kyunghyun Cho, Surya Ganguli, and Yoshua Bengio. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization. In Advances in neural information processing systems, pages 2933–2941, 2014.
[5] I. J. Goodfellow, O. Vinyals, and A. M. Saxe. Qualitatively characterizing neural network optimization problems. ArXiv e-prints, December 2014.
[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In arXiv prepring arXiv:1506.01497, 2015.
[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In Computer Vision - ECCV 2016 - 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part IV, pages 630–645, 2016.
[8] Gao Huang, Zhuang Liu, and Kilian Q. Weinberger. Densely connected convolutional networks. CoRR, abs/1608.06993, 2016.
[9] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In Proceedings of the 32nd International Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015, pages 448–456, 2015.
[10] William B Johnson and Joram Lindenstrauss. Extensions of lipschitz mappings into a hilbert space. Contemporary mathematics, 26(189-206):1, 1984.
[11] H. Karimi, J. Nutini, and M. Schmidt. Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak- $\backslash$ L $\{$ $\}$ ojasiewicz Condition. ArXiv e-prints, August 2016.
[12] K. Kawaguchi. Deep Learning without Poor Local Minima. ArXiv e-prints, May 2016.
[13] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
[14] D. Soudry and Y. Carmon. No bad local minima: Data independent training error guarantees for multilayer neural networks. ArXiv e-prints, May 2016.
[15] J. T. Springenberg, A. Dosovitskiy, T. Brox, and M. Riedmiller. Striving for Simplicity: The All Convolutional Net. ArXiv e-prints, December 2014.
[16] Eric W. Weisstein. Normal matrix, from mathworld–a wolfram web resource., 2016.
[17] Wikipedia. Johnson–lindenstrauss lemma — wikipedia, the free encyclopedia, 2016.

附录 A 第 2 部分缺少证明

在本节中，我们给出了定理2.1和引理2.4的完整证明，在2节中省略了它们。

A.1 定理证明2.1

事实证明，如果假设 $R$ 是一个对称正半定（PSD）矩阵，或者如果我们允许变量是复矩阵，那么证明会容易得多。这里我们首先给出第一个特殊情况的证明草图。读者可以跳过它并跳转到下面的完整证明。对于特殊情况，我们还将证明更强的结果，即 ${\left|\kern-1.07639pt\left|\kern-1.07639pt\left|A^{\star}\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}\leq 3\gamma/\ell$ 。

当 $R$ 是PSD时，它可以通过正交矩阵 $U$ 进行对角化，在 $R=UZU^{\top}$ 的意义上，其中 $Z=\operatorname{diag}(z_{1},\dots,z_{d})$ 是对角矩阵非负对角线条目 $z_{1},\dots,z_{d}$ 。让 $A^{\star}_{1}=\dots=A^{\star}_{\ell}=U\operatorname{diag}(z_{i}^{1/{\ell}})U^{\top}-I$ ，然后我们有

	$\displaystyle(I+A^{\star}_{\ell})\cdots(I+A^{\star}_{1})$	$\displaystyle=(U\operatorname{diag}(z_{i}^{1/\ell})U^{\top})^{\ell}=U\operatorname{diag}(z_{i}^{1/{\ell}})^{\ell}U$		(since $U^{\top}U=I$ )
		$\displaystyle=UZU^{\top}=R\,.$

我们看到由 $A^{\star}$ 定义的网络重建了变换 $R$ ，因此它是总体风险的全局最小值（正式参见下面的声明 2.3)。接下来，我们验证每个 $A^{\star}_{j}$ 具有较小的谱范数：

	$\displaystyle\lVert A^{\star}_{j}\rVert$	$\displaystyle=\lVert I-U\operatorname{diag}(z_{i}^{1/\ell})U^{\top})\rVert=\lVert U(I-\operatorname{diag}(z_{i})^{1/\ell})U^{\top}\rVert=\lVert I-\operatorname{diag}(z_{i})^{1/\ell}\rVert$		(since $U$ is orthonormal)
		$\displaystyle=\max_{i}\|z_{i}^{1/\ell}-1\|\,.$		(A.1)

从 $\sigma_{\min}(R)\leq z_{i}\leq\sigma_{\max}(R)$ 开始，我们有 $\ell\geq 3\gamma\geq|\log z_{i}|$ 。它遵循

\displaystyle|z_{i}^{1/\ell}-1|=|e^{(\log z_{i})/\ell}-1|\leq 3|(\log z_{i})/\ell|\leq 3\gamma/\ell\,.

(since

|e^{x}-1|\leq 3|x|

for all

|x|\leq 1

)

然后使用方程 (A.1) 和上面的方程，我们得到 ${\left|\kern-1.07639pt\left|\kern-1.07639pt\left|A\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}\leq\max_{j}\lVert A^{\star}_{j}\rVert\leq 3\gamma/\ell$ ，它完成了特殊情况的证明。

为了充分证明定理2.1，我们从以下声明开始：

Claim A.1.

假设 $Q\in\mathbb{R}^{2\times 2}$ 是正交矩阵。那么对于任意整数 $q$ ，存在矩阵 $W_{1},\dots,W_{q}\in\mathbb{R}^{2\times 2}$ 和对角矩阵 $\Lambda$ 满足(a) $Q=W_{1}\dots W_{q}\Lambda$ 和 $\lVert W_{j}-I\rVert\leq\pi/q$ ，(b) $\Lambda$ 是一个对角矩阵，对角线上有 $\pm 1$ ，并且 (c) 如果 $Q$ 是旋转，则 $\Lambda=I$ .

证明。

我们首先考虑 $Q$ 是旋转的情况。每个旋转矩阵可以写为 $T(\theta):=\begin{bmatrix}\cos\theta&-\sin\theta\\ \sin\theta&\cos\theta\end{bmatrix}$ 。假设 $Q=T(\theta)$ 。然后我们可以取 $W_{1}=\dots=W_{q}=T(\theta/q)$ 和 $\Lambda=I$ 。我们可以验证

\displaystyle\lVert W_{j}-I\rVert\leq\theta/q.

接下来，我们考虑 $Q$ 是反射的情况。那么我们可以将 $Q$ 写为 $Q=T(\theta)\cdot\operatorname{diag}(-1,1)$ ，其中 $\operatorname{diag}(-1,1)$ 是相对于 $y$ 轴的反射。然后我们就可以取 $W_{1}=\dots=W_{q}=T(\theta/q)$ 和 $\Lambda=\operatorname{diag}(-1,1)$ 来完成证明。 ∎

接下来给出定理2.1的正式完整证明。主要思想是减少块对角线情况并应用上述权利要求。

定理证明2.1。

令 $R=UKV^{\top}$ 为 $R$ 的奇异值分解，其中 $U$ 、 $V$ 为两个正交矩阵， $K$ 是对角线上具有非负项的对角矩阵。由于 $\det(R)=\det(U)\det(K)\det(V)>0$ 和 $\det(K)>0$ ，我们可以适当翻转 $U, V$ ，以便 $\det(U)=\det(V)=1$ 。由于 $U$ 是一个正矩阵（即 $U$ 满足 $UU^{\top}=U^{\top}U$ ），根据权利要求 C.1，我们可以将 $U$ 通过正交矩阵 $S$ 分块对角化为 $U=SDS^{-1}$ ，其中 $D=\operatorname{diag}(D_{1},\dots,D_{m})$ 是一个实数分块对角矩阵，每个分块 $D_{i}$ 的大小最多为 $2\times 2$ 。使用声明A.1，我们可以得出对于任何 $D_{i}$ ，都存在 $W_{i,1},\dots,W_{i,q},\Lambda_{i}$ ，使得

\displaystyle D_{i}=W_{i,1}\dots W_{i,q}\Lambda_{i}

(A.2)

和 $\lVert W_{i,j}-I\rVert\leq\pi/q$ 。让 $\Lambda=\operatorname{diag}(\Lambda_{1},\dots,\Lambda_{m})$ 和 $W_{j}=\operatorname{diag}(W_{1,j},\dots W_{m,j})$ 。我们可以将方程 (A.2) 重写为

\displaystyle D=W_{1}\dots W_{q}\Lambda.

(A.3)

此外，我们有 $\Lambda$ 是一个对角矩阵，对角线上有 $\pm 1$ 。由于 $W_{i,j}$ 是行列式为 1 的正交矩阵，因此我们有 $\det(\Lambda)=\det(D)=\det(U)=1$ 。也就是说， $\Lambda$ 在对角线上有偶数个 $-1$ 。然后我们可以将 $-1$ 分组为 $2\times 2$ 块。请注意， $\begin{bmatrix}-1&0\\ 0&-1\end{bmatrix}$ 是旋转矩阵 $T(\pi)$ 。因此，我们可以将 $\Lambda$ 写为对角线上的 $+1$ 和块 $T(\pi)$ 的串联。然后应用声明A.1（在每个块 $T(\pi)$ 上），我们得到 $W_{1}^{\prime},\dots,W_{q}^{\prime}$ 使得

\displaystyle\Lambda=W_{1}^{\prime}\dots W_{q}^{\prime}

(A.4)

其中 $\lVert W_{j}^{\prime}-I\rVert\leq\pi/q$ 。因此，使用方程 (A.3) 和 (2.3)，我们得到

\displaystyle U=SDS^{-1}=SW_{1}S^{-1}\cdots SW_{q}S^{-1}\cdot SW_{1}^{\prime}S^{-1}\cdots SW_{q}^{\prime}S^{-1}\,.

此外，对于每个 $j$ 、 $\lVert SW_{j}S^{-1}-I\rVert=\lVert S(W_{j}-I)S^{-1}\rVert=\lVert W_{j}-I\rVert\leq\pi/q$ ，我们都有它，因为 $S$ 是正交矩阵。对于 $W_{j}^{\prime}$ 也可以证明同样的道理。因此让 $B_{j}=SW_{j}S^{-1}-I$ 代表 $j\leq q$ 和 $B_{j+q}=SW_{j}^{\prime}S^{-1}-I$ ，我们可以重写，

\displaystyle U=(I+B_{1})\dots(I+B_{q})\,.

我们可以通过将 $V$ 分解为 $2q$ 矩阵（与单位矩阵 $\pi/q$ 接近）来类似地处理 $V$ ，

\displaystyle V^{\top}=(I+B_{1}^{\prime})\dots(I+B_{2q}^{\prime})\,.

最后，我们处理对角矩阵 $K$ 。让 $K=\operatorname{diag}(k_{i})$ 。我们有 $\min k_{i}=\sigma_{\min}(R),\max k_{i}=\sigma_{\max}(R)$ 。然后，我们可以写 $K=(K^{\prime})^{p}$ ，其中 $K^{\prime}=\operatorname{diag}(k_{i}^{1/p})$ 和 $p$ 是稍后选择的整数。我们有 $\left\lVert K^{\prime}-I\right\rVert\leq\max|k_{i}^{1/p}-1|\leq\max|e^{\log k_{i}\cdot 1/p}-1|$ 。当 $p\geq\gamma=\max\{\log\max k_{i},-\log\min k_{i}\}=\max\{\log\sigma_{\max}(R),-\log\sigma_{\min}(R)\}$ 时，我们有

\displaystyle\left\lVert K^{\prime}-I\right\rVert\leq\max|e^{\log k_{i}\cdot 1/p}-1|\leq 3\max|\log k_{i}\cdot 1/p|=3\gamma/p\,.

(since

|e^{x}-1|\leq 3|x|

for

|x|\leq 1

)

让 $B_{1}^{\prime\prime}=\dots=B_{p}^{\prime\prime}=K^{\prime}-I$ ，然后我们有 $K=(I+B_{p}^{\prime\prime})\cdots(I+B_{1}^{\prime\prime})$ 。最后，我们选择 $p=\frac{3\gamma\ell}{4\pi+3\gamma}$ 和 $q=\frac{\pi\ell}{4\pi+3\gamma}$ ， ⁶⁶6这里为了符号方便，不选择 $p, q$ 为整数。但是将它们四舍五入到最接近的整数将会以小的常数因子改变范数的最终界限。并让 $A_{p+4q}=B_{2q},\dots=A_{p+2q+1}=B_{1},A_{p+2q}=B_{p}^{\prime\prime},\dots,A_{2q+1}=B_{1}^{\prime\prime},A_{2q}=B_{2q}^{\prime},\dots,A_{1}=B_{1}^{\prime}$ 。我们有 $4q+p=\ell$ 和

\displaystyle R=UKV^{\top}=(I+A_{\ell})\dots(I+A_{1})\,.

此外，根据需要，我们还有 ${\left|\kern-1.07639pt\left|\kern-1.07639pt\left|A\right|\kern-1.07639pt\right|\kern-1.07639pt\right|}\leq\max\{\lVert B_{j}\rVert,\lVert B_{j}^{\prime}\rVert.\lVert B_{j}^{\prime\prime}\rVert\}\leq\max\{\pi/q,3\gamma/p\}\leq\frac{4\pi+3\gamma}{\ell}$ 。 ∎

A.2 引理证明2.4

我们根据定义计算部分梯度。令 $\Delta_{j}\in\mathbb{R}^{d\times d}$ 为 $A_{j}$ 的无穷小变化。使用声明 2.3，考虑 $f(A_{1},\dots,A_{\ell}+\Delta_{j},\dots,A_{\ell})$ 的泰勒展开式

	$\displaystyle f(A_{1},\dots,A_{\ell}+\Delta_{j},\dots,A_{\ell})$
	$\displaystyle=\left\lVert((I+A_{\ell})\cdots(I+A_{j}+\Delta_{j})\dots(I+A_{1})-R)\Sigma^{1/2}\right\rVert_{F}^{2}$
	$\displaystyle=\left\lVert((I+A_{\ell})\cdots(I+A_{1})-R)\Sigma^{1/2}+(I+A_{\ell})\cdots\Delta_{j}\dots(I+A_{1})\Sigma^{1/2}\right\rVert_{F}^{2}$
	$\displaystyle=\left\lVert((I+A_{\ell})\cdots(I+A_{1})-R)\Sigma^{1/2}\right\rVert_{F}^{2}+$
	$\displaystyle~{}~{}~{}~{}~{}2\langle((I+A_{\ell})\cdots(I+A_{1})-R)\Sigma^{1/2},(I+A_{\ell})\cdots\Delta_{j}\dots(I+A_{1})\Sigma^{1/2}\rangle+O(\lVert\Delta_{j}\rVert_{F}^{2})$
	$\displaystyle=f(A)+2\langle(I+A_{j+1}^{\top})\dots(I+A_{\ell}^{\top})E\Sigma(I+A_{1}^{\top})\dots(I+A_{j-1}^{\top}),\Delta_{j}\rangle+O(\lVert\Delta_{j}\rVert_{F}^{2})\,.$

根据定义，这意味着 $\frac{\partial f}{\partial A_{j}}=2(I+A_{\ell}^{\top})\dots(I+A_{j+1}^{\top})E\Sigma(I+A_{j-1}^{\top})\dots(I+A_{1}^{\top})$ 。 ∎

附录B第3部分缺少证明

在本节中，我们提供定理3.2的完整证明。我们从以下引理开始，构建一个构建块 $\mathcal{T}$ ，将任意 $n$ 向量序列的 $k$ 向量转换为任意向量集，并且 main他人的价值。为了更好的抽象，我们使用 $\alpha^{(i)}$ , $\beta^{(i)}$ 来表示向量序列。

Lemma B.1.

令 $S\subset[n]$ 的大小为 $k$ 。假设 $\alpha^{(1)},\dots,\alpha^{(n)}$ 是 $n$ 向量的序列，对于每个 $1\leq i\leq n$ 满足 a)，我们有 $1-\rho^{\prime}\leq\lVert\alpha_{i}\rVert^{2}\leq 1+\rho^{\prime}$ ，并且 b) 如果 $i\neq j$ 和 $S$ 至少包含 $i, j$ 之一，然后是 $\lVert\alpha^{(i)}-\alpha^{(j)}\rVert\geq 3\rho^{\prime}$ 。令 $\beta^{(1)},\dots,\beta^{(n)}$ 为任意向量序列。那么，存在 $U,V\in\mathbb{R}^{k\times k},s$ ，这样对于每个 $i\in S$ ，我们有 $\mathcal{T}_{U,V,s}(\alpha^{(i)})=\beta^{(i)}-\alpha^{(i)}$ ，此外，对于每个 $i\in[n]\backslash S$ ，我们有 $\mathcal{T}_{U,V,s}(\alpha^{(i)})=0$ 。

我们可以看出结论意味着

	$\displaystyle\beta^{(i)}$	$\displaystyle=\alpha^{(i)}+\mathcal{T}_{U,V,s}(\alpha^{(i)})~{}~{}\forall i\in S$
	$\displaystyle\alpha^{(i)}$	$\displaystyle=\alpha^{(i)}+\mathcal{T}_{U,V,s}(\alpha^{(i)})~{}~{}\forall i\not\in S$

这是方程 (3.6) 的另一种写法。

引理B.1的证明。

不失一般性，假设 $S=\{1,\dots,k\}$ 。我们构造 $U, V, s$ 如下。令 $U$ 的第 $i$ 行为 $i\in[k]$ 的 $\alpha^{(i)}$ ，并令 $s=-(1-2\rho^{\prime})\cdot\mathbf{1}$ 其中 $\mathbf{1}$ 表示全1的向量。令 $V$ 的 $i$ 列为 $i\in[k]$ 的 $\frac{1}{\lVert\alpha^{(i)}\rVert^{2}-(1-2\rho^{\prime})}(\beta^{(i)}-\alpha^{(i)})$ 。接下来我们验证一下构造的正确性。我们首先考虑 $1\leq i\leq k$ 。我们知道 $U\alpha^{(i)}$ 是一个向量，其 $i$ 坐标等于 $\lVert\alpha^{(i)}\rVert^{2}\geq 1-\rho^{\prime}$ 。 $U\alpha^{(i)}$ 的第 $j$ 坐标等于 $\langle\alpha^{(j)},\alpha^{(i)}\rangle$ ，可以使用引理假设将其上限设置为

\displaystyle\langle\alpha^{(j)},\alpha^{(i)}\rangle=\frac{1}{2}\left(\lVert\alpha^{(i)}\rVert^{2}+\lVert\alpha^{(j)}\rVert^{2}\right)-\lVert\alpha^{(i)}-\alpha^{(j)}\rVert^{2}\leq 1+\rho^{\prime}-3\rho^{\prime}\leq 1-2\rho^{\prime}\,.

(B.1)

因此，这意味着 $U\alpha^{(i)}-(1-2\rho^{\prime})\cdot\mathbf{1}$ 包含单个正条目（其值至少为 $\lVert\alpha^{(i)}\rVert^{2}-(1-2\rho^{\prime})\geq\rho^{\prime}$ )，而所有其他条目均为非正条目。这意味着 $\textup{ReLu}(U\alpha^{(i)}+b)=\left(\lVert\alpha^{(i)}\rVert^{2}-(1-2\rho^{\prime})\right)e_{i}$ 其中 $e_{i}$ 是第 $i$ 个自然基向量。由此可见 $V\textup{ReLu}(U\alpha^{(i)}+b)=(\lVert\alpha^{(i)}\rVert^{2}-(1-2\rho^{\prime}))Ve_{i}=\beta^{(i)}-\alpha^{(i)}$ 。最后，考虑 $n\geq i>k$ 。那么与式(B.1)中的计算类似， $U\alpha^{(i)}$ 是所有坐标都小于 $1-2\rho^{\prime}$ 的向量。因此 $U\alpha^{(i)}+b$ 是一个具有负项的向量。因此我们有 $\textup{ReLu}(U\alpha^{(i)}+b)=0$ ，这意味着 $V\textup{ReLu}(U\alpha^{(i)}+b)=0$ 。 ∎

现在我们准备好声明引理 3.3 的正式版本。

Lemma B.2.

假设 $n$ 向量 $z^{(1)},\dots,z^{(n)}$ 的序列满足假设 3.1 的宽松版本：a) 对于每个 $i$ , $1-\rho^{\prime}\leq\lVert z^{(i)}\rVert^{2}\leq 1+\rho^{\prime}$ b) 对于每个 $i\neq j$ ，我们有 $\lVert z^{(i)}-z^{(j)}\rVert^{2}\geq\rho^{\prime};$ 。让 $v^{(1)},\dots,v^{(n)}$ 被定义在上面。然后存在权重矩阵 $(A_{1},B_{1}),\dots,(A_{\ell},B_{\ell})$ ，这样给定 $\forall i,h_{0}^{(i)}=z^{(i)}$ ，我们有，

\displaystyle\forall i\in\{1,\dots,n\},~{}~{}~{}h_{\ell}^{(i)}=v^{(i)}\,.

我们将重复使用引理B.1来构造积木 $\mathcal{T}_{A_{j},B_{k},s_{j}}(\cdot)$ ，从而证明引理B.2。每个构建块 $\mathcal{T}_{A_{j},B_{k},s_{j}}(\cdot)$ 获取 $\{z^{(1)},\dots,z^{(n)}\}$ 中 $k$ 向量的子集，并将它们转换为 $v^{(i)}$ 的，同时将所有其他向量保持为固定的。由于它们完全是 $n/k$ 层，因此我们最终将所有 $z^{(i)}$ 映射到目标向量 $v^{(i)}$ 。

引理B.2的证明。

我们重复使用引理B.1。让 $S_{1}=[1,\dots,k]$ 。然后使用引理B.1与 $\alpha^{(i)}=z^{(i)}$ 和 $\beta^{(i)}=v^{(i)}$ 对于 $i\in[n]$ ，我们得到存在 $A_{1},B_{1},b_{1}$ 这样对于 $i\leq k$ ，它保持 $h_{1}^{(i)}=z^{(i)}+\mathcal{T}_{A_{1},B_{1},b_{1}}(z^{(i)})=v^{(i)}$ ，对于 $i\geq k$ ，它保持 $h_{1}^{(i)}=z^{(i)}+\mathcal{T}_{A_{1},B_{1},b_{1}}(z^{(i)})=z^{(i)}$ 。现在我们归纳构建其他层。我们将构建这样的图层：图层 $j$ 的隐藏变量满足 $h_{j}^{(i)}=v^{(i)}$ 中的每一个 $1\leq i\leq jk$ ，以及 $h_{j}^{(i)}=z^{(i)}$ 中的每一个 $n\geq i>jk$ 。假设我们已经构造了第一个 $j$ 层，接下来我们使用引理 B.1 构造 $j+1$ 层。然后我们认为 $\alpha^{(1)}=v^{(1)},\dots,\alpha^{(jk)}=v^{(jk)}$ 、 $\alpha^{(jk+1)}=z^{(jk+1)},\dots,\alpha^{(n)}=z^{(n)}$ 和 $S=\{jk+1,\dots,(j+1)k\}$ 的选择满足引理B.1的假设。事实上，因为 $q_{i}$ 是均匀随机选择的，所以我们对每个 $s$ 和 $i$ 、 $\langle q_{s},z^{(i)}\rangle\leq 1-\rho^{\prime}$ 都有 w.h.p。因此，从 $v^{(i)}\in\{q_{1},\dots,q_{r}\}$ 开始，我们就知道 $v^{(i)}$ 也与任何 $z^{(i)}$ 都不相关。然后我们应用引理B.1并得出结论，存在 $A_{j+1}=U,B_{j+1}=V,b_{j+1}=s$ 使得 $\mathcal{T}_{A_{j+1},b_{j+1},b_{j+1}}(v^{(i)})=0$ 对于 $i\leq jk$ , $\mathcal{T}_{A_{j+1},b_{j+1},b_{j+1}}(z^{(i)})=v^{(i)}-z^{(i)}$ 代表 $jk<i\leq(j+1)k$ , $\mathcal{T}_{A_{j+1},b_{j+1},b_{j+1}}(z^{(i)})=0$ 代表 $n\geq i>(j+1)k$ 。这些意味着

	$\displaystyle h_{j+1}^{{}^{(i)}}$	$\displaystyle=h_{j}^{(i)}+\mathcal{T}_{A_{j+1},b_{j+1},b_{j+1}}(v^{(i)})=v^{(i)}\quad\forall 1\leq i\leq jk$
	$\displaystyle h_{j+1}^{{}^{(i)}}$	$\displaystyle=h_{j}^{(i)}+\mathcal{T}_{A_{j+1},b_{j+1},b_{j+1}}(z^{(i)})=v^{(i)}\quad\forall jk+1\leq i\leq(j+1)k$
	$\displaystyle h_{j+1}^{{}^{(i)}}$	$\displaystyle=h_{j}^{(i)}+\mathcal{T}_{A_{j+1},b_{j+1},b_{j+1}}(z^{(i)})=z^{(i)}\quad\forall(j+1)k<i\leq n$

因此，我们构建了满足层 $j+1$ 归纳假设的 $j+1$ 层。因此，通过归纳我们得到了所有层，最后一层对于每个示例 $i$ 都满足 $h_{\ell}^{(i)}=v^{(i)}$ 。 ∎

现在我们准备按照3节中概述的总体计划证明定理3.2。

定理证明3.2。

我们使用形式化下面讨论的直觉定理3.2。 First, take $k=c(\log n)/\rho^{2}$ for sufficiently large absolute constant $c$ (for example, $c=10$ works), by Johnson-Lindenstrauss Theorem ([10], or see [17]) we have that when $A_{0}$ is a random matrix with standard normal entires, with high probability, all the pairwise distance between the the set of vectors $\{0,x^{(1)},\dots,x^{(n)}\}$ are preserved up to $1\pm\rho/3$ factor. 也就是说，我们对每个 $i$ 、 $1-\rho/3\leq\lVert A_{0}x^{(i)}\rVert\leq 1+\rho/3$ 和每个 $i\neq j$ 、 $\lVert A_{0}x^{(i)}-A_{0}x^{(j)}\rVert\geq\rho(1-\rho/3)\geq 2\rho/3$ 都有它。让 $z^{(i)}=A_{0}x^{(i)}$ 和 $\rho^{\prime}=\rho/3$ 。那么我们就有 $z^{(i)}$ 满足 Lemam B.2 的条件。我们在 $\mathbb{R}^{k}$ 中选择 $r$ 个随机向量 $q_{1},\dots,q_{r}$ 。让 $v^{(1)},\dots,v^{(n)}$ 定义为等式(3.2)。然后通过引理 B.2，我们可以构造矩阵 $(A_{1},B_{1}),\dots,(A_{\ell},B_{\ell})$ 使得

\displaystyle h_{\ell}^{(i)}=v^{(i)}\,.

(B.2)

请注意， $v^{(i)}\in\{q_{1},\dots,q_{r}\}$ 和 $q_{i}$ 是随机单位向量。因此，选择 $\alpha^{(1)}=q_{1},\dots,\alpha^{(r)}=q_{r}$ 、 $\beta^{(1)}=e_{1},\dots,\beta^{(r)}=e_{r}$ ，并且满足引理B.1的条件，并使用引理B.1 我们得出结论，存在 $A_{\ell+1},B_{\ell+1},s_{\ell+1}$ 使得

\displaystyle e_{j}=\mathcal{T}_{A_{\ell+1},B_{\ell+1},b_{\ell+1}}(v_{j}),\textup{ for every }j\in\{1,\dots,r\}\,..

(B.3)

根据方程(3.2)和方程(B.2)中 $v^{(i)}$ 的定义，我们得出 $\hat{y}^{(i)}=h_{\ell}^{(i)}+\mathcal{T}_{A_{\ell+1},B_{\ell+1},b_{\ell+1}}(h_{\ell}^{(i)})=y^{(i)}.$ ，其中完成证明。 ∎

附录C工具箱

在本节中，我们将陈述两个民间传说的线性代数陈述。下面的声明应该是已知的，但我们在文献中找不到它。为了完整性，我们在这里提供证明。

Claim C.1。

令 $U\in\mathbb{R}^{d\times d}$ 为实数正规矩阵（即满足 $UU^{\top}=U^{\top}U$ )。那么，存在一个正交矩阵 $S\in\mathbb{R}^{d\times d}$ 使得

\displaystyle U=SDS^{\top}\,,

其中 $D$ 是一个真正的块对角矩阵，由大小最多为 $2\times 2$ 的块组成。

证明。

由于 $U$ 是正规矩阵，因此它可酉对角化（有关背景，请参阅 [16])。因此， $\mathbb{C}^{d\times d}$ 中存在酉矩阵 $V$ , $\mathbb{C}^{d\times d}$ 中存在对角矩阵，使得 $U$ 具有特征分解 $U=V\Lambda V^{*}$ 。由于 $U$ 本身是一个实数矩阵，因此特征值( $\Lambda$ 的对角线条目）以共轭对的形式出现，特征向量( $V$ )。也就是说，我们可以将 $V$ 的列分组为 $(v_{1},\bar{v}_{1}),\dots,(v_{s},\bar{v_{s}}),v_{s+1},\dots,v_{t}$ 对，并令相应的特征值为 $\lambda_{1},\bar{\lambda}_{1},\dots,\lambda_{\lambda_{s}},\bar{\lambda}_{s},\lambda_{s+1},\dots,\lambda_{t}$ 。这里 $\lambda_{s+1},\dots,\lambda_{t}\in\mathbb{R}$ 。然后我们就得到了 $U=\sum_{i=1}^{s}2\Re(v_{i}\lambda_{i}v_{i}^{*})+\sum_{i=s+1}^{t}v_{i}\lambda_{i}v_{i}^{\top}$ 。令 $Q_{i}=\Re(v_{i}\lambda_{i}v_{i}^{*})$ ，则我们有 $Q_{i}$ 是一个2阶实数矩阵。令 $S_{i}\in\mathbb{R}^{d\times 2}$ 为 $Q_{i}$ 列跨度的正交基，然后我们可以将 $Q_{i}$ 写为 $Q_{i}=S_{i}D_{i}S_{i}^{\top}$ ，其中 $D_{i}$ 是一个 $2\times 2$ 矩阵。最后让 $S=[S_{1},\dots,S_{s},v_{s+1},\dots,v_{t}]$ 和 $D=\operatorname{diag}(D_{1},\dots,D_{s},\lambda_{s+1},\dots,\lambda_{t})$ 我们完成证明。 ∎

下面的权利要求用于证明定理2.2。我们在这里提供完整性证明。

Claim C.2 （民间传说）。

对于任意两个矩阵 $A,B\in\mathbb{R}^{d\times d}$ ，我们有

\displaystyle\lVert AB\rVert_{F}\geq\sigma_{\min}(A)\lVert B\rVert_{F}\,.

证明。

由于 $\sigma_{\min}(A)^{2}$ 是 $A^{\top}A$ 的最小特征值，因此我们有

\displaystyle B^{\top}A^{\top}AB\succeq B^{\top}\cdot\sigma_{\min}(A)^{2}I\cdot B\,.

因此，可以得出

	$\displaystyle\lVert AB\rVert_{F}^{2}$	$\displaystyle=\textup{tr}(B^{\top}A^{\top}AB)\geq\textup{tr}(B^{\top}\cdot\sigma_{\min}(A)^{2}I\cdot B)$
		$\displaystyle=\sigma_{\min}(A)^{2}\textup{tr}(B^{\top}B)=\sigma_{\min}(A)^{2}\lVert B\rVert_{F}^{2}\,.$

两边取平方根完成证明。 ∎