Hutchinson 迹估计器的现代分析.

1^st Maciej Skorski University of Luxembourg

摘要

本文建立了 Hutchinson 迹估计器精度分析的最新技术水平。利用以前在此背景下未曾使用过的工具，特别是超收缩不等式和次伽马分布的集中性质，我们提供了一种优雅且模块化的分析，以及数值上更优越的界限。除了这些改进之外，这项工作旨在更好地普及计算机科学界中提到的技术。

索引词：

随机算法，迹估计， Hutchinson 估计器，蒙特卡罗方法，超收缩不等式，次伽马分布

I 引言

I-A 背景

估计矩阵迹是一个具有基本意义的问题 [1, 2, 3] 并出现在许多问题中，例如逼近矩阵的谱特性 [4, 5, 6]，求解偏微分方程 [7, 8, 9, 10, 11]，机器学习中的误差评估 [12]，以及组合计数 [13]，仅举几例。对于特别关注数据科学或优化的读者来说，这至关重要，因为 Hessian 迹存储了关于曲率的有价值的信息。为了提供一个有意义的例子，考虑在 MNIST 数据集 [14] 上拟合一个线性分类器，该数据集是机器学习中广泛用作基准和玩具问题的。由于图像是 $28\times 28$ 分辨率，并且被分组到 $10$ 类中，参数数量为 $m=28\cdot 28\cdot 10=7840$ ，Hessian 矩阵的大小为 $m^{2}\approx 6\cdot 10^{6}$ 。与迹成正比的对角线平均值等于平均特征值（有价值的信息），而单个行或列几乎为零（直到随机噪声）。这在脚注 2 中进行了说明。

Refer to caption — 图 1：在 MNIST 数据集上训练的线性分类器的 Hessian 矩阵。与行和列相比，对角线存储了有价值的信息：行和列中的条目几乎为零，而对角线的平均值为 $\approx 0.25$ 。 Tensorflow 代码以 Python Notebook 的形式在 GitHub 上提供 ²²2https://github.com/maciejskorski/ml_examples/blob/master/TF_Hess_Visualize.ipynb。

从上面的例子可以看出，即使是玩具例子也会导致巨大的矩阵；对于更大的问题，存储和检查这样的矩阵是不可能的。幸运的是，可以估计迹（等于对角线之和，或等效地等于特征值之和）而无需知道整个矩阵。要求是能够有效地计算 矩阵向量 乘积；在 Hessian 的情况下，此类乘积可以通过自动微分 [15] 在所有流行的机器学习框架中计算，例如 Tensorflow [16]、PyTorch [17] 和 JAX [18]。在假设一个 $m\times m$ 矩阵 $A$ 是 对称半正定（这适用于所有 Hessian）的情况下，Hutchinson [1] 提出的流行估计器为

\displaystyle\mathrm{tr}_{H}(A)\triangleq z^{T}Az,\quad z\sim^{iid}\{-1,1\}^{m},

(1)

其中向量 $z$ 的分量是 Rademacher 随机变量，等于 $+1$ 或 $-1$ ，概率相等。上述估计器仅使用一个采样的 $v$ ，因此是噪声的（方差很大），因此通常通过平均 $n$ 个独立试验来增强（对于适当大的 $n$ ）。正式地：

\displaystyle\mathrm{tr}_{H^{(n)}}(A)\triangleq\frac{1}{n}\sum_{i=1}^{n}z_{i}^{T}Az_{i},\quad z_{i}\sim^{iid}\{-1,1\}^{m}.

(2)

估计器是无偏的，即平均而言是正确的：

\displaystyle\mathbb{E}\mathrm{tr}_{H}(A)=\mathbb{E}\mathrm{tr}_{H^{(n)}}(A)=\mathrm{tr}(A),

(3)

这很容易证明。本文关注的是一个更具挑战性的问题，即理解它们的 集中性质。在这里，我们问以下问题：

什么样本量 $n$ 保证在置信水平为 $1-\delta$ 时达到所需的相对误差 $\epsilon$ ？

形式上，对于误差 $\mathrm{err}_{H^{(n)}}(A)\triangleq\frac{\mathrm{tr}_{H^{(n)}}(A)}{\mathrm{tr}(A)}-1$ 和固定的 $\epsilon,\delta$ ，我们希望找到一个可能很小的 $n=n(\epsilon,\delta)$ 使得

\displaystyle\ |\mathrm{err}_{H^{(n)}}(A)|\leqslant\epsilon\quad\text{with prob. at least}\ 1-\delta.

(4)

I-B 相关工作

该估计器已有 30 多年的历史 [1]，尽管存在替代方案（例如基于 Lanczos 积分的方法 [19]），但它在方差方面已被证明是最好的 [20]，并且可以说是最简单的，受到统计/学习软件开发者的青睐 [21]。令人惊讶的是，它在 Avron 和 Toledo 的工作 [3] 之前，一直被使用而没有进行严格的准确性评估，他们的工作确定了有限样本大小的保证。他们的结果后来被 Roosta-Khorasani 和 Ascher [20] 改善，他们基本上摆脱了涉及粗略并集界定的损失证明步骤。他们的方法基于 Chernoff 式的直接计算，并提供了边界 $n=O(\epsilon^{-2}\log(1/\delta))$ 。

II 贡献

II-A 摘要

在这项工作中，我们对 Hutchinson 的估计器进行了 模块化、现代化和更准确 的分析。与之前工作的改进可以概括如下：

•

技术的模块化和新颖性。在第一步中，我们将估计器精度明确地与 Rademacher 二次混沌 的色散联系起来，该混沌具有酉矩阵核。然后，我们通过 超收缩不等式 获得了对这种混沌的界限，这是一个布尔傅立叶分析的重要结果 [22]，最初由 Aline Bonami 提出 [23]。作为最后一步，我们将此界限表示为 次伽马性质（见 Boucheron 的著作 [24]），这使得得出最终的集中结果变得方便（且准确）。此外，我们给出了多样本和单样本估计器的结果；这很有趣，因为基本构建块可能比通过平均（例如，参见中值算法 [25]）获得的提升有所不同。

因此，与之前工作中的特设计算相反，我们能够使用来自高维概率和傅里叶分析领域的既定工具。我们透明的方法为进一步改进开辟了道路。
•

优越的精度。通过专用工具，我们获得了数值上好一个数量级的界限。它们被表述为基本公式，便于在迹估计的实际应用中使用。

II-B 预备知识

下面我们解释在下一节中提出结果时使用的符号和定义。

r.v. 的 $d$ -范数 $X$ 为 $\|X\|_{d}\triangleq(\mathbb{E}|X|^{d})^{1/d}$ ；当 $d\geqslant 1$ [25] 时，它是一个有效的范数（例如，它服从三角不等式）。研究集中性的一个有用工具是 矩生成函数，定义为 $\mathrm{MGF}_{X}(t)=\mathbb{E}\exp(tX)$ （实参数 $t$ 的函数）。在现代高维概率中，人们根据 $\mathrm{MGF}$ 的行为对分布进行分类；特别是当 $\log\mathrm{MGF}_{|X|}(t)\leqslant\frac{vt^{2}}{2(1-ct)}$ 时，我们称 $X$ 为 次伽马，方差因子为 $v$ ，尺度为 $c$ ，并用 $X\in\Gamma(v,c)$ [24] 表示；相同的公式适用于中心伽马分布，因此得名。

II-C 结果

以下我们假设 $A$ 是非零对称半正定矩阵。然后，必然地， $\mathrm{tr}(A)>0$ 。

II-C1 单样本估计器

下面我们给出估计器在 (1) 中的精度的以下界限：

Theorem 1 (哈奇森估计器 1 样本界限)。

对于任何整数 $d\geqslant 2$ ，哈奇森估计器 (1) 的相对误差服从以下界限

\displaystyle\|\mathrm{err}_{H}(A)\|_{d}\leqslant d-1.

(5)

特别地，这意味着次伽玛行为

\displaystyle\mathrm{err}_{H}(A)\in\Gamma\left(1,\frac{8}{3}\right),

(6)

这反过来又给出了以下概率尾界

\displaystyle\Pr[|\mathrm{err}_{H}(A)|\geqslant\epsilon]\leqslant\mathrm{e}^{-\frac{\epsilon^{2}}{2\left(1-\frac{8}{3}\epsilon\right)}}.

(7)

证明过程如下：a) 我们用 Rademacher 混沌的形式表示误差 b) 我们使用超收缩不等式来限制它的矩；这建立了部分 (5) c) 我们将矩界限代入矩生成函数的泰勒展开式，然后估计级数，得到次伽玛条件 (6)。根据次伽玛分布的尾部性质，我们得出尾部界限 (7)。

II-C2 多样本估计器

接下来，我们转向 (2) 中的多样本估计器。我们建立以下

Theorem 2 (哈奇森估计器 $n$ 样本界限)。

$n$ 样本哈奇森估计器的相对误差具有以下次伽玛行为

\displaystyle\mathrm{err}_{H}(A)\in\Gamma\left(\frac{1}{n},\frac{8}{3}\right).

(8)

特别地，这意味着误差尾部概率的以下界限，对于任何 $0<\epsilon<3/8$ 均有效：

\displaystyle\Pr[|\mathrm{err}^{(n)}_{H}(A)|\geqslant\epsilon]\leqslant\mathrm{e}^{-\frac{n\epsilon^{2}}{2\left(1-\frac{8}{3}\epsilon\right)}}.

(9)

此结果通过使用关于子伽马随机变量之和的集中性的额外事实，从定理 1 中获得：实质上，方差因子从 $1$ 减小到 $\frac{1}{n}$ ，用于长度为 $n$ 的总和（就像 $n$ 个 iid 项的方差一样）。

Corollary 1 (Hutchinson 估计量的样本大小).

相对误差绝对以 $\epsilon$ 为界限，概率为 $1-\delta$ ，前提是样本大小 $n$ 大于或等于

\displaystyle n(\epsilon,\delta)=\frac{2\left(1-\frac{8}{3}\epsilon\right)\log\left(\frac{1}{\delta}\right)}{\epsilon^{2}}.

(10)

这对任何 $0<\delta<1$ 和 $0<\epsilon<3/8$ 都成立。

II-D 与相关工作的数值比较

下面我们将展示相对于先前工作 [3, 20] 的数值改进。具有精确常数的界限在下面的表 I 中进行了总结。

Author	Sample Size $n=n(\epsilon,\delta)$
this work	$\frac{2\left(1-\frac{8}{3}\epsilon\right)\log\left(\frac{1}{\delta}\right)}{\epsilon^{2}}$
[20]	$\frac{6\log\left(\frac{2}{\delta}\right)}{\epsilon^{2}}$
[3]	$\frac{6\log\left(\frac{2}{\delta}\right)+6\mathrm{rank}(A)}{\epsilon^{2}}$

表 I： Hutchinson 估计器精度的界限。

此外，在图 2 中，我们详细评估了样本大小 $n$ 如何取决于误差 $\epsilon$ ，当置信参数 $\delta$ 固定时。此实验的设置是讨论的 MNIST 上玩具分类器的 Hessian。

图 2： Hutchinson 估计量的样本大小。我们假设

\delta=10^{-3}

，这导致

0.999

的置信度。矩阵大小为

7840

，对应于线性 MNIST 分类模型的海森矩阵（输入数据是

28\times 28

分辨率的黑白图像，分组为

10

类）。

III 辅助结果

III-1 矩阵理论

我们将需要以下关于对称矩阵分解的事实 [26]。回想一下，当 $B^{T}=B^{-1}$ 时，矩阵 $B$ 是正交的 ( $\cdot^{T}$ 表示转置)；特别地， $B$ 的列和行是单位长度的。

Lemma 1 (对称矩阵分解).

任何对称实矩阵 $A$ 可以写成 $A=B^{T}\Lambda B$ ，其中 $B$ 是一个正交实矩阵，而 $\Lambda$ 是对角的，由 $A$ 的（必然是实数的）特征值组成。

III-2 二次混沌

我们将需要以下关于著名的超对比不等式 [23, 22] 的特例：

Lemma 2 (( $2,d)$ -超对比).

令 $F$ 是 Rademacher 变量 $Z_{i}$ 中的一个 $2$ 次多项式（例如，对于某些权重 $a_{i,j}$ ， $F=\sum_{i\not=j}a_{i,j}Z_{i}Z_{j}$ ）。那么

\displaystyle\|F\|_{d}\leqslant(d-1)\|F\|_{2}.

(11)

III-3 次伽马随机变量

次伽马分布的尾部概率可以通过 Crammer-Chernoff 方法从 MGF 界限估计，如下所示：

Lemma 3 (次伽马尾部).

令 $X\in\Gamma(v,c)$ ，则

\displaystyle\forall\epsilon>0:\ \Pr[|X|\geqslant\epsilon]\leqslant\mathrm{e}^{-\frac{\epsilon^{2}}{v+c\epsilon}}.

(12)

此外，对于次伽马分布，以下合成性质对于独立项的总和成立：

Lemma 4 (次伽马和).

令随机变量 $X_{i}\in\Gamma(v_{i},c_{i})$ 独立，则

\displaystyle\sum_{i}X_{i}\in\Gamma(v^{\prime},c^{\prime}),\ v^{\prime}\triangleq\sum_{i}v_{i},c^{\prime}\triangleq\max_{i}c_{i}.

(13)

这些引理的证明可以在 [24] 中找到。

IV 证明

IV-A 定理 1 的证明

定义以下随机变量

\displaystyle Y=z^{T}Az-\mathbb{E}[z^{T}Az]=z^{T}Az-\mathrm{tr}(A).

(14)

然后我们的任务是限制 $Y$ 的集中度。

IV-A1 归约到非对角二次混沌

由于 $A$ 是对称的，根据引理 1，我们有 $A=B^{T}\Lambda B$ ，其中 $B$ 是正交的， $\Lambda$ 是由 $A$ 的特征值组成的对角矩阵。此外，由于矩阵 $A$ 是半正定的，因此它的特征值是非负的。因此，我们可以写成

\displaystyle z^{T}Az=(Bz)^{T}\Lambda(Bz)=\|\Lambda^{1/2}Bz\|_{2}^{2}.

(15)

这可以分解为

\displaystyle z^{T}Az=\sum_{i}Y_{i},\quad Y_{i}

\displaystyle\triangleq(\Lambda^{1/2}Bz)_{i}^{2}.

(16)

为了进一步简化，用 $\lambda_{1},\ldots,\lambda_{m}$ 表示 $A$ 的所有特征值；这些正是 $\Lambda$ 的对角线元素。我们注意到 $Y_{i}=\lambda_{i}(\sum_{j}B_{i,j}z_{j})^{2}$ ，以及 $\mathbb{E}Y_{i}=\lambda_{i}\sum_{j}B_{i,j}^{2}$ （因为 $\mathbb{E}z_{j}^{2}=1$ ）。因此我们得到

\displaystyle Y_{i}-\mathbb{E}Y_{i}=\lambda_{i}\sum_{j\not=j^{\prime}}B_{i,j}B_{i,j^{\prime}}z_{j}z_{j^{\prime}}.

(17)

因此，每个 $Y_{i}$ 都是 $z_{j}$ 中具有零对角线的二次型。

IV-A2 限制二次混沌

对于每个固定的 $i$ ，我们将引理 2 应用于 $Y_{i}-\mathbb{E}Y_{i}$ ，它是一个关于 Rademacher 随机变量 $z_{i}$ 的 $2$ 次多项式（注意非对角线属性保证次数正好是 2）。

由于由元组 $(j,j^{\prime})$ 索引的随机变量 $z_{j}z_{j^{\prime}}$ 对于 $j\not=j^{\prime}$ 是不相关的，我们有 $\|Y_{i}-\mathbb{E}Y_{i}\|_{2}^{2}=\lambda_{i}^{2}\sum_{j\not=j^{\prime}}B_{i,j}^{2}B_{i,j^{\prime}}^{2}$ ；但是 $B$ 是正交的，所以 $\sum_{i,j}B_{i,j}^{2}=1$ 和 $\|Y_{i}-\mathbb{E}Y_{i}\|_{2}^{2}\leqslant\lambda_{i}^{2}$ 。因此，我们得到

\displaystyle\|Y_{i}-\mathbb{E}Y_{i}\|_{d}\leqslant\lambda_{i}^{2}(d-1).

(18)

根据三角不等式

\displaystyle\|\sum_{i}(Y-\mathbb{E}Y_{i})\|_{d}\leqslant(d-1)\sum_{i}\lambda_{i}.

(19)

最后，根据 $Y_{i}$ 的定义和线性代数中的标准恒等式 $\mathrm{tr}(A)=\sum_{i}\lambda_{i}$ [26]

\displaystyle\|z^{T}Az-\mathrm{tr}(A)\|_{d}\leqslant(d-1)\mathrm{tr}(A).

(20)

将这个不等式的两边都除以 $\mathrm{tr}(A)$ ，我们就完成了定理 1 第一部分的证明。

IV-A3 限制矩生成函数

令 $E=z^{T}Az/\mathrm{tr}(A)-1$ 为估计量的相对误差。然后根据先前的结果，泰勒展开式 $\mathrm{e}^{tx}=\sum_{d\geqslant 0}(tx)^{d}/d!$ 以及 $\mathbb{E}E=0$ 的事实，我们有

\displaystyle MGF(E)\leqslant 1+\sum_{d\geqslant 2}\frac{t^{d}(d-1)^{d}}{d!}.

(21)

令 $a_{d}=(d-1)^{d}/d!$ 。那么我们有

\displaystyle\frac{a_{d+1}}{a_{d}}=\frac{d^{d+1}}{(d-1)^{d}}\cdot\frac{1}{d+1}.

(22)

当 $d\geqslant 2$ 时，该比率递减，因此

\displaystyle\frac{a_{d+1}}{a_{d}}\leqslant\frac{8}{3}.

(23)

因此，可以得出

\displaystyle\mathrm{MGF}(E)\leqslant 1+\frac{t^{2}}{2(1-\frac{8}{3}t)},

(24)

其中，根据标准不等式 $\log(1+u)\leqslant u$ ，这意味着

\displaystyle\log\mathrm{MGF}(E)\leqslant\frac{t^{2}}{2(1-\frac{8}{3}t)},

(25)

因此，根据定义， $E\in\Gamma(1,8/3)$ 。这完成了定理 1 第二部分的证明。

IV-A4 总结集中特性

定理 1 的第三部分直接由引理 3 得出。

IV-B 定理 2 的证明

我们首先应用引理 4 中关于独立次伽马分布之和的结果，这证明了定理的第一部分。第二部分接着介绍了关于子伽马尾部的结果，如引理 3 中所述。

IV-C 推论 1 的证明

推论的证明是通过将定理 2 中尾部界限的右侧等同于 $\delta$ 来实现的。关于 $n$ 求解，得到样本大小的公式。

V 结论

本工作对哈奇森提出的经典迹估计器建立了一个新的最先进界限。核心思想是巧妙地利用了对 Rademacher 混乱的界限和子伽马分布理论。这些结果在数值上优越，并且对于任何涉及迹估计的问题都具有直接的意义。此外，作者希望为计算机科学界更好地普及在问题背景下新颖的讨论技术。

参考文献

[1] M. F. Hutchinson, “A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines,” Communications in Statistics-Simulation and Computation, vol. 18, no. 3, pp. 1059–1076, 1989.
[2] Z. Bai, G. Fahey, and G. Golub, “Some large-scale matrix computation problems,” Journal of Computational and Applied Mathematics, vol. 74, no. 1-2, pp. 71–89, 1996.
[3] H. Avron and S. Toledo, “Randomized algorithms for estimating the trace of an implicit symmetric positive semi-definite matrix,” J. ACM, vol. 58, no. 2, Apr. 2011. [Online]. Available: https://doi.org/10.1145/1944345.1944349
[4] L. Lin, Y. Saad, and C. Yang, “Approximating spectral densities of large matrices,” SIAM review, vol. 58, no. 1, pp. 34–65, 2016.
[5] I. Han, D. Malioutov, H. Avron, and J. Shin, “Approximating spectral sums of large-scale matrices using stochastic chebyshev approximations,” SIAM Journal on Scientific Computing, vol. 39, no. 4, pp. A1558–A1585, 2017.
[6] E. Di Napoli, E. Polizzi, and Y. Saad, “Efficient estimation of eigenvalue counts in an interval,” Numerical Linear Algebra with Applications, vol. 23, no. 4, pp. 674–692, 2016.
[7] E. Haber, M. Chung, and F. Herrmann, “An effective method for parameter estimation with pde constraints with multiple right-hand sides,” SIAM Journal on Optimization, vol. 22, no. 3, pp. 739–757, 2012.
[8] K. van den Doel and U. Ascher, “Adaptive and stochastic algorithms for eit and dc resistivity problems with piecewise constant solutions and many measurements,” SIAM J. Scient. Comput, vol. 34, p. 29, 2012.
[9] J. Young and D. Ridzal, “An application of random projection to parameter estimation in partial differential equations,” SIAM Journal on Scientific Computing, vol. 34, no. 4, pp. A2344–A2365, 2012.
[10] F. Roosta-Khorasani, K. Van Den Doel, and U. Ascher, “Stochastic algorithms for inverse problems involving pdes and many measurements,” SIAM Journal on Scientific Computing, vol. 36, no. 5, pp. S3–S22, 2014.
[11] T. van Leeuwen, A. Y. Aravkin, and F. J. Herrmann, “Seismic waveform inversion by stochastic optimization,” International Journal of Geophysics, vol. 2011, 2011.
[12] G. H. Golub and U. Von Matt, “Generalized cross-validation for large-scale problems,” Journal of Computational and Graphical Statistics, vol. 6, no. 1, pp. 1–34, 1997.
[13] H. Avron, “Counting triangles in large graphs using randomized matrix trace estimation,” in Workshop on Large-scale Data Mining: Theory and Applications, vol. 10, 2010, pp. 10–9.
[14] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998.
[15] B. Christianson, “Automatic hessians by reverse accumulation,” IMA Journal of Numerical Analysis, vol. 12, no. 2, pp. 135–150, 1992.
[16] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard et al., “Tensorflow: A system for large-scale machine learning,” in 12th $\{$ USENIX $\}$ symposium on operating systems design and implementation ( $\{$ OSDI $\}$ 16), 2016, pp. 265–283.
[17] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga et al., “Pytorch: An imperative style, high-performance deep learning library,” in Advances in neural information processing systems, 2019, pp. 8026–8037.
[18] J. Bradbury, R. Frostig, P. Hawkins, M. J. Johnson, C. Leary, D. Maclaurin, G. Necula, A. Paszke, J. VanderPlas, S. Wanderman-Milne, and Q. Zhang, “JAX: composable transformations of Python+NumPy programs,” 2018. [Online]. Available: http://github.com/google/jax
[19] S. Ubaru, J. Chen, and Y. Saad, “Fast estimation of tr(f(a)) via stochastic lanczos quadrature,” SIAM Journal on Matrix Analysis and Applications, vol. 38, no. 4, pp. 1075–1099, 2017.
[20] F. Roosta-Khorasani and U. Ascher, “Improved bounds on sample size for implicit matrix trace estimators,” Foundations of Computational Mathematics, vol. 15, no. 5, pp. 1187–1212, 2015.
[21] Z. Yao, A. Gholami, K. Keutzer, and M. Mahoney, “Pyhessian: Neural networks through the lens of the hessian,” arXiv preprint arXiv:1912.07145, 2019.
[22] R. O’Donnell, Analysis of boolean functions. Cambridge University Press, 2014.
[23] A. Bonami, “Ensembles $\lambda(p)$ dans le dual de $d^{\infty}$ ,” Annales de l’institut Fourier, vol. 18, no. 2, pp. 193–204, 1968. [Online]. Available: http://eudml.org/doc/73956
[24] S. Boucheron, G. Lugosi, and P. Massart, Concentration Inequalities: A Nonasymptotic Theory of Independence. OUP Oxford, 2013. [Online]. Available: https://books.google.at/books?id=koNqWRluhP0C
[25] R. Vershynin, High-dimensional probability: An introduction with applications in data science. Cambridge university press, 2018, vol. 47.
[26] D. Mello, Invitation to Linear Algebra, ser. Invitation to Linear Algebra. CRC Press, 2017, no. v. 978, nos. 1-7952. [Online]. Available: https://books.google.at/books?id=wEI-MQAACAAJ