量子信息瓶颈的有效算法

Masahito Hayashi hayashi@sustech.edu.cn Shenzhen Institute for Quantum Science and Engineering, Southern University of Science and Technology, Shenzhen,518055, China International Quantum Academy (SIQA), Futian District, Shenzhen 518048, China Guangdong Provincial Key Laboratory of Quantum Science and Engineering, Southern University of Science and Technology, Shenzhen, 518055, China Graduate School of Mathematics, Nagoya University, Nagoya, 464-8602, Japan Yuxiang Yang yuxiang@cs.hku.hk QICI Quantum Information and Computation Initiative, Department of Computer Science, The University of Hong Kong, Pokfulam Road, Hong Kong

摘要

提取相关信息的能力对于学习至关重要。信息瓶颈是一种巧妙的方法，它是一个优化问题，其解对应于从大型系统中提取相关信息的忠实且内存高效的表示。量子计算时代的到来呼吁对处理有关量子系统的信息的有效方法。在这里，我们通过提出一种针对信息瓶颈的量子推广的新通用算法来解决这个问题。与先前结果相比，我们的算法在收敛速度和确定性方面表现出色。它也适用于更广泛的问题，包括确定性信息瓶颈的量子扩展，这是原始信息瓶颈问题的一个重要变体。值得注意的是，我们发现量子系统在量子信息瓶颈方面可以实现比相同大小的经典系统严格更好的性能，为证明量子机器学习的优势提供了新的视角。

1 引言

学习是当代世界中一项至关重要的任务。因此，寻找强大的学习信息工具一直是重中之重。信息瓶颈 [32] 就是一个很好的例子，它在深度学习 [33, 28, 8]、视频处理 [16]、聚类 [29] 和极性编码 [30] 等许多应用中都有用。具体来说，信息瓶颈是一种提取信息片段的方法 $T$ 关于系统 $Y$ 从系统 $X$ 中，并被表述为差值最小化问题 $I(T:X)-\beta I(T:Y)$ 具有正参数 $\beta$ ，其中 $I(T:X)$ 是 $T$ 和 $X$ 之间的互信息。特别地，我们对 $X$ 为经典的情况感兴趣。通过设计，信息瓶颈实现了不可逆压缩，通过提取关于 $Y$ 的基本信息并同时去除 $X$ 中包含的非必要信息。

Refer to caption — 图 1：量子信息瓶颈的可视化。在量子信息瓶颈的典型设置中，任务是通过提取关于量子系统 $Y$ 的有用信息并删除无用信息，将经典系统压缩成更小的系统 $T$ ，该系统可以是经典的或量子的。预计可以从 $T$ 中恢复更多关于 $Y$ 的相关信息 $Y^{\prime}$ ，而不是整个 $X$ 。

随着我们进入量子信息时代，对有效学习量子系统信息的方法的需求正在增长。为此，让我们考虑量子信息瓶颈 (QIB) 的设置，如图 1 所示。与其经典对应物类似，QIB 的目标是压缩 $X$ 到更小的系统 $T$ ，同时保持与 $Y$ 的相关性，其中一些系统是量子系统。在这项工作之前，QIB 已在几篇最近的作品中被讨论过 [9, 24, 6, 14, 2]，并已应用于量子信息论 [6, 14] 和量子机器学习 [2]。另一方面，QIB 的基本特性，如收敛性尚未得到分析，这阻碍了它在更实际任务中的应用。量子信息瓶颈首先在 [9] 中被提议作为信息瓶颈方法的量子扩展。它还推导出最小化问题解的必要条件 (参见 [9, 附录 A]) 通过使用拉格朗日乘子方法，与 [1, 4] 中的方法相同。利用获得的条件，还提出了一种迭代算法来寻找满足必要条件的解 [9, 附录 C]。然后，参考文献 [24] 在量子通信场景中考虑了 QIB。 ¹ ¹1参考文献 [24, 附录 A] 推导出最小化问题解的必要条件通过使用拉格朗日乘子方法，与 [1, 4] 中的方法相同。利用获得的条件，还提出了一种迭代算法来寻找满足必要条件的解 [24, 附录 C 的末尾]。然而，没有研究讨论迭代算法的行为，即尚不清楚该算法是否单调地减少目标函数 [32, 31, 9, 24]。 [9，附录 B] 中还声称，如果 $X, Y$ 都是经典的，则使用量子 $T$ 没有优势。

在这项工作中，我们对量子信息瓶颈进行了系统研究，重点关注系统 $X$ 为经典的情况。与现有工作 [9, 24, 6, 14, 2] 相比，我们的工作在几个方面做出了重大贡献：

首先，我们对 QIB 的两个关键属性——效率和收敛性进行了全面分析。受 Arimoto-Blahut 算法 [1, 4] 的最新推广 [22] 的启发，我们引入了一种新的量子信息瓶颈算法，该算法具有一个加速参数 $\gamma$ ，当选择得当时，可以使 QIB 的值比以前收敛得快得多。我们证明了我们的算法收敛并达到最小值的严格准则。特别是，我们证明了 $\beta$ 的选择对收敛起着重要作用。

其次，与参考文献中的说法相反 [9, 24]，我们提供了具体的例子，证明使用量子而不是经典 $T$ 可以降低 QIB 的最小值。值得注意的是，我们的结果证明了量子机器学习 [34, 27, 3] 中的真正量子优势，在量子机器学习中，量子电路的使用已经很普遍 [26, 11, 5, 17, 20, 25]，但量子优势很少得到证明。

最后但同样重要的是，我们通过考虑一个通用的目标函数 $(1-\alpha)H(T)+\alpha I(T:X)-\beta I(T:Y)$ （具有参数 $\alpha,\beta\geq 0$ ）来推广 QIB，当 $\alpha=1$ 时，它简化为标准 QIB。这样做，广义 QIB 包含 QDIB，即确定性信息瓶颈的量子版本 [31]，通过设置 $\alpha=0$ 来实现。我们表明，我们的分析和算法适用于这种广义设置，特别是适用于 QDIB。然后，我们澄清了 QDIB 可以用来寻找一个好的近似充分统计量 $T$ ，用于 $X$ ，用于 $Y$ ，这需要更小的熵 $H(T)$ 和更大的互信息 $I(T:Y)$ 。我们通过一个数值例子证明了我们的发现，其中 QDIB 提取了关于量子系综的信息的良好近似充分统计量。

总之，我们的工作解决了 QIB 的几个关键问题，包括收敛性、效率、参数选择和量子优势。我们还将 QIB 扩展到一个广义设置，并引入了 QDIB 的概念。我们的结果包括严格的分析分析和数值实验，这些实验证明了 QIB 和 QDIB 在学习基本任务中的重要性。

本文的其余部分安排如下。第 2 节介绍了我们的量子信息瓶颈算法，并讨论了它的收敛性和参数 $\beta$ 的依赖性。第 3 节讨论了当我们的内存系统 $T$ 是经典的时候我们的算法。第 4 节展示了通过量子内存 $T$ 比通过经典内存 $T$ 实现目标函数的更小值。第 5 节讨论了我们的 QIB 算法在数据分类中的应用。第 6 节提出了我们的量子确定性信息瓶颈算法，并研究了它的性质。第 7 节将其应用于近似充分统计量的提取，并在一个例子中通过数值验证了它的效率。第 8 节进行讨论和结论。

2 量子信息瓶颈 (QIB) 问题

2.1 问题定义

考虑一个由 $X$ 和 $Y$ 组成的经典-量子联合系统，其联合状态为

\displaystyle\rho_{XY}:=\sum_{x}P_{X}(x)|x\rangle\langle x|\otimes\rho_{Y|x},

(1)

其中 $X$ 是一个经典系统， $Y$ 是一个量子系统。我们的量子信息瓶颈 (QIB) 问题旨在构建一个信息处理器，由一个从 $X$ 到 $T$ 的 c-q 通道 $\sigma_{T|X}$ 模拟（当经典寄存器为 $x$ 时准备一个量子状态 $\sigma_{T|x}$ ），该处理器从 $X$ 中提取关于量子系统 $Y$ 的有效信息。在信息处理器作用之后，联合状态变为：

\displaystyle\rho_{XYT}:=\sum_{x}P_{X}(x)|x\rangle\langle x|\otimes\rho_{Y|x}\otimes\sigma_{T|x}.

(2)

为此，QIB 问题关注构建一个经典-量子通道 $\sigma_{T|X}:X\to T$ ，该通道最小化信息瓶颈函数，该函数由关于联合状态 $\rho_{XYT}$ 定义的熵量组成：

	$\displaystyle f_{\alpha}(\sigma_{T\|X})$	$\displaystyle:=H(T)-\alpha H(T\|X)-\beta I(T:Y)$
		$\displaystyle=(1-\alpha)H(T)+\alpha I(T:X)-\beta I(T:Y),$		(3)

其中 $H(T)$ 表示 $T$ 的熵 ² ²2为了方便起见，符号 $H(A)$ 表示当系统 $A$ 为经典系统时香农熵，当 $A$ 为量子系统时表示冯·诺依曼熵。， $H(T|X)$ 表示 $T$ 在 $X$ 上的条件熵，而 $I(T:Y)$ 表示 $T$ 和 $Y$ 之间的互信息。

也就是说，我们的目标是计算以下值：

\displaystyle{\cal I}_{\alpha,\beta}:=\min_{\sigma_{T|X}}f_{\alpha}(\sigma_{T|X}).

(4)

在信息瓶颈 (2.1) 中， $\alpha$ 和 $\beta$ 是模拟任务目标的正实变量。在信息瓶颈的最初提议 [32] $\alpha=1$ 中。 $\alpha$ 的另一个常见选择是 $\alpha=0$ ，该任务被称为确定性 QIB（其经典对应物在文献 [31] 中讨论）。参数 $\beta$ 控制着忠实度和压缩之间的权衡。例如，在确定性信息瓶颈中，较大的 $\beta$ 将使 $I(T:Y)$ 在目标函数中更加突出，迫使信息处理器保留更多关于 $Y$ 的信息，而较小的 $\beta$ 将体现 $I(T:X)$ 的作用，促使信息处理器在 $X$ 中进行更多压缩。

虽然本节讨论了具有量子系统 $Y$ 和 $T$ 的情况，但具有经典系统 $Y$ 和量子系统 $T$ 的情况可以通过考虑对角密度 $\rho_{Y|x}$ 作为特例包含在内。另一方面，具有经典系统 $T$ 的情况与具有量子系统 $T$ 的情况不同因为我们需要讨论不同的最小化问题，该问题对最小化变量有不同的范围。幸运的是，我们在下一小节中介绍的针对量子系统 $T$ 的算法可以应用于具有经典系统 $T$ 的情况。第 3 节讨论了 $T$ 为经典系统的情况。我们注意到， $T$ 和 $Y$ 都是经典系统的情况已在经典信息论和机器学习中得到广泛研究；例如，参见文献 [32, 33, 31, 28]。

2.2 针对 $\alpha=1$ 的 QIB 算法

论文 [9] 讨论了当 $X, Y, T$ 为量子系统而 $\alpha=1$ 时的情况，将经典信息瓶颈 [32] 扩展到量子领域。它推导出一个必要的条件，以便 $\sigma_{X|T}$ 达到最小值 (4)。必要条件在量子系统 $T, Y$ 和经典系统 $X$ 中写成

	$\displaystyle\log\sigma_{T\|x}=$	$\displaystyle(1-\beta)\log\sigma_{T}[\sigma_{T\|X}]$
		$\displaystyle-\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}-C_{x},$		(5)

其中 $C_{x}$ 是一个归一化常数，

$\displaystyle\rho_{Y}:=$	$\displaystyle\sum_{x}P_{X}(x)\rho_{Y\|x}$	(6)
$\displaystyle\sigma_{T}[\sigma_{T\|X}]:=$	$\displaystyle\sum_{x}P_{X}(x)\sigma_{T\|x}$	(7)
$\displaystyle\sigma_{YT}[\sigma_{T\|X}]:=$	$\displaystyle\sum_{x}P_{X}(x)\sigma_{T\|x}\otimes\rho_{Y\|x}.$	(8)

由于这个条件是自洽的，利用这个条件，论文 [9] 提出了以下具有以下更新规则的迭代算法：

	$\displaystyle\sigma_{T\|x}^{(n+1)}:=$	$\displaystyle\frac{1}{e^{C_{x}}}\exp\Big{(}(1-\beta)\log\sigma_{T}[\sigma_{T\|X}^{(n)}]$
		$\displaystyle-\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}^{(n)}]\Big{)}\Big{)}.$		(9)

2.3 加速参数 $\gamma$

接下来，我们提出对 [9] 中迭代算法的扩展。首先，我们引入一个新的参数 $\gamma>0$ 并将条件 (5) 改写为：

	$\displaystyle\log\sigma_{T\|x}=(1-\frac{1}{\gamma})\log\sigma_{T\|x}+\frac{1}{\gamma}\log\sigma_{T\|x}$
$\displaystyle=$	$\displaystyle(1-\frac{1}{\gamma})\log\sigma_{T\|x}+\frac{1}{\gamma}(1-\beta)\log\sigma_{T}[\sigma_{T\|X}]$
	$\displaystyle-\frac{1}{\gamma}\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}-\frac{1}{\gamma}C_{x}$
$\displaystyle=$	$\displaystyle\log\sigma_{T\|x}-\frac{1}{\gamma}{\cal F}_{1}[\sigma_{T\|X}](x)-\frac{1}{\gamma}C_{x},$	(10)

其中

	$\displaystyle{\cal F}_{1}[\sigma_{T\|X}](x)$
$\displaystyle:=$	$\displaystyle-\log\sigma_{T}[\sigma_{T\|X}]+\log\sigma_{T\|x}$
	$\displaystyle+\beta\operatorname{\mathrm{Tr}}_{Y}\Big{(}\rho_{Y\|x}\Big{(}\log(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y})-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}\Big{)}.$	(11)

使用 (10)，我们可以推导出另一个迭代算法，如下所示：

\displaystyle\sigma_{T|x}^{(n+1)}:=\frac{1}{e^{\frac{1}{\gamma}C_{x}}}\exp\Big{(}\log\sigma_{T|x}^{(n)}-\frac{1}{\gamma}{\cal F}_{1}[\sigma_{T|X}^{(n)}](x)\Big{)}.

(12)

通过这种方式，我们可以很容易地用 [9] 推广迭代算法 (9)。但是，找到 $\frac{1}{\gamma}$ 的合适值并非易事，正如我们将在后面展示的那样，这对我们迭代算法的效率至关重要。尽管许多论文 [32, 31, 9, 24] 讨论了由 (9) 给出的迭代算法，包括经典情况，但之前没有研究表明由 (9) 给出的迭代算法的收敛性。此外，以上讨论集中在 $\alpha=1$ 的情况下，不包括确定性信息瓶颈 ( $\alpha=0$ ) 的情况。因此，为了设计一个高效的算法，我们需要讨论参数 $\gamma$ 对通用 $\alpha$ 的选择。

2.4 具有通用 $\alpha$ 和收敛性的 QIB 算法

为了分析算法 (12) 的收敛性，我们引入一个基于 Ref. 中思想的双输入变量函数。 [22, 第三节-B]，而参考文献 [22, 第三节-B] 中的方法是作为 Arimoto-Blahut 算法的推广获得的 [1, 4]。思路是，我们不直接解决 $f_{\alpha}(\sigma_{T|X})$ 的最小化问题，因为这通常太难了，而是找到一个具有两个变量 $\sigma_{T|X},\sigma_{T|X}^{\prime}$ 的连续函数 $J(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 。然后，我们可以交替更新这两个输入变量 $\sigma_{T|X},\sigma_{T|X}^{\prime}$ 以减少 $J(\sigma_{T|X},\sigma^{\prime}_{T|X})$ 。最后，如果函数满足

\displaystyle f_{\alpha}(\sigma_{T|X})=J(\sigma_{T|X},\sigma_{T|X}),

(13)

$J(\sigma_{T|X},\sigma^{\prime}_{T|X})$ 的最小值将接近 IB 函数的最小值。

如果我们找到一个操作符 ${\cal F}_{\alpha}[\sigma_{T|X}](x)$ 来满足，则可以构造上述类型的函数

\displaystyle f_{\alpha}(\sigma_{T|X})=

\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T|x}{\cal F}_{\alpha}[\sigma_{T|X}](x),

(14)

在本文中，我们采用以下函数：

	$\displaystyle{\cal F}_{\alpha}[\sigma_{T\|X}](x)$
$\displaystyle:=$	$\displaystyle-\log\sigma_{T}[\sigma_{T\|X}]+\alpha\log\sigma_{T\|x}$
	$\displaystyle+\beta\operatorname{\mathrm{Tr}}_{Y}\Big{(}\rho_{Y\|x}\Big{(}\log(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y})-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}\Big{)}.$	(15)

然后，条件 (14) 满足。

使用此函数，我们可以定义 $J_{0}(\sigma_{T|X},\sigma_{T|X}^{\prime}):=\operatorname{\mathrm{Tr}}_{T}\sum_{x}\sigma_{T|x}P_{X}(x){\cal F}_{\alpha}[\sigma_{T|X}^{\prime}](x)$ ，它满足条件 (13)。然而，在函数 $J_{0}(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 中交替优化两个输入变量是困难的。相反，对于 $\gamma>0$ ，我们引入以下函数

		$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X}^{\prime})$		(16)
	$\displaystyle:=$	$\displaystyle\gamma D(\sigma_{T\|X}\\|\sigma_{T\|X}^{\prime})+\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T\|x}{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x),$		(17)

其中 $D(\sigma_{T|X}\|\sigma_{T|X}^{\prime}):=\sum_{x}P_{X}(x)D(\sigma_{T|x}\|\sigma_{T|x}^{\prime})$ 和 $D(\sigma_{T|x}\|\sigma_{T|x}^{\prime})$ 表示相对熵。

接下来，我们需要指定交替更新 $\sigma_{T|X},\sigma_{T|X}^{\prime}$ 的规则。重要的是，我们需要确保 $J_{\gamma,\alpha}(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 在更新规则下是非递增的。为此，我们首先介绍以下条件：

(A1)

$\sigma_{T|X}$ 和 $\sigma_{T|X}^{\prime}$ 满足关系

		$\displaystyle\gamma\sum_{x}P_{X}(x)D(\sigma_{T\|x}\\|\sigma_{T\|x}^{\prime})$
	$\displaystyle\geq$	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T\|x}({\cal F}_{\alpha}[\sigma_{T\|X}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x)).$		(18)

实际上，条件 (A1) 可以通过将 $\gamma(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 定义为 $\gamma\geq\gamma(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 来改写为

		$\displaystyle\gamma(\sigma_{T\|X},\sigma_{T\|X}^{\prime})$
	$\displaystyle:=$	$\displaystyle\frac{\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T\|x}({\cal F}_{\alpha}[\sigma_{T\|X}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x))}{\sum_{x}P_{X}(x)D(\sigma_{T\|x}\\|\sigma_{T\|x}^{\prime})}.$		(19)

该数量的评估结果为

\displaystyle\gamma(\sigma_{T|X},\sigma_{T|X}^{\prime})\leq\alpha

(20)

因为关系

		$\displaystyle D(\rho_{YT}[\sigma_{T\|X}]\\|\rho_{YT}[\sigma_{T\|X}^{\prime}])\geq D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle=$	$\displaystyle D(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y}\\|\sigma_{T}[\sigma_{T\|X}^{\prime}]\otimes\rho_{Y})$		(21)

意味着关系

	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T\|x}({\cal F}_{\alpha}[\sigma_{T\|X}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x))$
$\displaystyle=$	$\displaystyle-D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle+\alpha\sum_{x}P_{X}(x)D(\sigma_{T\|x}\\|\sigma_{T\|x}^{\prime})$
	$\displaystyle+\beta D(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y}\\|\sigma_{T}[\sigma_{T\|X}^{\prime}]\otimes\rho_{Y})$
	$\displaystyle-\beta D(\rho_{YT}[\sigma_{T\|X}]\\|\rho_{YT}[\sigma_{T\|X}^{\prime}])$
$\displaystyle\leq$	$\displaystyle-D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle+\alpha\sum_{x}P_{X}(x)D(\sigma_{T\|x}\\|\sigma_{T\|x}^{\prime})$
$\displaystyle\leq$	$\displaystyle\alpha\sum_{x}P_{X}(x)D(\sigma_{T\|x}\\|\sigma_{T\|x}^{\prime}).$	(22)

为了说明我们的更新规则，我们定义

$\displaystyle\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T\|X}](x):=$	$\displaystyle\exp\Big{(}\log\sigma_{T\|x}-\frac{1}{\gamma}{\cal F}_{\alpha}[\sigma_{T\|X}](x)\Big{)}$	(23)
$\displaystyle\hat{\eta}_{\gamma,\alpha\|x}[\sigma_{T\|X}]:=$	$\displaystyle\operatorname{\mathrm{Tr}}\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T\|X}](x)$	(24)
$\displaystyle\hat{\sigma}_{\gamma,\alpha,T\|x}[\sigma_{T\|X}]:=$	$\displaystyle\frac{1}{\hat{\eta}_{\gamma,\alpha}[\sigma_{T\|X}](x)}\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T\|X}](x).$	(25)

特别是，当 $\gamma=\alpha$ 时，运算符 $\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T|X}](x)$ 简化为

	$\displaystyle\hat{\sigma}_{\alpha,T}[\sigma_{T\|X}](x)$
$\displaystyle=$	$\displaystyle\exp\Big{(}\frac{1-\beta}{\alpha}\log\sigma_{T}[\sigma_{T\|X}]$
	$\displaystyle-\frac{\beta}{\alpha}\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}\Big{)}.$	(26)

定理 1

在条件 (A1) 下，我们有

	$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X}^{\prime})\geq$	$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X})$		(27)
	$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X}^{\prime})\geq$	$\displaystyle J_{\gamma,\alpha}(\hat{\sigma}_{\gamma,\alpha,T\|X}[\sigma_{T\|X}^{\prime}],\sigma_{T\|X}^{\prime}).$		(28)

定理 1 的证明：条件 (A1) 产生

	$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X})$
$\displaystyle=$	$\displaystyle\sum_{t}\operatorname{\mathrm{Tr}}\sigma_{T\|x}P_{X}(x){\cal F}_{\alpha}[\sigma_{T\|X}](x)$
$\displaystyle\leq$	$\displaystyle\sum_{x}\operatorname{\mathrm{Tr}}\sigma_{T\|x}P_{X}(x){\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x,t)$
	$\displaystyle+\gamma\sum_{x}P_{X}(x)D(\sigma_{T\|x}\\|\sigma_{T\|x}^{\prime})$
$\displaystyle=$	$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X}^{\prime}).$	(29)

因此，我们得到 (27)。

此外，我们有

	$\displaystyle J_{\gamma,\alpha}(\sigma_{T\|X},\sigma_{T\|X}^{\prime})$
$\displaystyle\stackrel{{\scriptstyle(a)}}{{=}}$	$\displaystyle\gamma\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}\Big{(}\log\sigma_{T\|x}-\log\sigma_{T\|x}^{\prime}$
	$\displaystyle+\frac{1}{\gamma}{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x)\Big{)}$
$\displaystyle\stackrel{{\scriptstyle(b)}}{{=}}$	$\displaystyle\gamma\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}\Big{(}\log\sigma_{T\|x}-{\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T\|X}](x)}\Big{)}$
$\displaystyle\stackrel{{\scriptstyle(c)}}{{=}}$	$\displaystyle\gamma\sum_{x}P_{X}(x)\Big{(}\operatorname{\mathrm{Tr}}\sigma_{T\|x}\Big{(}\log\sigma_{T\|x}-\log\hat{\sigma}_{\gamma,\alpha,T\|x}[\sigma_{T\|X}^{\prime}]\Big{)}$
	$\displaystyle-\log\hat{\eta}_{\gamma,\alpha}[\sigma_{T\|X}^{\prime}](x)\Big{)}$
$\displaystyle=$	$\displaystyle\gamma\sum_{x}P_{X}(x)\big{(}D(\sigma_{T\|x}\\|\hat{\sigma}_{\gamma,\alpha,T\|x}[\sigma_{T\|X}^{\prime}])\big{)}$
	$\displaystyle-\gamma\sum_{x}P_{X}(x)\log\hat{\eta}_{\gamma,\alpha\|x}[\sigma_{T\|X}^{\prime}],$	(30)

其中 $(a)$ 、 $(b)$ 和 $(c)$ 分别来自 (17)、(23) 和 (25)。最后，从等式 (30) 中我们可以看到，当 $\sigma_{T|X}=\hat{\sigma}_{\gamma,\alpha,T|x}[\sigma_{T|X}^{\prime}]$ 时， $J_{\gamma,\alpha}(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 的最小值可以达到，因为 (30) 的第一项是非负的（当 $\sigma_{T|X}=\hat{\sigma}_{\gamma,\alpha,T|x}[\sigma_{T|X}^{\prime}]$ 时可以达到等式），而第二项与 $\sigma_{T|X}$ 无关。因此，我们得到 (28)。

推论 2

假设 $\gamma\geq\sup_{\sigma_{T|X},\sigma_{T|X}^{\prime}}\gamma(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 。当 $\sigma_{T|X}$ 是一个局部极小值时，我们有

\displaystyle\hat{\sigma}_{\gamma,\alpha,T|x}[\sigma_{T|X}]=\sigma_{T|X},

(31)

这等价于 (5) 当 $\alpha=1$ 。

当 $\gamma\geq\gamma(\hat{\sigma}_{\gamma,\alpha,T|X}[\sigma_{T|X}],\sigma_{T|X})$ ，以下不等式链成立： $f_{\alpha}(\sigma_{T|X}){=}J_{\gamma,\alpha}(\sigma_{T|X},\sigma_{T|X})\geq J_{\gamma,\alpha}(\hat{\sigma}_{\gamma,\alpha,T|X}[\sigma_{T|X}],\sigma_{T|X})\geq J_{\gamma,\alpha}(\hat{\sigma}_{\gamma,\alpha,T|X}[\sigma_{T|X}],\hat{\sigma}_{\gamma,\alpha,T|X}[\sigma_{T|X}])=f_{\alpha}(\hat{\sigma}_{\gamma,\alpha,T|X}[\sigma_{T|X}])$ 。因此，只要 $\gamma$ 足够大，信息瓶颈在更新规则下的单调性也能得到保证。最后，我们提出以下算法，其中 $\gamma$ 固定， $\alpha$ 通用：

算法 1 QIB 算法

1: 输入：一个联合状态

\rho_{XY}

[如等式 (1) 所示]。

2: 随机选择一个初始 c-q 通道

\sigma_{T|X}^{(1)}

；

3: 创建一个计数器

n

作为迭代次数；将

n

初始化为 1。

4: 重复

5: 选择

\sigma_{T|X}^{(n+1)}

作为

\hat{\sigma}_{\gamma,\alpha,T|X}[\sigma_{T|X}^{(n)}]

[参见等式 (23) 和 (25)]; 将

n

设置为

n+1

。

6: 直到收敛。

7: 输出：一个 c-q 通道

\sigma_{T|X}^{(n+1)}

如前所述，当 $\gamma$ 在所有迭代步骤中满足条件 (A1) 时，即，当 $\gamma$ 足够大时，定理 1 保证了信息瓶颈函数的单调性：

\displaystyle f_{\alpha}(\sigma_{T|X}^{(n+1)})\leq J_{\gamma,\alpha}(\sigma_{T|X}^{(n+1)},\sigma_{T|X}^{(n)})\leq f_{\alpha}(\sigma_{T|X}^{(n)}).

(32)

由于 $f_{\alpha}$ 由有界熵量组成（假设系统是有限的），因此它是一个有界量。因此，算法中的序列 $\{f_{\alpha}(\sigma_{T|X}^{(n)})\}$ 收敛。此外，我们可以证明 c-q 通道序列 $\{\sigma_{T|X}^{(n)}\}$ 也收敛：

定理 3

当 $\gamma\geq\sup_{\sigma_{T|X},\sigma_{T|X}^{\prime}}\gamma(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 时，序列 $\{\sigma_{T|X}^{(n)}\}$ 收敛。

特别地，由于 $\alpha\geq\sup_{\sigma_{T|X},\sigma_{T|X}^{\prime}}\gamma(\sigma_{T|X},\sigma_{T|X}^{\prime})$ ，序列 $\{\sigma_{T|X}^{(n)}\}$ 收敛于 $\gamma=\alpha$ 。

证明：由于 $\{f_{\alpha}(\sigma_{T|X}^{(n)})\}$ 对于 $n$ 单调递减，我们有

\displaystyle\lim_{n\to\infty}f_{\alpha}(\sigma_{T|X}^{(n)})-f_{\alpha}(\sigma_{T|X}^{(n+1)})=0.

(33)

使用 (30)，我们有

	$\displaystyle f_{\alpha}(\sigma_{T\|X}^{(n)})=J_{\gamma,\alpha}(\sigma_{T\|X}^{(n)},\sigma_{T\|X}^{(n)})$
$\displaystyle=$	$\displaystyle\gamma\sum_{x}P_{X}(x)D(\sigma_{T\|x}^{(n)}\\|\sigma_{T\|x}^{(n+1)})+J_{\gamma,\alpha}(\sigma_{T\|X}^{(n+1)},\sigma_{T\|X}^{(n)})$
$\displaystyle\geq$	$\displaystyle\gamma\sum_{x}P_{X}(x)D(\sigma_{T\|x}^{(n)}\\|\sigma_{T\|x}^{(n+1)})+f_{\alpha}(\sigma_{T\|X}^{(n+1)}).$	(34)

因此，我们有

\displaystyle\gamma\sum_{x}P_{X}(x)D(\sigma_{T|x}^{(n)}\|\sigma_{T|x}^{(n+1)})\leq f_{\alpha}(\sigma_{T|X}^{(n)})-f_{\alpha}(\sigma_{T|X}^{(n+1)}).

(35)

由于根据 (33) 和 (35)，序列 $\{\sigma_{T|X}^{(n)}\}$ 是一个柯西序列，因此它收敛。

我们注意到，在算法 1 中，可以选择收敛标准。

在算法 1 中， $\gamma$ 被固定为一个足够大的值。直观地（参见下一段的更详细讨论）， $\gamma$ （更准确地说， $1/\gamma$ ）是一个加速参数，如果选择一个较小的值，它可以使算法收敛更快。

首先，我们展示了 $\gamma$ 在算法收敛中的作用。用 $\sigma_{T|X}^{*}$ 表示 $\{\sigma_{T|X}^{(n)}\}$ 的收敛点。我们算法的性能可以用 $\sigma_{T|X}^{*}$ 和 $\sigma_{T|X}^{(n)}$ 之间平均偏差的下降速度来描述，其计算方法为

	$\displaystyle\sum_{x}P_{X}(x)D(\sigma_{T\|x}^{}\\|\sigma_{T\|x}^{(n)})-\sum_{x}P_{X}(x)D(\sigma_{T\|x}^{}\\|\sigma_{T\|x}^{(n+1)})$
$\displaystyle=$	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{}\Big{(}\log\sigma_{T\|x}^{}-\log\sigma_{T\|x}^{(n)}\Big{)}$
	$\displaystyle-\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{}\Big{(}\log\sigma_{T\|x}^{}-\log\sigma_{T\|x}^{(n+1)}\Big{)}$
$\displaystyle=$	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{*}\Big{(}\log\sigma_{T\|x}^{(n+1)}-\log\sigma_{T\|x}^{(n)}\Big{)}$
$\displaystyle\stackrel{{\scriptstyle(a)}}{{=}}$	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{*}\Big{(}-\frac{1}{\gamma}{\cal F}_{\alpha}[\sigma_{T\|X}^{(n)}](x)-\log\hat{\eta}_{\gamma,\alpha}[\sigma_{T\|X}^{(n)}](x)\Big{)}$
$\displaystyle\stackrel{{\scriptstyle(b)}}{{=}}$	$\displaystyle\frac{1}{\gamma}J_{\gamma,\alpha}(\sigma_{T\|X}^{(n+1)},\sigma_{T\|X}^{(n)})-{\frac{1}{\gamma}}\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{*}{\cal F}_{\alpha}[\sigma_{T\|X}^{(n)}](x)$
$\displaystyle\stackrel{{\scriptstyle(c)}}{{=}}$	$\displaystyle\frac{1}{\gamma}\Big{(}(J_{\gamma,\alpha}(\sigma_{T\|X}^{(n+1)},\sigma_{T\|X}^{(n)})-f_{\alpha}(\sigma_{T\|X}^{*}))$
	$\displaystyle+\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{}\Big{(}{\cal F}_{\alpha}[\sigma_{T\|X}^{}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{(n)}](x)\Big{)}\Big{)},$	(36)

其中 $(a)$ 、 $(b)$ 和 $(c)$ 分别来自 (23) 和 (25)、 (30) 和 (27) 的组合。

上述讨论表明，如果 $\frac{1}{\gamma}\bigg{(}(J_{\gamma,\alpha}(\sigma_{T|X}^{(n+1)},\sigma_{T|X}^{(n)})-f_{\alpha}(\sigma_{T|X}^{*}))+\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T|x}^{*}\Big{(}{\cal F}_{\alpha}[\sigma_{T|X}^{*}](x)-{\cal F}_{\alpha}[\sigma_{T|X}^{(n)}](x)\Big{)}\bigg{)}>0$ ，使 $\gamma$ 更小会导致 $\sigma_{T|X}^{*}$ 和 $\sigma_{T|X}^{(n)}$ 之间的平均偏差下降更快。另一方面，使 $\gamma$ 太小会导致违反条件 (18) 的风险（因此会破坏 $J_{\gamma,\alpha}$ 的单调性）。

备注 1

参考文献 [22, Section III] 考虑了一种通用设置。如果 $\sigma_{T|X}$ 是一个单一密度矩阵，我们的方法可以被认为是其设置的特例。但是，由于在我们的案例中 $\sigma_{T|X}$ 是经典量子通道，我们的分析不是其设置的特例。

备注 2

参考文献 [9, Appendix A] [24, Appendix A] 考虑了当系统 $X, Y, T$ 是量子系统，而 $\alpha=1$ 的情况。他们使用拉格朗日乘子法，与 [1, 4] 相同的方式，推导出了最小化问题解的必要条件。使用得到的条件，他们 [9, Appendix C] [24, Appendix C] 还提出了一种迭代算法来找到满足必要条件的解。他们的必要条件似乎与 (31) 相同，其中 $\gamma=\alpha=1$ 。但是，他们没有讨论其算法中对局部极小值的收敛性。

2.5 不同 $\gamma$ 的影响的数值结果

为了看到不同 $\gamma$ 的影响，让我们看一个具体的例子：考虑一个单量子比特量子系统 $Y$ 和一个大小为 $2^{8}$ 的经典寄存器 $X$ 。然后，我们假设 $P_{X}$ 是 ${\cal X}=\{0,\ldots,2^{8}-1\}$ 上的均匀分布，密度 $\rho_{Y|x}$ 给出如下 $\rho_{Y|x}=\rho(\theta_{x},\lambda_{x})$ ，其中

\displaystyle\rho(\theta,\lambda)

\displaystyle:=\exp\left(i\theta\sigma_{x}\right)\left(\begin{matrix}1-\lambda&0\\ 0&\lambda\end{matrix}\right)\exp\left(-i\theta\sigma_{x}\right),

(37)

其中 $\sigma_{x}=\left(\begin{matrix}0&1\\ 1&0\end{matrix}\right)$ 是泡利- $X$ 矩阵。参数 $\theta_{x}$ 和 $\lambda_{x}$ 是随机选择的。

然后，我们考虑的系综允许以下联合密度矩阵：

\displaystyle\hat{\rho}_{XY}

\displaystyle=\sum_{x}P_{X}(x)|\pi(x)\rangle\langle\pi(x)|\otimes\rho\left(\theta_{x},\lambda_{x}\right)

(38)

其中 $\rho\left(\theta_{x},\lambda_{x}\right)$ 由等式（37）给出。

现在，我们将我们的 QIB 算法（即算法 1）应用于系综（38）。我们考虑一个大小为 $|\cal{X}|$ 平方根（即 $|{\cal T}|=2^{4}$ ）的经典 $T$ 。我们设置 $\alpha=1$ 和 $\beta=10$ 。我们将重点关注加速参数 $\gamma$ 的不同选择的影响。如图 2 所示， $\gamma$ 的选择对于 QIB 算法的性能至关重要，更具体地说，对于效率和收敛性至关重要。

我们数值结果体现出两个有趣的现象：首先，选择较小的 $\gamma$ 将加速收敛过程。如图 2 所示，通过选择适当较小的 $\gamma$ 值（例如， $0.8$ 或 $0.5$ ），我们的 QIB 算法比现有的 QIB 算法[9, 24]更快地达到收敛，该算法对应于 $\gamma=1$ 的算法1。其次，选择过小的 $\gamma$ 将破坏 QIB 算法的收敛性。例如，当 $\gamma$ 选择为 $0.4$ 时， $f_{\alpha}$ 在几次迭代后跳跃，最终达到比其初始值大得多的值。

总之，数值结果证实了我们在理论分析 (见第 2.4 节) 中关于选择合适的 $\gamma$ 的重要性的结论。我们强调，我们在这一方向上的贡献有两个方面：

1.

我们提出了一种加速 QIB 算法的方法，通过引入一个新的参数 $\gamma$ 并将其设置为小于 1，使其在更少的迭代轮次内收敛。
2.

我们证明，如果 $\gamma$ 太小，QIB 算法无法达到 $f_{\alpha}$ 的理想最小值。

2.6 $\beta$ 的选择

我们的 QIB 算法的输出不仅取决于 $\rho_{XY}$ [参见 (1)]，还取决于 $\alpha$ 和 $\beta$ 的选择。直观地，较大的 $\beta$ 提高了保真度 (因为它使 $I(Y:T)$ 在 $f_{\alpha}$ 中更重要)，而较小的 $\beta$ 导致更多压缩 (因为它使 $I(X:T)$ 在 $f_{\alpha}$ 中更重要)。令人惊讶的是， $\beta$ 的选择并非完全自由：在下文中，我们将展示如果 $\beta$ 太小，则 QIB 算法将产生一个平凡的 $\sigma_{T|X}$ 。

为了考虑 $\beta$ 的选择与 $T$ 上的所得信息之间的关系，我们为子集 ${\cal S}\subset{\cal S}_{X\to T}$ 引入以下条件，其中 ${\cal S}_{X\to T}$ 是从 $X$ 到 $T$ 的所有 c-q 通道的集合，即集合 $\{\sigma_{T|X}=(\sigma_{T|x})_{x\in{\cal X}}\}$ ：

(A2): 对于任何两个不同的元素 $\sigma_{T|X},\sigma_{T|X}^{\prime}\in{\cal S}$ ， $\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T|x}({\cal F}_{\alpha}[\sigma_{T|X}](x)-{\cal F}_{\alpha}[\sigma_{T|X}^{\prime}](x))>0$

条件 (A2) 是酉不变的，即，对 $(\sigma_{T|X},\sigma_{T|X}^{\prime})$ 满足条件 (A2)，当且仅当对任何在 $T$ 上的酉算子 $U$ ，对 $(U\sigma_{T|X}U^{\dagger},U\sigma_{T|X}^{\prime}U^{\dagger})$ 满足条件 (A2)。因此，我们将 ${\cal S}$ 选为酉不变子集。

定理 4

假设一个酉不变子集 ${\cal S}$ 满足 (A2)。令 $\sigma_{T|X}^{M}:=\mathop{\rm argmin}\limits_{\sigma_{T|X}}f_{\alpha}(\sigma_{T|X})$ 为 QIB 问题的解。当 $\sigma_{T|X}^{M}$ 属于 ${\cal S}$ 时，对于任何 $x$ ， $\sigma_{T|x}^{M}$ 是 $T$ 上的最大混合状态。

如果对于每个 $x$ ， $\sigma_{T|x}^{M}$ 都是最大混合状态，那么 $T$ 与 $Y$ 不相关，并且不包含任何有意义的信息。换句话说，当定理 4 的假设成立时， QIB 问题的解没有用。因此，我们需要选择参数 $\alpha,\beta$ 使得条件 (A2) 不成立。

现在我们讨论如何避免条件 (A2)。 (A2) 的左侧被评估为

	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T\|x}({\cal F}_{\alpha}[\sigma_{T\|X}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x))$
$\displaystyle=$	$\displaystyle\operatorname{\mathrm{Tr}}_{TY}\sum_{x}P_{X}(x)(\sigma_{T\|x}\otimes\rho_{Y\|x})\Big{(}-(\log\sigma_{T}[\sigma_{T\|X}]-\log\sigma_{T}[\sigma_{T\|X}^{\prime}])+\alpha(\log\sigma_{T\|x}-\log\sigma_{T\|x}^{\prime})$
	$\displaystyle+\beta\Big{(}(\log(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y})-\log(\sigma_{T}[\sigma_{T\|X}^{\prime}]\otimes\rho_{Y}))-(\log\sigma_{YT}[\sigma_{T\|X}]-\log\sigma_{YT}[\sigma_{T\|X}^{\prime}])\Big{)}\Big{)}$
$\displaystyle=$	$\displaystyle\operatorname{\mathrm{Tr}}_{TY}\sum_{x}P_{X}(x)(\sigma_{T\|x}\otimes\rho_{Y\|x})\Big{(}-(\log\sigma_{T}[\sigma_{T\|X}]-\log\sigma_{T}[\sigma_{T\|X}^{\prime}])+\alpha(\log P_{X}(x)\sigma_{T\|x}-\log P_{X}(x)\sigma_{T\|x}^{\prime})$
	$\displaystyle+\beta\Big{(}(\log(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y})-\log(\sigma_{T}[\sigma_{T\|X}^{\prime}]\otimes\rho_{Y}))-(\log\sigma_{YT}[\sigma_{T\|X}]-\log\sigma_{YT}[\sigma_{T\|X}^{\prime}])\Big{)}\Big{)}$
$\displaystyle=$	$\displaystyle-D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])+\alpha D(\sigma_{XT}[\sigma_{T\|X}]\\|\sigma_{XT}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle-\beta\big{(}D(\sigma_{YT}[\sigma_{T\|X}]\\|\sigma_{YT}[\sigma_{T\|X}^{\prime}])-D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])\big{)},$	(39)

其中 $\sigma_{XT}[\sigma_{T|X}]:=\sum_{x}P_{X}(x)\sigma_{T|x}[\sigma_{T|X}]\otimes|x\rangle\langle x|$ 。由于 $D(\sigma_{YT}[\sigma_{T|X}]\|\sigma_{YT}[\sigma_{T|X}^{\prime}])\geq D(\sigma_{T}[\sigma_{T|X}]\|\sigma_{T}[\sigma_{T|X}^{\prime}])$ ， $\beta$ 的系数是一个负值。因此，一个较小的 $\beta$ 更有可能满足条件 (A2)。也就是说，为了获得有效的解决方案，我们需要选择 $\beta$ 为一个足够大的值。

定理 4 的证明：令 $U$ 为 $\mathcal{T}$ 上的任意酉算符。我们定义 $\sigma_{T|X}^{M^{\prime}}$ 为 $\sigma_{T|x}^{M^{\prime}}=U\sigma_{T|x}^{M}U^{\dagger}$ 。将 $\sigma_{T|x}^{(n)}$ 替换为 $\sigma_{T|x}^{M^{\prime}}$ 在 (36) 中，我们有

$\displaystyle 0=$	$\displaystyle\sum_{x}P_{X}(x)D(\sigma_{T\|x}^{M}\\|\sigma_{T\|x}^{M^{\prime}})$
	$\displaystyle-\sum_{x}P_{X}(x)D(\sigma_{T\|x}^{M}\\|\hat{\sigma}_{\gamma,\alpha,T\|x}[\sigma_{T\|X}^{M^{\prime}}])$
$\displaystyle=$	$\displaystyle\frac{1}{\gamma}(f_{\alpha}(\sigma_{T\|X}^{M^{\prime}})-f_{\alpha}(\sigma_{T\|X}^{M}))$
	$\displaystyle+\frac{1}{\gamma}\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{M}\Big{(}{\cal F}_{\alpha}[\sigma_{T\|X}^{M}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{M^{\prime}}](x)\Big{)}$	(40)
$\displaystyle=$	$\displaystyle\frac{1}{\gamma}\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}\sigma_{T\|x}^{M}\Big{(}{\cal F}_{\alpha}[\sigma_{T\|X}^{M}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{M^{\prime}}](x)\Big{)}.$	(41)

因此，条件 (A2) 意味着 $\sigma_{T|X}^{M}=\sigma_{T|X}^{M^{\prime}}$ 。 $\sigma_{T|x}^{M}$ 是 $T$ 上的完全混合态，对任意 $x$ 而言。

3 经典系统 $T$

接下来，我们考虑 $T$ 被约束为一个经典系统的情况。我们强调，这与之前讨论的量子系统 $T$ 的最小化不同，其最小值可能无法用经典 $T$ 实现。相反，我们现在的目标函数是

\displaystyle{\cal I}_{\alpha,\beta}^{c}:=\min_{\sigma_{T|X}:diagonal}f_{\alpha}(\sigma_{T|X}).

(42)

因此，我们需要重新检查之前分析的有效性。

让我们从 QIB 算法的形式开始。幸运的是，我们使用量子系统 $T$ 的算法可以应用于这种情况，只是需要适应，即状态 $\sigma_{T|x}$ 被限制为关于 $\{|t\rangle\}$ 基的对角密度矩阵 $T$ 。在这个条件下，状态 $\hat{\sigma}_{\gamma,\alpha,T|x}[\sigma_{T|X}]$ 也是对角密度矩阵。因此，当我们将初始状态设置为对角密度矩阵时，算法 1 对这种情况有效。

以上讨论引出了一个有趣的观察结果，如下所示。具有初始对角线 $\sigma_{T|X}$ 的收敛 $\sigma_{T|X}^{*}$ 满足条件 (10)，并且它也是对角线。也就是说，如果使用经典 $T$ 的最小值严格大于使用量子 $T$ 的最小值，那么使用经典 $T$ 的最小值就是以下陈述的一个例子：条件 (10) 的解并不一定给出使用量子 $T$ 的 $f_{\alpha}$ 的最小值。这一事实表明，使用量子 $T$ 的 $f_{\alpha}$ 的 (10) 的解可能是鞍点或局部最小值，而不是全局最小值。

当状态 $\sigma_{T|x}$ 限制为相对于 $T$ 的基 $\{|t\rangle\}$ 的对角密度矩阵时， $\sigma_{TY}[\sigma_{T|X}]$ 与 $\sigma_{T}[\sigma_{T|X}]$ 可交换，因此，我们可以定义 $\sigma_{Y|T}[\sigma_{T|X}]:=\sigma_{TY}[\sigma_{T|X}]\sigma_{T}[\sigma_{T|X}]^{-1}$ 。那么， $\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T|X}](x)$ 简化为如下。

	$\displaystyle\log\hat{\sigma}_{\gamma,\alpha,T}[\sigma_{T\|X}](x)$
$\displaystyle=$	$\displaystyle(1-\frac{\alpha}{\gamma})\log\sigma_{T\|x}+\frac{1}{\gamma}\log\sigma_{T}[\sigma_{T\|X}]$
	$\displaystyle-\frac{\beta}{\gamma}\operatorname{\mathrm{Tr}}_{Y}\Big{(}\rho_{Y\|x}(\log\rho_{Y}-\log\sigma_{Y\|T}[\sigma_{T\|X}])\Big{)}.$	(43)

酉不变性的概念简化为对 $T$ 上的排列的不变性，条件 (A2) 对 $T$ 上的排列是不变的。那么，定理 4 可以改写为如下。

定理 5

假设子集 ${\cal S}$ 满足 (A2) 并且对 $T$ 上的任何排列是不变的。令 $\sigma_{T|X}^{*}$ 为 $\min_{\sigma_{T|X}:diagonal}f_{\alpha}(\sigma_{T|X})$ 的最小化器。当 $\sigma_{T|X}^{*}$ 属于 ${\cal S}$ 时， $\sigma_{T|x}^{*}$ 是对于任何 $x$ ， $T$ 上的均匀分布。

定理 5 可以用与定理 4 相同的方式证明。

在这种情况下，我们可以对条件 (A2) 进行更精确的讨论。为此，我们考虑最大比率

\displaystyle\kappa:=\max_{Q_{X},Q_{X}^{\prime}}\frac{D(\sum_{x}Q_{X}(x)\rho_{Y|x}\|\sum_{x}Q_{X}^{\prime}(x)\rho_{Y|x})}{D(Q_{X}\|Q_{X}^{\prime})}.

(44)

不等式 $\kappa\leq 1$ 来自于映射 $Q_{X}\mapsto\sum_{x}Q_{X}(x)\rho_{Y|x}$ 的信息处理不等式。在这种情况下， $\sigma_{T}[\sigma_{T|X}]$ 被写成 $\sum_{t}Q_{T}[\sigma_{T|X}](t)|t\rangle\langle t|$ ，方法是使用分布 $Q_{T}[\sigma_{T|X}]$ 。那么， (A2) 的 LHS 简化为

	$\displaystyle\sum_{x}P_{X}(x)\operatorname{\mathrm{Tr}}_{T}\sigma_{T\|x}({\cal F}_{\alpha}[\sigma_{T\|X}](x)-{\cal F}_{\alpha}[\sigma_{T\|X}^{\prime}](x))$
$\displaystyle=$	$\displaystyle(\beta-1)D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle+\alpha D(\sigma_{XT}[\sigma_{T\|X}]\\|\sigma_{XT}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle-\beta D(\sigma_{YT}[\sigma_{T\|X}]\\|\sigma_{YT}[\sigma_{T\|X}^{\prime}])$
$\displaystyle=$	$\displaystyle(\alpha-1)D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle+\sum_{t}Q_{T}[\sigma_{T\|X}](t)\Big{(}\alpha D(\sigma_{X\|T=t}[\sigma_{T\|X}]\\|\sigma_{X\|T=t}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle-\beta D(\sigma_{Y\|T=t}[\sigma_{T\|X}]\\|\sigma_{Y\|T=t}[\sigma_{T\|X}^{\prime}])\Big{)}$
$\displaystyle\geq$	$\displaystyle(\alpha-1)D(\sigma_{T}[\sigma_{T\|X}]\\|\sigma_{T}[\sigma_{T\|X}^{\prime}])$
	$\displaystyle+(\alpha-\beta\kappa)\sum_{t}Q_{T}[\sigma_{T\|X}](t)$
	$\displaystyle\cdot D(\sigma_{X\|T=t}[\sigma_{T\|X}]\\|\sigma_{X\|T=t}[\sigma_{T\|X}^{\prime}]).$	(45)

当条件 $\alpha\geq 1,\frac{\alpha}{{\kappa}}>\beta$ 成立时， (A2) 的 LHS 对 $\sigma_{T|X}\neq\sigma_{T|X}^{\prime}$ 为正。因此，要提取有用的 $\sigma_{T|X}$ ，我们需要选择 $\beta$ 以满足条件 $\beta>\frac{\alpha}{\kappa}$ 以及 $\alpha=1$ 。事实上，即使 $\beta>\frac{\alpha}{\kappa}$ ，也可能存在一个置换不变子集 ${\cal S}$ 满足 (A2)。由于定理 5，当一个置换不变子集 ${\cal S}$ 满足 (A2) 时，一个有用的解不属于子集 ${\cal S}$ 。因此，为了获得一个有用的解，我们需要选择 $\beta$ 足够大，超出上述条件 $\beta>\frac{\alpha}{\kappa}$ 和 $\alpha=1$ 。

备注 3

我们考虑经典 $Y$ 和 $\gamma=\alpha$ 的情况。运算符 $\hat{\sigma}_{\alpha,T}[\sigma_{T|X}](x)$ 简化为如下。

	$\displaystyle\hat{\sigma}_{\alpha,T}[\sigma_{T\|X}](x)$
$\displaystyle=$	$\displaystyle\exp\Big{(}\frac{1}{\alpha}\log\sigma_{T}[\sigma_{T\|X}]$
	$\displaystyle-\frac{\beta}{\alpha}\operatorname{\mathrm{Tr}}_{Y}\Big{(}\rho_{Y\|x}(\log\rho_{Y}-\log\sigma_{Y\|T}[\sigma_{T\|X}])\Big{)}\Big{)}.$	(46)

在这种情况下，参考文献 [31, (14) Section 3] 提出了以下更新规则：

\displaystyle\hat{\tau}_{T|x}[\sigma_{T|X}]:=\frac{1}{\operatorname{\mathrm{Tr}}\hat{\tau}_{T}[\sigma_{T|X}](x)}\hat{\tau}_{T}[\sigma_{T|X}](x),

(47)

其中运算符 $\hat{\tau}_{T}[\sigma_{T|X}](x)$ 定义为

	$\displaystyle\hat{\tau}_{T}[\sigma_{T\|X}](x)$
$\displaystyle:=$	$\displaystyle\exp\Big{(}\frac{1}{\alpha}\log\sigma_{T}[\sigma_{T\|X}]$
	$\displaystyle-\frac{\beta}{\alpha}\operatorname{\mathrm{Tr}}_{Y}\Big{(}\rho_{Y\|x}(\log\rho_{Y\|x}-\log\sigma_{Y\|T}[\sigma_{T\|X}])\Big{)}\Big{)}.$	(48)

由于

\displaystyle\log\hat{\tau}_{T}[\sigma_{T|X}](x)-\log\hat{\sigma}_{T}[\sigma_{T|X}](x)=\frac{\beta}{\alpha}D(\rho_{Y|x}\|\rho_{Y}),

(49)

我们有

	$\displaystyle\hat{\tau}_{T\|x}[\sigma_{T\|X}]$
$\displaystyle=$	$\displaystyle\frac{1}{\operatorname{\mathrm{Tr}}e^{\frac{\beta}{\alpha}D(\rho_{Y\|x}\\|\rho_{Y})}\hat{\sigma}_{T}[\sigma_{T\|X}](x)}e^{\frac{\beta}{\alpha}D(\rho_{Y\|x}\\|\rho_{Y})}\hat{\sigma}_{T}[\sigma_{T\|X}](x)$
$\displaystyle=$	$\displaystyle\hat{\sigma}_{T\|x}[\sigma_{T\|X}].$	(50)

也就是说，更新规则 (47) 由 [31, (14) Section 3] 给出，与我们这个特例的更新规则相同。特别地，更新规则 (47) 与 $\alpha=1$ 一致，与参考文献 [32] 的更新规则一致。

备注 4

当系统 $Y$ 是经典的，并且 $\alpha=1$ 时，参考文献 [9, Appendix B] 声称，量子 $T$ 的最优值与经典 $T$ 的最优值之间没有区别。由于他们的算法使用大小固定的 $T$ ，可以认为他们声称上述陈述是在 $T$ 的大小固定时。但是，他们的证明（见 [9, Appendix B II]）存在一个漏洞：等式 (B23) 下的陈述“拉格朗日量在选定基 $|m\rangle$ 中对内存 $M$ 的测量下是不变的”没有得到严格的数学证明的支撑。因此，尚不清楚该陈述以及随之得出的量子优势不存在的说法是否正确。另一方面，正如我们将在下一节中展示的那样，使用量子 $T$ 的最优值可能严格小于使用经典 $T$ 的最优值。也就是说，[9, Appendix B] 中的断言与我们下一节的结果相矛盾。

4 量子优势对于 $T$

为了看到量子系统 $T$ 相对于经典系统 $T$ 的优势，我们讨论了几个具有严格不等式的例子

\displaystyle{\cal I}_{\alpha,\beta}<{\cal I}_{\alpha,\beta}^{c}.

(51)

我们在本节中提供了一个解析示例以及在第 5.2 节中，在量子机器学习应用中的一个数值示例当系统 $T$ 的大小固定时。通常，为了获得最佳性能，我们需要将系统 $T$ 选择为一个足够高维的系统。然而，在本节中，为了提供解析示例，我们固定系统 $T$ 的大小为某个特定值。

假设 ${\cal Y}$ 是一个大小为 $d$ 的经典系统。 ${\cal X}$ 的大小是 $k$ 倍于 ${\cal Y}$ 的大小 $d$ 。我们假设 ${\cal X}$ 被给出为 ${\cal X}_{1}\times{\cal X}_{2}$ 其中有 ${\cal X}_{1}={\cal Y}$ 以及 $|{\cal X}_{2}|=k$ 。我们假设 $X$ 的分布是均匀的。我们关注维数为 $n<d$ 的量子系统 $T$ 。

引理 6

当 $\beta\geq 1$ 且 $\beta\geq\alpha$ 时，我们有

\displaystyle{\cal I}_{\alpha,\beta}=(1-\beta)\log n

(52)

证明：首先，我们展示了对通用（量子） $T$ 的 QIB 的界限。对于任何 $\sigma_{T|x}$ ，我们有 $H(T)\geq I(T:X)\geq I(T:Y)$ 。因此，关系 $\beta-\alpha\geq 0$ 意味着 $-(\beta-\alpha)I(T:Y)\geq-(\beta-\alpha)H(T)$ 。因此，我们有

		$\displaystyle f_{\alpha}(\sigma_{T\|x})=(1-\alpha)H(T)+\alpha I(T:X)-\beta I(T:Y)$
	$\displaystyle\geq$	$\displaystyle(1-\alpha)H(T)-(\beta-\alpha)I(T:Y)\geq(1-\beta)H(T).$		(53)

由于 $H(T)\leq\log n$ 且 $1-\beta\leq 0$ ，我们得到

\displaystyle{\cal I}_{\alpha,\beta}\geq(1-\beta)\log n.

(54)

上述界限是紧的。实际上，我们将 $\sigma_{T|x_{1},x_{2}}$ 作为纯状态 $\sum_{t=1}^{n}\frac{1}{\sqrt{n}}e^{\frac{2\pi x_{1}}{n}i}|t\rangle$ 。然后，我们有 $H(T)=\log n$ 。同样， $H(T)=I(T:X)=I(T:Y)$ 。因此， $f_{\alpha}(\sigma_{T|x})=(1-\beta)\log n$ 。

接下来，我们关注 $T$ 为维度为 $n<d$ 的经典系统的情况。

引理 7

假设 $d=mn+l$ 且 $0\leq l<n$ 。当 $\beta\geq 1\geq\alpha$ 时，我们有

\displaystyle{\cal I}_{\alpha,\beta}^{c}=(1-\beta)\Big{(}\frac{l(m+1)}{d}\log\frac{d}{m+1}+\frac{(n-l)m}{d}\log\frac{d}{m}\Big{)}

(55)

证明：任何信道 $\sigma_{T|x}$ 可以写成确定性信道的概率混合 $\sigma_{T|x}^{j}$ 。也就是说，我们有

\displaystyle\sigma_{T|x}=\sum_{j}p_{j}\sigma_{T|x}^{j}.

(56)

由于 $Y$ 与 $X_{2}$ 独立，且随机变量 $J$ 描述了 $j$ 的选择，我们有

	$\displaystyle I(T:Y\|JX_{2})=$	$\displaystyle I(T:Y\|JX_{2})+I(Y:JX_{2})$
	$\displaystyle=$	$\displaystyle I(TJX_{2}:Y)\geq I(T:Y).$		(57)

同样，我们有

\displaystyle H(T)\geq H(T|JX_{2}).

(58)

然后，我们有

		$\displaystyle f_{\alpha}(\sigma_{T\|x})\stackrel{{\scriptstyle(a)}}{{\geq}}(1-\alpha)H(T)-(\beta-\alpha)I(T:Y)$
	$\displaystyle\stackrel{{\scriptstyle(b)}}{{\geq}}$	$\displaystyle(1-\alpha)H(T\|JX_{2})-(\beta-\alpha)I(T:Y\|JX_{2}),$		(59)

其中 $(a)$ 由 (53) 推出，而 $(b)$ 由 (57) 和 (58) 推出。 $(1-\alpha)H(T|JX_{2})-(\beta-\alpha)I(T:Y|JX_{2})$ 的最小化等于在 $\sigma_{T|X}$ 为确定性信道且 $\sigma_{T|x_{1}x_{2}}$ 仅取决于 $x_{1}$ 的条件下对相同函数的最小化。

在此条件下，我们有 $I(T:X)=I(T:X_{1})=I(T:Y)$ ，这说明在 (59) 处 $(a)$ 等于。因此，为了最小化，我们可以施加这个条件，即变量 $T$ 仅由 $X_{1}=Y$ 确定，这意味着 $I(T:Y)=H(T)$ 。在这种情况下，我们有 $f_{\alpha}(\sigma_{T|x})=(1-\beta)H(T)$ 。在经典情况下，确定性信道中最大熵 $H(T)$ 在分布 $(P_{T}(t))_{t=1}^{n}$ 尽可能接近均匀分布时达到，即 $P_{T}=(\overbrace{\frac{m+1}{d},\ldots,\frac{m+1}{d}}^{l},\overbrace{\frac{m}{d},\ldots,\frac{m}{d}}^{n-l})$ 。因此，最大熵 $H(T)$ 为 $\frac{l(m+1)}{d}\log\frac{d}{m+1}+\frac{(n-l)m}{d}\log\frac{d}{m}$ 。因此，我们得到了所需的陈述。

当引理 7 的条件成立时， $d$ 不能被 $n$ 整除。在这种情况下，由于 $\frac{l(m+1)}{d}\log\frac{d}{m+1}+\frac{(n-l)m}{d}\log\frac{d}{m}$ 严格小于 $\log n$ ，当状态 $\rho_{XY}$ 接近状态 $\sum_{x}\frac{1}{d}|x,x\rangle\langle x,x|$ 时，严格不等式 (51) 成立。使用量子 $T$ 显然有优势。

5 具有 QIB 的量子特征映射

5.1 监督学习中的信息瓶颈

监督学习是机器学习的基石。给定一个从未知概率分布 $P_{XY}$ 中采样的数据集 $\{(x,y)\}$ ，一般监督学习任务是找到一个分类器，使得对于从相同分布 $P_{XC}$ 中采样的任何测试数据 $(x^{\prime},y^{\prime})$ ，它在给定 $x^{\prime}$ 的情况下，以尽可能高的准确率预测标签 $y^{\prime}$ 。

值得注意的是，最近关于信息瓶颈理论的研究 [33, 28, 8] 表明深度学习的训练阶段可以分为两个阶段。在第一个阶段，找到 $X$ 的表示 $T$ ，它忠实地编码了它与 $Y$ 的相关性，其特征是 $I(T:Y)$ 的增加。在第二阶段， $T$ 的大小被压缩，其特征是 $I(T:X)$ 的减少。这个结果表明，找到 $X$ 的有效和压缩表示有助于数据分类。

5.2 量子特征映射

遵循上述直觉，我们通过将 QIB 算法与核方法结合，提出了一种经典-量子混合数据分类算法。该想法在图 3 中的流程图中进行了说明。给定一个训练数据集 $\mathcal{S}_{\rm train}$ ，该算法首先通过最小化信息瓶颈 $f_{\alpha}:=H(T)-\alpha H(T|X)-\beta I(T:Y)$ 来识别 $X$ 的有效表示 $T$ 。然后构建一个分类器，该分类器根据对应于 $X$ 值的 $T$ 中的状态生成预测 $\hat{Y}$ 。为简单起见，我们现在考虑 $Y\in\{1,-1\}$ 为二进制的情况。在第一步中，我们将表示 $T$ 设置为依赖于数据 $x$ 的量子态 $\rho(x)$ ，并通过算法 1 获得 $\rho(x)$ 。在第二步中，我们使用线性分类器

\displaystyle c_{\rm QIB}\left(\rho(\tilde{x})\right)={\rm sgn}\left(\operatorname{\mathrm{Tr}}[A\rho(\tilde{x})]+b\right)

(60)

其中 $A$ 是一个厄米算符，而 $b\in{\mathbb{R}}$ 。我们进一步考虑 $A$ 可以表示为线性组合 $A=\sum_{x:(x,y)\in\mathcal{S}_{\rm train}}a_{x}\rho(x)$ ，并且分类器具有简化的形式

\displaystyle c_{\rm QIB}\left(\rho(\tilde{x})\right)={\rm sgn}\left(\sum_{x:(x,c)\in\mathcal{S}_{\rm train}}a_{x}K(x,\tilde{x})+b\right),

(61)

其中 $K(x,\tilde{x})$ 是核函数，在我们的情况下，由量子态的希尔伯特-施密特 (HS) 内积给出，可以通过在量子计算机上执行交换测试来评估：

\displaystyle K(x,y)=\operatorname{\mathrm{Tr}}\{\rho(x)\rho(y)\}.

(62)

该算法总结如下：

算法 2 用于数据分类的 QIB

输入：训练数据集

\mathcal{S}_{\rm train}=\{(x,y)\}

；配置

(\alpha,\beta,\gamma)

。

输入：分类器

c_{\rm QIB}:X\to\hat{Y}

。

1) 从

\mathcal{S}_{\rm train}

中生成一个经验分布

\hat{P}(x,y)

。

2) 运行算法 1 以

\hat{P}(x,y)

作为输入和某些（可调整的）参数

\alpha

、

\beta

、

\gamma

。

3) 使用步骤 2) 的输出计算公式 (61) 中的核

K

。

4) 使用

\mathcal{S}_{\rm train}

训练分类器 (61) 并输出训练后的分类器。

我们注意到，量子核方法，其中构建了一个映射 $x\to\rho(x)$ 用于更好的分类，最近已成为一个热门话题（例如，参见 [26, 11, 5, 17, 20, 25]）。现有工作与我们目前方法的关键区别在于：在现有工作中，参数 $x$ 被传递给一个参数化的（也称为变分）量子电路，该电路准备状态 $\rho(x)$ 。人们需要在量子计算机上训练电路参数以获得良好的映射 $x\mapsto\rho(x)$ ，这被称为特征映射。在近期，这种方法可能会受到量子器件物理限制的影响。相反，在我们目前的方法中， $\rho(x)$ 是通过简单的迭代算法直接计算出来的。因此，实现我们目前方法，即算法 2，有两种可能的方式。在近期，我们可以将算法 2 视为一种“受量子启发的”经典算法，并在经典计算机上评估所有内容。当大规模量子计算成为可能时，算法 2 可以很容易地“量子化”。实际上，每次迭代中 $\rho(x)$ 的评估需要子例程来计算矩阵幂和对数并求解线性系统，这些子例程已在参考文献中开发。 [10, 19, 18, 7]。

5.3 数值实验

作为一项原理验证实验，我们测试了我们的 QIB 分类器在 ${\mathbb{R}}^{2}$ 上的数据集上的性能，该数据集以以下方式生成：首先，我们定义离散集 ${\cal X}={\cal X}_{1}\times{\cal X}_{2}$ 和 ${\cal Y}$ ，其中 ${\cal X}_{1}={\cal Y}=\{0,1,2\}$ 和 ${\cal X}_{2}=\{0,1,\dots,9\}$ 。为了应用我们的分类方法，我们任意选择置换 $\pi$ ，并生成 $n^{\prime}=400$ 个独立同分布数据 $(\tilde{X}_{1,i},\tilde{X}_{2,i},Y_{i})$ ，用于 $i=1,\ldots,n^{\prime}$ ，如下所示。我们独立地生成 $(X_{1,i},X_{2,i},Y_{i})$ ，根据以下分布

\displaystyle P_{XY}(x_{1},x_{2},y):=P_{Y}(y)Q_{X_{1}|Y}(x^{\prime}_{1},y)Q_{X_{2}|X_{1}}(x^{\prime}_{2},x^{\prime}_{1}),

(63)

其中 $P_{Y}$ 是在 $Y$ 上的均匀分布， $Q_{X_{1}|Y}(x_{1},y)=\delta(x_{1},y)$ 、 $Q_{X_{2}|X_{1}}(x_{2},x_{1})=\frac{\delta(x_{1},x_{2})+1}{|{\cal X}_{2}|+1}$ 和 $(x^{\prime}_{1},x^{\prime}_{2})=\pi(x_{1},x_{2})$ 。接下来，我们生成随机变量 $\tilde{X}_{j,i}:=X_{j,i}+R_{j,i}$ ，其中随机变量 $R_{j,i}$ 服从区间 $[0,1.2)$ 内的均匀分布除非 $i=1,X_{i}=2$ 或 $i=2,X_{i}=9$ ，否则它服从区间 $[0,1)$ 内的均匀分布。然后，使用获得的数据 $(\lfloor\tilde{X}_{1,i}\rfloor,\lfloor\tilde{X}_{2,i}\rfloor,Y_{i})$ ，其中 $i=1,\ldots,n$ ，我们定义其经验分布 $\tilde{P}_{XY}$ 。我们将算法 1 应用于分布 $\tilde{P}_{XY}$ ，如图 4 所示。在具有分布 $\tilde{P}_{XY}$ 的情况下，具有量子 $T$ 的算法 1 可以实现更小的 $f_{\alpha}$ ，而不是具有经典 $T$ 的算法 1，这表明量子 $T$ 相比经典 $T$ 的优势。

在分类实验中， $50\%$ 的数据用作训练集，其余数据用作测试集。该核使用算法 2 构建，并包含 $\alpha=1,\beta=15,\gamma=1$ 、一个单量子比特寄存器 $T$ 以及 10 次迭代。我们分别考虑了 $T$ 是一个通用量子比特系统和 $T$ 被限制为一个二进制经典系统的情况，并比较了它们的性能。从图 4 可以看出，量子 $T$ 的 IB 值低于经典 $T$ 的 IB 值。量子 $T$ 情况下的最终特征图 $\sigma_{T|X}$ 由于随机噪声 $r_{1},r_{2}$ 而存在一定程度的离散，但量子特征仍然形成了 3 个簇。相比之下，经典 $T$ 情况下的最终 $\sigma_{T|X}$ 将 $X$ 的不同值映射到两个簇中。

上述区别的影响在分类性能中显而易见。在图 5 中，通过分类器的决策区域说明了从核中构建的分类器的性能。可以看出，由于经典- $T$ 特征图将 $X$ 分组到两个簇中，因此其生成的分类器对任何输入数据都给出二进制预测，放弃了尽可能少的标签。相反，量子- $T$ 特征图利用完整的布洛赫球来生成 3 个簇，从而导致更高的预测精度。因此，这个数值例子体现了真正量子特征图的优势。

作为参考，在图 5 中，我们还绘制了两种标准的经典特征图方法的性能。参考方法（线性核和多项式核）的准确率（由测试集中正确预测的比率定义）为 $0.64$ 和 $0.62$ ，这略高于经典- $T$ 信息瓶颈核 ( $0.565$ )，但远低于 QIB 核 ( $0.92$ )。这进一步证明了我们的 QIB 方法在分类方面的优越性能。

6 量子确定性信息瓶颈 (QDIB)

考虑到极限 $\alpha\to+0$ ，论文 [31] 提出了确定性 IB，它最小化 $f_{0}$ 。现在，我们考虑用量子系统 $T, Y$ 和经典系统 $X$ 进行这种最小化。首先，我们定义

		$\displaystyle\hat{\sigma}_{0,T\|x}[\sigma_{T\|X}]$
	$\displaystyle:=$	$\displaystyle\frac{1}{\operatorname{\mathrm{Tr}}\sigma_{T\|x}P_{T\|x}[\sigma_{T\|X}]}P_{T\|x}[\sigma_{T\|X}]\sigma_{T\|x}P_{T\|x}[\sigma_{T\|X}],$		(64)

其中 $P_{T|x}[\sigma_{T|X}]$ 是对算子 $(1-\beta)\log\sigma_{T}[\sigma_{T|X}]+\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y|x}(\log\sigma_{YT}[\sigma_{T|X}]-\log\rho_{Y})$ 的最大特征值的投影。

给定一个初始点 $\sigma_{T|X}^{(1)}$ ，我们提出以下更新规则

\displaystyle\sigma_{T|X}^{(n+1)}:=\hat{\sigma}_{0,T|X}[\sigma_{T|X}^{(n)}].

(65)

如下所示，该算法的每一步都提高了目标函数 $f_{0}$ 的值。

算子 $\hat{\sigma}_{0,T|x}[\sigma_{T|X}]$ 的特征是

\displaystyle\hat{\sigma}_{0,T|x}[\sigma_{T|X}]=\lim_{\alpha\to 0}\hat{\sigma}_{\alpha,\alpha,T|x}[\sigma_{T|X}].

(66)

由于定理 1 和 (20) 保证

	$\displaystyle f_{\alpha}(\hat{\sigma}_{\alpha,\alpha,T\|X}[\sigma_{T\|X}])$
$\displaystyle=$	$\displaystyle J_{\alpha,\alpha}(\hat{\sigma}_{\alpha,\alpha,T\|X}[\sigma_{T\|X}],\hat{\sigma}_{\alpha,\alpha,T\|X}[\sigma_{T\|X}])$
$\displaystyle\leq$	$\displaystyle J_{\alpha,\alpha}(\hat{\sigma}_{\alpha,\alpha,T\|X}[\sigma_{T\|X}],\sigma_{T\|X})$
$\displaystyle\leq$	$\displaystyle J_{\alpha,\alpha}(\sigma_{T\|X},\sigma_{T\|X})=f_{\alpha}(\sigma_{T\|X}),$	(67)

极限 $\alpha\to 0$ 在 (67) 中意味着

\displaystyle f_{\alpha\to 0}(\hat{\sigma}_{0,T|X}[\sigma_{T|X}])\leq f_{\alpha\to 0}(\sigma_{T|X}]),

(68)

这表明该算法的每一步都提高了目标函数 $f_{\rm DIB}:=f_{\alpha\to 0}$ 的值。

算法 3 量子确定性信息瓶颈 (QDIB) 算法

1: 输入：一个联合状态

\rho_{XY}

[参见 (1) ]。

2: 创建一个计数器

n

作为迭代次数，初始化为 1。

3: 重复

4: 选择

\sigma_{T|X}^{(n+1)}

作为

\displaystyle\sigma_{T|x}^{(n+1)}=\frac{P_{T|x}[\sigma^{(n)}_{T|X}]\sigma^{(n)}_{T|x}P_{T|x}[\sigma^{(n)}_{T|X}]}{\operatorname{\mathrm{Tr}}\big{(}\sigma^{(n)}_{T|x}P_{T|x}[\sigma_{T|X}]\big{)}}

(69)

其中

P_{T|x}[\sigma^{(n)}_{T|X}]

是在

{\cal F}_{\alpha=0}[\sigma^{(n)}_{T|X}](x)

的特征向量所张成的空间上的投影 [参见 (2.4)]，对应于最小特征值。

5: 设置

n

为

n+1

。

6: 直到收敛。

7: 输出: 一个 c-q 通道

\sigma_{T|X}^{(n+1)}

7 从 DIB 中近似获取充分统计量

7.1 任务公式化

接下来，我们讨论 DIB 如何用于提取经典-量子 (c-q) 联合系统中包含有用信息的 $X$ 和 $Y$ 的联合状态 $\rho_{XY}:=\sum_{x}P_{X}(x)|x\rangle\langle x|\otimes\rho_{Y|x}$ ，其中 $X$ 是经典系统， $Y$ 是量子系统。例如，假设我们感兴趣的是量子系统 $Y$ 中的量子现象。该量子系统 $Y$ 与经典系统 $X$ 相关联。但是，经典系统 $X$ 可能包含冗余信息。在这种情况下，从 $X$ 中提取必要的信息来描述量子系统 $Y$ 中量子现象的行为是有用的。为了讨论必要信息，我们引入了 $\epsilon$ -(近似) 充分统计量的概念，它是经典系统 $X$ 相对于量子系统 $Y$ 的统计量，而论文 [36, 12] 在系统 $Y$ 是经典系统时讨论了这个概念。

从 $X$ 到 $T$ 的函数 $f$ 被称为量子系统 $Y$ 的 $X$ 充分统计量，当存在条件分布 $P_{X|T}$ 使得

\displaystyle\rho_{XY}=\sum_{t}P_{X|T}(x|t)|x\rangle\langle x|\otimes\sum_{x^{\prime}\in f^{-1}(t)}P_{X}(x^{\prime})\rho_{Y|x^{\prime}}.

(70)

上述条件等价于条件

\displaystyle I(X:Y)=I(T:Y)

(71)

而一般情况下我们有不等式 $I(X:Y)\geq I(T:Y)$ 。

然而，当我们使用充分统计量时，我们无法消除由噪声产生的微弱相关性。例如，假设经典系统 $X$ 由两个经典系统 $X_{1}$ 和 $X_{2}$ 组成。假设我们有一个 c-q 状态 $\rho_{X_{1}X_{2}Y}=\sum_{x_{1}}\sum_{x_{2}}P_{X_{1},X_{2}}(x_{1},x_{2})|x_{1},x_{2}\rangle\langle x_{1},x_{2}|\otimes\rho_{Y|x_{1}}$ ，其中包含两个经典系统 $X_{1}$ 和 $X_{2}$ 。

我们假设我们已经知道分布 $P_{X_{1}X_{2}}$ ，但我们不知道 $\rho_{Y|x}$ 。此外，我们假设我们多次生成此状态并将状态估计应用于生成的状态。结果，我们得到了我们的估计

\displaystyle\hat{\rho}_{X_{1}X_{2}Y}=\sum_{x_{1}}\sum_{x_{2}}P_{X_{1}X_{2}}(x_{1},x_{2})|x_{1},x_{2}\rangle\langle x_{1},x_{2}|\otimes\hat{\rho}_{Y|x_{1},x_{2}}.

(72)

由于我们的估计始终存在很小的误差， $\hat{\rho}_{Y|x_{1},x_{2}}$ 与 $\rho_{Y|x_{1}}$ 不完全相同，但它接近于 $\rho_{Y|x_{1}}$ 。在这种情况下，这种差异应被视为噪声。也就是说， $X_{2}$ 的依赖关系并不重要。最好考虑将相关性作为 $\hat{\rho}_{Y|x_{1}}:=\sum_{x_{2}}P_{X_{2}|X_{1}}(x_{2}|x_{1})\hat{\rho}_{Y|x_{1},x_{2}}$ 给出，以便我们对 $\rho_{X_{1}X_{2}Y}$ 的估计作为 $\sum_{x_{1}}\sum_{x_{2}}P_{X_{1},X_{2}}(x_{1},x_{2})|x_{1},x_{2}\rangle\langle x_{1},x_{2}|\otimes\hat{\rho}_{Y|x_{1}}$ 给出。

对于 $\epsilon>0$ ，函数 $f:X\to T$ 被称为 $\epsilon$ 充分统计量，当不等式

\displaystyle I(X:Y)-\epsilon\leq I(T:Y)

(73)

成立。因此，具有 $T$ 小尺寸的充分统计量和 $\epsilon$ -充分统计量可以被视为 $X$ 关于 $Y$ 的压缩数据。

在上面的例子中， $X_{1}X_{2}$ 是 $Y$ 的充分统计量。当 $\delta$ 对于 $\epsilon$ 足够小时， $I(X_{1}:Y)$ 接近 $I(X_{1}X_{2}:Y)$ ，即 $X_{1}$ 是 $\epsilon$ -充分统计量。因此，我们可以移除非必要信息 $X_{2}$ 。事实上，如果 ${\cal X}={\cal X}_{1}\times{\cal X}_{2}$ 被随机排列 $\pi$ 打乱，提取基本信息将变得不 trivial 。为了涵盖这种非 trivial 的情况，我们需要一种系统的方法来找到一个具有小尺寸 $T$ 的函数。为此，我们可以使用信息瓶颈算法。

为了提取近似充分统计量 $T$ ，我们关注两个要求。互信息 $I(T:Y)$ 应该更大，而熵 $H(T)$ 应该更小。为了满足这些要求，我们只需使用确定性信息瓶颈算法与 $|{\cal T}|=|{\cal X}|$ 最小化 $H(T)-\beta I(T:Y)$ 。由于算法最小化了 $H(T)-\beta I(T:Y)$ ，并且解中的条件分布 $P_{T|X}$ 是确定性的，因此解中 $P_{T}$ 的支撑预计将小于原始集合 ${\cal T}$ 。

7.2 数值

为了证明以上想法，让我们看一个具体的例子，它是第 2.5 节中例子的修改。考虑一个单量子比特量子系统 $Y$ 和一个经典寄存器 $X$ ，它编码有关 $Y$ 的信息。寄存器 $X$ 进一步被分成两个子寄存器 $X_{1}$ 和 $X_{2}$ ，它们在集合 ${\cal X}_{1}=\{0,1,\dots,4\}$ 和 ${\cal X}_{2}=\{0,1,\dots,19\}$ 中取值。然后，我们假设 $P_{X}$ 是在 ${\cal X}_{1}\times{\cal X}_{2}$ 上的均匀分布，并且密度 $\rho_{Y|x_{1}}$ 被给出为 $\rho(\theta_{x_{1}},\lambda_{x_{1}})$ 与 (37)。参数 $\theta$ 和 $\lambda$ 取决于 $x_{1}$ ，如

\displaystyle\theta_{x_{1}}

\displaystyle:=\pi\cdot\frac{x_{1}}{|{\cal X}_{1}|}\qquad\lambda_{x_{1}}:=\frac{x_{1}}{4|{\cal X}_{1}|}.

(74)

显然，量子系统仅取决于 $X_{1}$ 和 $X_{2}$ ，不包含关于量子系统的任何信息。然而，拥有该系综的实验者并不知道这一点。为了提取关于量子系统的信息，对于每对 $(x_{1},x_{2})$ ，实验者通过在 $\rho\left(\theta_{x_{1}},\lambda_{x_{1}}\right)$ 上重复进行适当的测量（ $\nu<\infty$ 次）来估计其密度矩阵。根据量子态估计理论 [15, 13]，估计值的不准确度与 $1/\sqrt{\nu}$ 成正比。考虑到这一点，我们将估计的密度矩阵建模为 $\rho\left(\theta_{x_{1},x_{2}},\lambda_{x_{1},x_{2}}\right)$ 当实际密度矩阵为 $\rho\left(\theta_{x_{1}},\lambda_{x_{1}}\right)$ 时，其中

	$\displaystyle\theta_{x_{1},x_{2}}$	$\displaystyle:=\pi\cdot\frac{x_{1}}{\|{\cal X}_{1}\|}\left(1+r_{\nu}(x_{1},x_{2})\right)$		(75)
	$\displaystyle\lambda_{x_{1},x_{2}}$	$\displaystyle:=\frac{x_{1}}{4\|{\cal X}_{1}\|}\left(1+r^{\prime}_{\nu}(x_{1},x_{2})\right)$		(76)

和 $r_{\nu}(x_{1},x_{2}),r^{\prime}_{\nu}(x_{1},x_{2})=O(1/\sqrt{\nu})$ 表征估计误差。估计的系综然后承认以 (72) 给出的密度矩阵，其中 $\hat{\rho}_{Y|x_{1},x_{2}}=\rho\left(\theta_{x_{1},x_{2}},\lambda_{x_{1},x_{2}}\right)$ 由方程给出。 (37)，(75)，和 (76)。注意，现在寄存器 $X_{2}$ 与 $Y$ 在估计的联合状态 $\hat{\rho}_{XY}$ 中相关，即使估计引起的噪声遵循不依赖于 $X_{2}$ 值的分布。

现在，任务是压缩寄存器 $X$ ，通过从 $X$ 到更小的经典寄存器 $T$ 建立映射。这里我们取 $T$ 与 $X$ 大小相同。一种直观的方法是丢弃 $X_{2}$ 寄存器，因为 $X_{1}$ 包含比 $X_{2}$ 多得多的关于量子位状态的信息。然而，这样的简单映射在更一般的情况下不存在。例如，如果 Eq. (72) 中的 $(x_{1},x_{2})$ 值被置换，丢弃 $X_{2}$ 将不会导致忠实的压缩。为了说明这一点，我们进一步对 Eq. (72) 中的经典寄存器 ${\cal X}={\cal X}_{1}\times{\cal X}_{2}$ 应用一个任意选择的未知重排 $\pi:{\cal X}\to{\cal X}$ 。然后，系综承认以下联合密度矩阵：

	$\displaystyle\hat{\rho}^{\prime}_{XY}=$	$\displaystyle\sum_{x_{1},x_{2}}\Big{(}P_{X}(x_{1},x_{2})\|\pi(x_{1},x_{2})\rangle\langle\pi(x_{1},x_{2})\|$
		$\displaystyle\otimes\rho\left(\theta_{x_{1},x_{2}},\lambda_{x_{1},x_{2}}\right)\Big{)}$		(77)

由方程式 $\rho\left(\theta_{x_{1},x_{2}},\lambda_{x_{1},x_{2}}\right)$ 给出。 (75) 和 (76)。目标是通过构建映射 $Q:{\cal X}\to{\cal T}$ 来提取近似的充分统计量。

我们的 QDIB 算法作为一种更系统、更高效的方法来提取必要的信息并丢弃非必要的信息，即使在存在任意置换的情况下也是如此。在 QDIB 算法 (算法 3) 中，我们选择 $\beta=20$ 和 $|{\cal T}|=|{\cal X}|=|{\cal X}_{1}||{\cal X}_{2}|$ 。首先，我们考虑系综采用形式 (72) 的情况，性能总结在图 7 中。从数字中可以看出，将我们的 QDIB 算法应用于 $\hat{\rho}_{XY}$ 的 $f_{\rm DIB}:=f_{\alpha\to 0}$ 下降低于逆排列 $\pi^{-1}$ ”在 5 次迭代内接近，并收敛到一个低得多的值，表明更好的压缩性能。第二张图进一步证实了这一点，其中绘制了忠实度 $I(T:Y)$ 和残余信息 $I(T:X)$ 。我们可以看到，由于我们的 QDIB 算法保留了与原始变量 $X$ 几乎一样多的关于 $Y$ 的信息，因此它压缩了关于原始寄存器 $X$ 的相当大的部分信息。 t2>。

8 讨论与结论

We have proposed a generalized algorithm for QIB with an acceleration parameter $\gamma$ and an additional parameter $\alpha$ , and have derived a necessary condition for the monotonic decrease of the objective function $f_{\alpha}=H(T)-\alpha H(T|X)-\beta I(T:Y)$ with quantum systems $Y, T$ and classical system $X$ when we extract information $T$ with respect to $Y$ from $X$ . 我们还证明了它在相同条件下的收敛性，并证明了明智地选择参数 $\gamma$ 可以加速收敛。我们的数值计算进一步证实了上述分析，如下所示。在我们的数值实验中，减小 $\gamma$ 可以加速收敛，但如果 $\gamma$ 小于阈值，算法将无法收敛。此外，我们还提供了一些例子，表明量子系统 $T$ 比经典系统 $T$ 具有优势，即使 $Y$ 和 $X$ 是经典系统。

接下来，取限制 $\alpha\to+0$ ，我们提出了一种QDIB迭代算法，最小化目标函数 $f_{\rm DIB}=H(T)-\beta I(T:Y)$ 。我们已经证明，这种迭代算法总是使目标函数单调递减。 QDIB可以用来找到近似充分的统计量，因为它实现了较小的熵 $H(T)$ 和较大的互信息 $I(T:Y)$ 。然后，我们通过数值证明了我们的 QDIB 算法作为近似充分统计量能够很好地工作。

我们在这项工作中展示的一个重要应用是，我们的 QIB 算法提供了一种构建用于分类的量子特征图的新方法。在我们的数值示例中，量子系统 $T$ 实现的目标函数值比经典系统 $T$ 更小。该数值分析显示了使用量子存储器 $T$ 进行分类的优势。尽管最近取得了重大进展 [34, 27, 3, 26, 11, 5, 17, 20, 25]，但量子机器学习相对于其经典对应物的优势尚未得到广泛讨论。我们的工作为解决这个问题提供了一个新的角度，阐明了在学习领域严格论证和量化量子霸权的新方案。

对于未来的研究，一个悬而未决的问题是如何将我们的结果扩展到 $X$ 也是量子系统的情况，例如，压缩量子系统同时保持其与经典标签的相关性 [21, 23, 35, 36, 37, 38]。值得注意的是，在这种情况下，如果 $T$ 是经典的，无论其大小如何，一些相关性都会丢失 [37]。因此，我们预计，对于具有量子 $X$ 的 QIB，量子 $T$ 的优势可能会持续甚至变得更强。

最后，我们注意到，目前还没有有效的方法来计算定理 3 中对 $\gamma$ 的限制。在未来的工作中解决这个问题将加速我们的信息瓶颈算法的收敛。

致谢

MH 部分得到中国国家自然科学基金（项目编号： 62171212）和广东省重点实验室（项目编号：2019B121203002）的资助。 YY 由广东省基础与应用基础研究基金（项目编号： 2022A1515010340）和香港研究资助局（RGC）通过早期职业计划（ECS）拨款 27310822 资助。

参考文献

Arimoto [1972] S. Arimoto. An algorithm for computing the capacity of arbitrary discrete memoryless channels. IEEE Transactions on Information Theory, 18(1):14–20, 1972. doi: 10.1109/TIT.1972.1054753.
Banchi et al. [2021] Leonardo Banchi, Jason Pereira, and Stefano Pirandola. Generalization in quantum machine learning: A quantum information standpoint. PRX Quantum, 2:040321, Nov 2021. doi: 10.1103/PRXQuantum.2.040321.
Biamonte et al. [2017] Jacob Biamonte, Peter Wittek, Nicola Pancotti, Patrick Rebentrost, Nathan Wiebe, and Seth Lloyd. Quantum machine learning. Nature, 549(7671):195–202, 2017. doi: 10.1038/nature23474.
Blahut [1972] R. Blahut. Computation of channel capacity and rate-distortion functions. IEEE Transactions on Information Theory, 18(4):460–473, 1972. doi: 10.1109/TIT.1972.1054855.
Blank et al. [2020] Carsten Blank, Daniel K Park, June-Koo Kevin Rhee, and Francesco Petruccione. Quantum classifier with tailored quantum kernel. npj Quantum Information, 6(1):1–7, 2020. doi: 10.1038/s41534-020-0272-6.
Datta et al. [2019] Nilanjana Datta, Christoph Hirche, and Andreas Winter. Convexity and operational interpretation of the quantum information bottleneck function. In 2019 IEEE International Symposium on Information Theory (ISIT), pages 1157–1161, 2019. doi: 10.1109/ISIT.2019.8849518.
Gilyén et al. [2019] András Gilyén, Yuan Su, Guang Hao Low, and Nathan Wiebe. Quantum singular value transformation and beyond: exponential improvements for quantum matrix arithmetics. In Proceedings of the 51st Annual ACM SIGACT Symposium on Theory of Computing, pages 193–204, 2019. doi: 10.1145/3313276.3316366.
Goldfeld and Polyanskiy [2020] Ziv Goldfeld and Yury Polyanskiy. The information bottleneck problem and its applications in machine learning. IEEE Journal on Selected Areas in Information Theory, 1(1):19–38, 2020. doi: 10.1109/JSAIT.2020.2991561.
Grimsmo and Still [2016] Arne L. Grimsmo and Susanne Still. Quantum predictive filtering. Phys. Rev. A, 94:012338, Jul 2016. doi: 10.1103/PhysRevA.94.012338.
Harrow et al. [2009] Aram W Harrow, Avinatan Hassidim, and Seth Lloyd. Quantum algorithm for linear systems of equations. Physical review letters, 103(15):150502, 2009. doi: 10.1103/PhysRevLett.103.150502.
Havlíček et al. [2019] Vojtěch Havlíček, Antonio D Córcoles, Kristan Temme, Aram W Harrow, Abhinav Kandala, Jerry M Chow, and Jay M Gambetta. Supervised learning with quantum-enhanced feature spaces. Nature, 567(7747):209–212, 2019. doi: 10.1038/s41586-019-0980-2.
Hayashi and Tan [2018] Masahito Hayashi and Vincent Y. F. Tan. Minimum rates of approximate sufficient statistics. IEEE Transactions on Information Theory, 64(2):875–888, 2018. doi: 10.1109/TIT.2017.2775612.
Helstrom [1969] Carl W Helstrom. Quantum detection and estimation theory. Journal of Statistical Physics, 1(2):231–252, 1969. doi: 10.1007/BF01007479.
Hirche and Winter [2020] Christoph Hirche and Andreas Winter. An alphabet-size bound for the information bottleneck function. In 2020 IEEE International Symposium on Information Theory (ISIT), pages 2383–2388, 2020. doi: 10.1109/ISIT44484.2020.9174416.
Holevo [2011] Alexander S Holevo. Probabilistic and statistical aspects of quantum theory, volume 1. Springer Science & Business Media, 2011. doi: 10.1007/978-88-7642-378-9.
Hsu et al. [2006] Winston H. Hsu, Lyndon S. Kennedy, and Shih-Fu Chang. Video search reranking via information bottleneck principle. MM ’06, pages 35–44, New York, NY, USA, 2006. Association for Computing Machinery. ISBN 1595934472. doi: 10.1145/1180639.1180654.
Lloyd et al. [2020] Seth Lloyd, Maria Schuld, Aroosa Ijaz, Josh Izaac, and Nathan Killoran. Quantum embeddings for machine learning. arXiv preprint arXiv:2001.03622, 2020. doi: 10.48550/arXiv.2001.03622.
Low and Chuang [2017] Guang Hao Low and Isaac L Chuang. Hamiltonian simulation by uniform spectral amplification. arXiv preprint arXiv:1707.05391, 2017. doi: 10.48550/arXiv.1707.05391.
Low and Chuang [2019] Guang Hao Low and Isaac L Chuang. Hamiltonian simulation by qubitization. Quantum, 3:163, 2019. doi: 10.22331/q-2019-07-12-163.
Pérez-Salinas et al. [2020] Adrián Pérez-Salinas, Alba Cervera-Lierta, Elies Gil-Fuster, and José I Latorre. Data re-uploading for a universal quantum classifier. Quantum, 4:226, 2020. doi: 10.22331/q-2020-02-06-226.
Plesch and Bužek [2010] Martin Plesch and Vladimír Bužek. Efficient compression of quantum information. Physical Review A, 81(3):032317, 2010. doi: 10.1103/PhysRevA.81.032317.
Ramakrishnan et al. [2021] Navneeth Ramakrishnan, Raban Iten, Volkher B. Scholz, and Mario Berta. Computing quantum channel capacities. IEEE Transactions on Information Theory, 67(2):946–960, 2021. doi: 10.1109/TIT.2020.3034471.
Rozema et al. [2014] Lee A Rozema, Dylan H Mahler, Alex Hayat, Peter S Turner, and Aephraim M Steinberg. Quantum data compression of a qubit ensemble. Physical Review Letters, 113(16):160504, 2014. doi: 10.1103/PhysRevLett.113.160504.
Salek et al. [2019] Sina Salek, Daniela Cadamuro, Philipp Kammerlander, and Karoline Wiesner. Quantum rate-distortion coding of relevant information. IEEE Transactions on Information Theory, 65(4):2603–2613, 2019. doi: 10.1109/TIT.2018.2878412.
Schuld [2021] Maria Schuld. Supervised quantum machine learning models are kernel methods. arXiv preprint arXiv:2101.11020, 2021. doi: 10.48550/arXiv.2101.11020.
Schuld and Killoran [2019] Maria Schuld and Nathan Killoran. Quantum machine learning in feature Hilbert spaces. Physical Review Letters, 122(4):040504, 2019. doi: 10.1103/PhysRevLett.122.040504.
Schuld et al. [2015] Maria Schuld, Ilya Sinayskiy, and Francesco Petruccione. An introduction to quantum machine learning. Contemporary Physics, 56(2):172–185, 2015. doi: 10.1080/00107514.2014.964942.
Shwartz-Ziv and Tishby [2017] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017. doi: 10.48550/arXiv.1703.00810.
Slonim and Tishby [2000] Noam Slonim and Naftali Tishby. Document clustering using word clusters via the information bottleneck method. SIGIR ’00, pages 208–215, New York, NY, USA, 2000. Association for Computing Machinery. ISBN 1581132263. doi: 10.1145/345508.345578.
Stark et al. [2018] Maximilian Stark, Aizaz Shah, and Gerhard Bauch. Polar code construction using the information bottleneck method. In 2018 IEEE Wireless Communications and Networking Conference Workshops (WCNCW), pages 7–12, 2018. doi: 10.1109/WCNCW.2018.8368978.
Strouse and Schwab [2017] DJ Strouse and David J. Schwab. The Deterministic Information Bottleneck. Neural Computation, 29(6):1611–1630, 06 2017. ISSN 0899-7667. doi: 10.1162/NECO_a_00961.
Tishby et al. [1999] N. Tishby, F. C. Pereira, and W. Bialek. The information bottleneck method. In The 37th annual Allerton Conference on Communication, Control, and Computing, pages 368–377. Univ. Illinois Press, 1999. doi: 10.48550/arXiv.physics/0004057.
Tishby and Zaslavsky [2015] Naftali Tishby and Noga Zaslavsky. Deep learning and the information bottleneck principle. In 2015 IEEE information theory workshop (ITW), pages 1–5. IEEE, 2015. doi: 10.1109/ITW.2015.7133169.
Wittek [2014] Peter Wittek. Quantum machine learning: what quantum computing means to data mining. Academic Press, 2014. doi: 10.1016/C2013-0-19170-2.
Yang et al. [2016a] Yuxiang Yang, Giulio Chiribella, and Daniel Ebler. Efficient quantum compression for ensembles of identically prepared mixed states. Physical Review Letters, 116(8):080501, 2016a. doi: 10.1103/PhysRevLett.116.080501.
Yang et al. [2016b] Yuxiang Yang, Giulio Chiribella, and Masahito Hayashi. Optimal compression for identically prepared qubit states. Phys. Rev. Lett., 117:090502, Aug 2016b. doi: 10.1103/PhysRevLett.117.090502.
Yang et al. [2018a] Yuxiang Yang, Ge Bai, Giulio Chiribella, and Masahito Hayashi. Compression for quantum population coding. IEEE Transactions on Information Theory, 64(7):4766–4783, 2018a. doi: 10.1109/TIT.2017.2788407.
Yang et al. [2018b] Yuxiang Yang, Giulio Chiribella, and Masahito Hayashi. Quantum stopwatch: how to store time in a quantum memory. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences, 474(2213):20170773, 2018b. doi: 10.1098/rspa.2017.0773.

	$\displaystyle\log\sigma_{T\|x}=$	$\displaystyle(1-\beta)\log\sigma_{T}[\sigma_{T\|X}]$
		$\displaystyle-\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}-C_{x},$		(5)

$\displaystyle\rho_{Y}:=$	$\displaystyle\sum_{x}P_{X}(x)\rho_{Y\|x}$	(6)
$\displaystyle\sigma_{T}[\sigma_{T\|X}]:=$	$\displaystyle\sum_{x}P_{X}(x)\sigma_{T\|x}$	(7)
$\displaystyle\sigma_{YT}[\sigma_{T\|X}]:=$	$\displaystyle\sum_{x}P_{X}(x)\sigma_{T\|x}\otimes\rho_{Y\|x}.$	(8)

	$\displaystyle\sigma_{T\|x}^{(n+1)}:=$	$\displaystyle\frac{1}{e^{C_{x}}}\exp\Big{(}(1-\beta)\log\sigma_{T}[\sigma_{T\|X}^{(n)}]$
		$\displaystyle-\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}^{(n)}]\Big{)}\Big{)}.$		(9)

	$\displaystyle\log\sigma_{T\|x}=(1-\frac{1}{\gamma})\log\sigma_{T\|x}+\frac{1}{\gamma}\log\sigma_{T\|x}$
$\displaystyle=$	$\displaystyle(1-\frac{1}{\gamma})\log\sigma_{T\|x}+\frac{1}{\gamma}(1-\beta)\log\sigma_{T}[\sigma_{T\|X}]$
	$\displaystyle-\frac{1}{\gamma}\beta\operatorname{\mathrm{Tr}}_{Y}\rho_{Y\|x}\Big{(}\log\rho_{Y}-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}-\frac{1}{\gamma}C_{x}$
$\displaystyle=$	$\displaystyle\log\sigma_{T\|x}-\frac{1}{\gamma}{\cal F}_{1}[\sigma_{T\|X}](x)-\frac{1}{\gamma}C_{x},$	(10)

	$\displaystyle{\cal F}_{1}[\sigma_{T\|X}](x)$
$\displaystyle:=$	$\displaystyle-\log\sigma_{T}[\sigma_{T\|X}]+\log\sigma_{T\|x}$
	$\displaystyle+\beta\operatorname{\mathrm{Tr}}_{Y}\Big{(}\rho_{Y\|x}\Big{(}\log(\sigma_{T}[\sigma_{T\|X}]\otimes\rho_{Y})-\log\sigma_{YT}[\sigma_{T\|X}]\Big{)}\Big{)}.$	(11)