量子信息瓶颈的有效算法

Masahito Hayashi hayashi@sustech.edu.cn Shenzhen Institute for Quantum Science and Engineering, Southern University of Science and Technology, Shenzhen,518055, China International Quantum Academy (SIQA), Futian District, Shenzhen 518048, China Guangdong Provincial Key Laboratory of Quantum Science and Engineering, Southern University of Science and Technology, Shenzhen, 518055, China Graduate School of Mathematics, Nagoya University, Nagoya, 464-8602, Japan    Yuxiang Yang yuxiang@cs.hku.hk QICI Quantum Information and Computation Initiative, Department of Computer Science, The University of Hong Kong, Pokfulam Road, Hong Kong
摘要

提取相关信息的能力对于学习至关重要。 信息瓶颈是一种巧妙的方法,它是一个优化问题,其解对应于从大型系统中提取相关信息的忠实且内存高效的表示。 量子计算时代的到来呼吁对处理有关量子系统的信息的有效方法。 在这里,我们通过提出一种针对信息瓶颈的量子推广的新通用算法来解决这个问题。 与先前结果相比,我们的算法在收敛速度和确定性方面表现出色。 它也适用于更广泛的问题,包括确定性信息瓶颈的量子扩展,这是原始信息瓶颈问题的一个重要变体。 值得注意的是,我们发现量子系统在量子信息瓶颈方面可以实现比相同大小的经典系统严格更好的性能,为证明量子机器学习的优势提供了新的视角。

1 引言

学习是当代世界中一项至关重要的任务。 因此,寻找强大的学习信息工具一直是重中之重。 信息瓶颈 [32] 就是一个很好的例子,它在深度学习 [33, 28, 8]、视频处理 [16]、聚类 [29] 和极性编码 [30] 等许多应用中都有用。 具体来说,信息瓶颈是一种提取信息片段的方法 T 关于系统 Y 从系统 X 中, 并被表述为差值最小化问题 I(T:X)βI(T:Y) 具有正参数 β,其中 I(T:X)TX 之间的互信息。 特别地,我们对 X 为经典的情况感兴趣。 通过设计,信息瓶颈实现了不可逆压缩,通过提取关于 Y 的基本信息并同时去除 X 中包含的非必要信息。

Refer to caption
图 1: 量子信息瓶颈的可视化。 在量子信息瓶颈的典型设置中,任务是通过提取关于量子系统 Y 的有用信息并删除无用信息,将经典系统压缩成更小的系统 T,该系统可以是经典的或量子的。 预计可以从 T 中恢复更多关于 Y 的相关信息 Y,而不是整个 X

随着我们进入量子信息时代, 对有效学习量子系统信息的方法的需求正在增长。 为此,让我们考虑量子信息瓶颈 (QIB) 的设置,如图 1 所示。 与其经典对应物类似,QIB 的目标是压缩 X 到更小的系统 T,同时保持与 Y 的相关性,其中一些系统是量子系统。 在这项工作之前,QIB 已在几篇最近的作品中被讨论过 [9, 24, 6, 14, 2],并已应用于量子信息论 [6, 14] 和量子机器学习 [2] 另一方面,QIB 的基本特性,如收敛性尚未得到分析,这阻碍了它在更实际任务中的应用。 量子信息瓶颈首先在 [9] 中被提议作为信息瓶颈方法的量子扩展。 它还推导出最小化问题解的必要条件 (参见 [9, 附录 A]) 通过使用拉格朗日乘子方法,与 [1, 4] 中的方法相同。 利用获得的条件,还提出了一种迭代算法来寻找满足必要条件的解 [9, 附录 C] 然后,参考文献 [24] 在量子通信场景中考虑了 QIB。 1 11参考文献 [24, 附录 A] 推导出最小化问题解的必要条件 通过使用拉格朗日乘子方法,与 [1, 4] 中的方法相同。 利用获得的条件,还提出了一种迭代算法来寻找满足必要条件的解 [24, 附录 C 的末尾] 然而,没有研究讨论迭代算法的行为,即 尚不清楚该算法是否单调地减少目标函数 [32, 31, 9, 24] [9,附录 B] 中还声称,如果 X,Y 都是经典的,则使用量子 T 没有优势。

在这项工作中,我们对量子信息瓶颈进行了系统研究,重点关注系统 X 为经典的情况。 与现有工作 [9, 24, 6, 14, 2] 相比,我们的工作在几个方面做出了重大贡献:

首先,我们对 QIB 的两个关键属性——效率和收敛性进行了全面分析。 受 Arimoto-Blahut 算法 [1, 4] 的最新推广 [22] 的启发,我们引入了一种新的量子信息瓶颈算法,该算法具有一个加速参数 γ,当选择得当时,可以使 QIB 的值比以前收敛得快得多。 我们证明了我们的算法收敛并达到最小值的严格准则。 特别是,我们证明了 β 的选择对收敛起着重要作用。

其次,与参考文献中的说法相反   [9, 24],我们提供了具体的例子,证明使用量子而不是经典 T 可以降低 QIB 的最小值。 值得注意的是,我们的结果证明了量子机器学习 [34, 27, 3] 中的真正量子优势,在量子机器学习中,量子电路的使用已经很普遍 [26, 11, 5, 17, 20, 25],但量子优势很少得到证明。

最后但同样重要的是,我们通过考虑一个通用的目标函数 (1α)H(T)+αI(T:X)βI(T:Y)(具有参数 α,β0)来推广 QIB,当 α=1 时,它简化为标准 QIB。 这样做,广义 QIB 包含 QDIB,即确定性信息瓶颈的量子版本 [31],通过设置 α=0 来实现。 我们表明,我们的分析和算法适用于这种广义设置,特别是适用于 QDIB。 然后,我们澄清了 QDIB 可以用来寻找一个好的近似充分统计量 T,用于 X,用于 Y,这需要更小的熵 H(T) 和更大的互信息 I(T:Y) 我们通过一个数值例子证明了我们的发现,其中 QDIB 提取了关于量子系综的信息的良好近似充分统计量。

总之,我们的工作解决了 QIB 的几个关键问题,包括收敛性、效率、参数选择和量子优势。 我们还将 QIB 扩展到一个广义设置,并引入了 QDIB 的概念。 我们的结果包括严格的分析分析和数值实验,这些实验证明了 QIB 和 QDIB 在学习基本任务中的重要性。

本文的其余部分安排如下。 2 节介绍了我们的量子信息瓶颈算法,并讨论了它的收敛性和参数 β 的依赖性。 3 节讨论了当我们的内存系统 T 是经典的时候我们的算法。 4 节展示了通过量子内存 T 比通过经典内存 T 实现目标函数的更小值。 第 5 节讨论了我们的 QIB 算法在数据分类中的应用。 6 节提出了我们的量子确定性信息瓶颈算法,并研究了它的性质。 7 节将其应用于近似充分统计量的提取,并在一个例子中通过数值验证了它的效率。 8 节进行讨论和结论。

2 量子信息瓶颈 (QIB) 问题

2.1 问题定义

考虑一个由 XY 组成的经典-量子联合系统,其联合状态为

ρXY:=xPX(x)|xx|ρY|x, (1)

其中 X 是一个经典系统,Y 是一个量子系统。 我们的量子信息瓶颈 (QIB) 问题旨在构建一个信息处理器,由一个从 XT 的 c-q 通道 σT|X 模拟(当经典寄存器为 x 时准备一个量子状态 σT|x),该处理器从 X 中提取关于量子系统 Y 的有效信息。 在信息处理器作用之后,联合状态变为:

ρXYT:=xPX(x)|xx|ρY|xσT|x. (2)

为此,QIB 问题关注构建一个经典-量子通道 σT|X:XT,该通道最小化信息瓶颈函数,该函数由关于联合状态 ρXYT 定义的熵量组成:

fα(σT|X) :=H(T)αH(T|X)βI(T:Y)
=(1α)H(T)+αI(T:X)βI(T:Y), (3)

其中 H(T) 表示 T 的熵 2 22为了方便起见,符号 H(A) 表示当系统 A 为经典系统时香农熵,当 A 为量子系统时表示冯·诺依曼熵。 H(T|X) 表示 TX 上的条件熵,而 I(T:Y) 表示 TY 之间的互信息。

也就是说,我们的目标是计算以下值:

α,β:=minσT|Xfα(σT|X). (4)

在信息瓶颈 (2.1) 中,αβ 是模拟任务目标的正实变量。 在信息瓶颈的最初提议 [32] α=1 中。 α 的另一个常见选择是 α=0,该任务被称为确定性 QIB(其经典对应物在文献 [31] 中讨论)。 参数 β 控制着忠实度和压缩之间的权衡。 例如,在确定性信息瓶颈中,较大的 β 将使 I(T:Y) 在目标函数中更加突出,迫使信息处理器保留更多关于 Y 的信息,而较小的 β 将体现 I(T:X) 的作用,促使信息处理器在 X 中进行更多压缩。

虽然 本节讨论了具有 量子系统 YT 的情况, 但具有经典系统 Y 和量子系统 T 的情况 可以通过考虑对角密度 ρY|x 作为特例包含在内。 另一方面,具有经典系统 T 的情况 与 具有量子系统 T 的情况不同 因为我们需要讨论不同的最小化问题,该问题对最小化变量有不同的范围。 幸运的是,我们在下一小节中介绍的针对量子系统 T 的算法可以应用于具有经典系统 T 的情况。 第 3 节讨论了 T 为经典系统的情况。 我们注意到, TY 都是经典系统的情况已在经典信息论和机器学习中得到广泛研究;例如,参见文献   [32, 33, 31, 28]

2.2 针对 α=1 的 QIB 算法

论文 [9] 讨论了当 X,Y,T 为量子系统而 α=1 时的情况, 将经典信息瓶颈 [32] 扩展到量子领域。 它推导出一个必要的条件,以便 σX|T 达到最小值 (4)。 必要条件 在量子系统 T,Y 和经典系统 X 中 写成

logσT|x= (1β)logσT[σT|X]
βTrYρY|x(logρYlogσYT[σT|X])Cx, (5)

其中 Cx 是一个归一化常数,

ρY:= xPX(x)ρY|x (6)
σT[σT|X]:= xPX(x)σT|x (7)
σYT[σT|X]:= xPX(x)σT|xρY|x. (8)

由于这个条件是自洽的, 利用这个条件,论文 [9] 提出了以下 具有以下更新规则的迭代算法:

σT|x(n+1):= 1eCxexp((1β)logσT[σT|X(n)]
βTrYρY|x(logρYlogσYT[σT|X(n)])). (9)

2.3 加速参数 γ

接下来,我们提出对 [9] 中迭代算法的扩展。 首先,我们引入一个新的参数 γ>0 并将条件 (5) 改写为:

logσT|x=(11γ)logσT|x+1γlogσT|x
= (11γ)logσT|x+1γ(1β)logσT[σT|X]
1γβTrYρY|x(logρYlogσYT[σT|X])1γCx
= logσT|x1γ1[σT|X](x)1γCx, (10)

其中

1[σT|X](x)
:= logσT[σT|X]+logσT|x
+βTrY(ρY|x(log(σT[σT|X]ρY)logσYT[σT|X])). (11)

使用 (10),我们可以推导出另一个迭代算法,如下所示:

σT|x(n+1):=1e1γCxexp(logσT|x(n)1γ1[σT|X(n)](x)). (12)

通过这种方式,我们可以很容易地用 [9] 推广迭代算法 (9)。 但是,找到 1γ 的合适值并非易事,正如我们将在后面展示的那样,这对我们迭代算法的效率至关重要。 尽管许多论文 [32, 31, 9, 24] 讨论了由 (9) 给出的迭代算法,包括经典情况, 但之前没有研究表明由 (9) 给出的迭代算法的收敛性。 此外,以上讨论集中在 α=1 的情况下,不包括确定性信息瓶颈 (α=0) 的情况。 因此,为了设计一个高效的算法,我们需要讨论参数 γ 对通用 α 的选择。

2.4 具有通用 α 和收敛性的 QIB 算法

为了分析算法 (12) 的收敛性, 我们引入一个基于 Ref. 中思想的双输入变量函数。   [22, 第三节-B], 而参考文献   [22, 第三节-B] 中的方法是作为 Arimoto-Blahut 算法的推广获得的 [1, 4] 思路是,我们不直接解决 fα(σT|X) 的最小化问题,因为这通常太难了,而是找到一个具有两个变量 σT|X,σT|X 的连续函数 J(σT|X,σT|X) 然后,我们可以交替更新这两个输入变量 σT|X,σT|X 以减少 J(σT|X,σT|X) 最后,如果函数满足

fα(σT|X)=J(σT|X,σT|X), (13)

J(σT|X,σT|X) 的最小值将接近 IB 函数的最小值。

如果我们找到一个操作符 α[σT|X](x) 来满足,则可以构造上述类型的函数

fα(σT|X)= xPX(x)TrTσT|xα[σT|X](x), (14)

在本文中,我们采用以下函数:

α[σT|X](x)
:= logσT[σT|X]+αlogσT|x
+βTrY(ρY|x(log(σT[σT|X]ρY)logσYT[σT|X])). (15)

然后,条件 (14) 满足。

使用此函数,我们可以定义 J0(σT|X,σT|X):=TrTxσT|xPX(x)α[σT|X](x),它满足条件 (13)。 然而, 在函数 J0(σT|X,σT|X) 中交替优化两个输入变量是困难的。 相反,对于 γ>0, 我们引入以下函数

Jγ,α(σT|X,σT|X) (16)
:= γD(σT|XσT|X)+xPX(x)TrTσT|xα[σT|X](x), (17)

其中 D(σT|XσT|X):=xPX(x)D(σT|xσT|x)D(σT|xσT|x) 表示相对熵。

接下来,我们需要指定交替更新 σT|X,σT|X 的规则。 重要的是,我们需要确保 Jγ,α(σT|X,σT|X) 在更新规则下是非递增的。 为此,我们首先介绍以下条件:

(A1)

σT|XσT|X 满足 关系

γxPX(x)D(σT|xσT|x)
xPX(x)TrTσT|x(α[σT|X](x)α[σT|X](x)). (18)

实际上,条件 (A1) 可以通过将 γ(σT|X,σT|X) 定义为 γγ(σT|X,σT|X) 来改写为

γ(σT|X,σT|X)
:= xPX(x)TrTσT|x(α[σT|X](x)α[σT|X](x))xPX(x)D(σT|xσT|x). (19)

该数量的评估结果为

γ(σT|X,σT|X)α (20)

因为关系

D(ρYT[σT|X]ρYT[σT|X])D(σT[σT|X]σT[σT|X])
= D(σT[σT|X]ρYσT[σT|X]ρY) (21)

意味着关系

xPX(x)TrTσT|x(α[σT|X](x)α[σT|X](x))
= D(σT[σT|X]σT[σT|X])
+αxPX(x)D(σT|xσT|x)
+βD(σT[σT|X]ρYσT[σT|X]ρY)
βD(ρYT[σT|X]ρYT[σT|X])
D(σT[σT|X]σT[σT|X])
+αxPX(x)D(σT|xσT|x)
αxPX(x)D(σT|xσT|x). (22)

为了说明我们的更新规则,我们定义

σ^γ,α,T[σT|X](x):= exp(logσT|x1γα[σT|X](x)) (23)
η^γ,α|x[σT|X]:= Trσ^γ,α,T[σT|X](x) (24)
σ^γ,α,T|x[σT|X]:= 1η^γ,α[σT|X](x)σ^γ,α,T[σT|X](x). (25)

特别是,当 γ=α 时, 运算符 σ^γ,α,T[σT|X](x) 简化为

σ^α,T[σT|X](x)
= exp(1βαlogσT[σT|X]
βαTrYρY|x(logρYlogσYT[σT|X])). (26)
定理 1

在条件 (A1) 下,我们有

Jγ,α(σT|X,σT|X) Jγ,α(σT|X,σT|X) (27)
Jγ,α(σT|X,σT|X) Jγ,α(σ^γ,α,T|X[σT|X],σT|X). (28)

定理 1 的证明:    条件 (A1) 产生

Jγ,α(σT|X,σT|X)
= tTrσT|xPX(x)α[σT|X](x)
xTrσT|xPX(x)α[σT|X](x,t)
+γxPX(x)D(σT|xσT|x)
= Jγ,α(σT|X,σT|X). (29)

因此,我们得到 (27)。

此外,我们有

Jγ,α(σT|X,σT|X)
=(a) γxPX(x)TrσT|x(logσT|xlogσT|x
+1γα[σT|X](x))
=(b) γxPX(x)TrσT|x(logσT|xσ^γ,α,T[σT|X](x))
=(c) γxPX(x)(TrσT|x(logσT|xlogσ^γ,α,T|x[σT|X])
logη^γ,α[σT|X](x))
= γxPX(x)(D(σT|xσ^γ,α,T|x[σT|X]))
γxPX(x)logη^γ,α|x[σT|X], (30)

其中 (a)(b)(c) 分别来自 (17)、(23) 和 (25)。 最后,从等式 (30) 中我们可以看到,当 σT|X=σ^γ,α,T|x[σT|X] 时,Jγ,α(σT|X,σT|X) 的最小值可以达到,因为 (30) 的第一项是非负的(当 σT|X=σ^γ,α,T|x[σT|X] 时可以达到等式),而第二项与 σT|X 无关。 因此,我们得到 (28)。  

推论 2

假设 γsupσT|X,σT|Xγ(σT|X,σT|X) σT|X 是一个局部极小值时,我们有

σ^γ,α,T|x[σT|X]=σT|X, (31)

这等价于 (5) 当 α=1

γγ(σ^γ,α,T|X[σT|X],σT|X), 以下不等式链成立:fα(σT|X)=Jγ,α(σT|X,σT|X)Jγ,α(σ^γ,α,T|X[σT|X],σT|X)Jγ,α(σ^γ,α,T|X[σT|X],σ^γ,α,T|X[σT|X])=fα(σ^γ,α,T|X[σT|X]) 因此,只要 γ 足够大,信息瓶颈在更新规则下的单调性也能得到保证。 最后,我们提出以下算法,其中 γ 固定,α 通用:

算法 1 QIB 算法
1:  输入: 一个联合状态 ρXY [如等式 (1) 所示]。
2:  随机选择一个初始 c-q 通道 σT|X(1)
3:  创建一个计数器 n 作为迭代次数;将 n 初始化为 1。
4:  重复
5:     选择 σT|X(n+1) 作为 σ^γ,α,T|X[σT|X(n)] [参见等式   (23) 和 (25)]; 将 n 设置为 n+1
6:  直到 收敛。
7:  输出: 一个 c-q 通道 σT|X(n+1)

如前所述,当 γ 在所有迭代步骤中满足条件 (A1) 时,即, 当 γ 足够大时, 定理 1 保证了信息瓶颈函数的单调性:

fα(σT|X(n+1))Jγ,α(σT|X(n+1),σT|X(n))fα(σT|X(n)). (32)

由于 fα 由有界熵量组成(假设系统是有限的),因此它是一个有界量。 因此,算法中的序列 {fα(σT|X(n))} 收敛。 此外,我们可以证明 c-q 通道序列 {σT|X(n)} 也收敛:

定理 3

γsupσT|X,σT|Xγ(σT|X,σT|X) 时, 序列 {σT|X(n)} 收敛。

特别地,由于 αsupσT|X,σT|Xγ(σT|X,σT|X), 序列 {σT|X(n)} 收敛于 γ=α

证明: 由于 {fα(σT|X(n))} 对于 n 单调递减, 我们有

limnfα(σT|X(n))fα(σT|X(n+1))=0. (33)

使用 (30),我们有

fα(σT|X(n))=Jγ,α(σT|X(n),σT|X(n))
= γxPX(x)D(σT|x(n)σT|x(n+1))+Jγ,α(σT|X(n+1),σT|X(n))
γxPX(x)D(σT|x(n)σT|x(n+1))+fα(σT|X(n+1)). (34)

因此,我们有

γxPX(x)D(σT|x(n)σT|x(n+1))fα(σT|X(n))fα(σT|X(n+1)). (35)

由于 根据 (33) 和 (35), 序列 {σT|X(n)} 是一个柯西序列,因此它收敛。   

我们注意到,在算法 1 中,可以选择收敛标准。

在算法 1 中,γ 被固定为一个足够大的值。 直观地(参见下一段的更详细讨论),γ(更准确地说,1/γ)是一个加速参数,如果选择一个较小的值,它可以使算法收敛更快。

首先,我们展示了 γ 在算法收敛中的作用。 σT|X 表示 {σT|X(n)} 的收敛点。 我们算法的性能可以用 σT|XσT|X(n) 之间平均偏差的下降速度来描述,其计算方法为

xPX(x)D(σT|xσT|x(n))xPX(x)D(σT|xσT|x(n+1))
= xPX(x)TrσT|x(logσT|xlogσT|x(n))
xPX(x)TrσT|x(logσT|xlogσT|x(n+1))
= xPX(x)TrσT|x(logσT|x(n+1)logσT|x(n))
=(a) xPX(x)TrσT|x(1γα[σT|X(n)](x)logη^γ,α[σT|X(n)](x))
=(b) 1γJγ,α(σT|X(n+1),σT|X(n))1γxPX(x)TrσT|xα[σT|X(n)](x)
=(c) 1γ((Jγ,α(σT|X(n+1),σT|X(n))fα(σT|X))
+xPX(x)TrσT|x(α[σT|X](x)α[σT|X(n)](x))), (36)

其中 (a)(b)(c) 分别来自 (23) 和 (25)、 (30) 和 (27) 的组合。

上述讨论表明,如果 1γ((Jγ,α(σT|X(n+1),σT|X(n))fα(σT|X))+xPX(x)TrσT|x(α[σT|X](x)α[σT|X(n)](x)))>0, 使 γ 更小会导致 σT|XσT|X(n) 之间的平均偏差下降更快。 另一方面,使 γ 太小会导致违反条件 (18) 的风险(因此会破坏 Jγ,α 的单调性)。

备注 1

参考文献 [22, Section III] 考虑了一种通用设置。 如果 σT|X 是一个单一密度矩阵,我们的方法可以被认为是其设置的特例。 但是,由于在我们的案例中 σT|X 是经典量子通道, 我们的分析不是其设置的特例。

备注 2

参考文献 [9, Appendix A] [24, Appendix A] 考虑了当系统 X,Y,T 是量子系统,而 α=1 的情况。 他们使用拉格朗日乘子法,与 [1, 4] 相同的方式,推导出了最小化问题解的必要条件。 使用得到的条件,他们 [9, Appendix C] [24, Appendix C] 还提出了一种迭代算法来找到满足必要条件的解。 他们的必要条件似乎与 (31) 相同,其中 γ=α=1 但是,他们没有讨论其算法中对局部极小值的收敛性。

2.5 不同γ的影响的数值结果

为了看到不同γ的影响,让我们看一个具体的例子: 考虑一个单量子比特量子系统Y和一个大小为28的经典寄存器X 然后,我们假设 PX𝒳={0,,281}上的均匀分布, 密度ρY|x给出如下 ρY|x=ρ(θx,λx),其中

ρ(θ,λ) :=exp(iθσx)(1λ00λ)exp(iθσx), (37)

其中σx=(0110)是泡利-X矩阵。 参数θxλx是随机选择的。

然后,我们考虑的系综允许以下联合密度矩阵:

ρ^XY =xPX(x)|π(x)π(x)|ρ(θx,λx) (38)

其中ρ(θx,λx)由等式(37)给出。

现在,我们将我们的 QIB 算法(即算法 1)应用于系综(38)。 我们考虑一个大小为|𝒳|平方根(即|𝒯|=24)的经典T 我们设置α=1β=10 我们将重点关注加速参数γ的不同选择的影响。 如图 2 所示,γ的选择对于 QIB 算法的性能至关重要,更具体地说,对于效率和收敛性至关重要。

我们数值结果体现出两个有趣的现象:首先,选择较小的γ将加速收敛过程。 如图 2 所示,通过选择适当较小的γ值(例如,0.80.5),我们的 QIB 算法比现有的 QIB 算法[9, 24]更快地达到收敛,该算法对应于γ=1的算法1 其次,选择过小的γ将破坏 QIB 算法的收敛性。 例如,当γ选择为0.4时,fα在几次迭代后跳跃,最终达到比其初始值大得多的值。

Refer to caption
图 2: 算法 1 在不同 γ 上的性能。 我们将算法 1 应用于联合状态 (38) (|𝒯|=16, α=1, 和 β=10)。 信息瓶颈 fα 被绘制成不同 γ 值的迭代次数的函数。 绿色曲线 γ=0.55 收敛最快。 与黑色曲线 γ=1 相比,它显著提高了收敛速度。 蓝色曲线 γ=0.45 在开始时下降得更快,但在几次迭代后被超过。 最终,它在 n=7 附近上升。 它表明 γ=0.45 不满足 n7 的条件 (A1)。

总之,数值结果证实了我们在理论分析 (见第 2.4 节) 中关于选择合适的 γ 的重要性的结论。 我们强调,我们在这一方向上的贡献有两个方面:

  1. 1.

    我们提出了一种加速 QIB 算法的方法,通过引入一个新的参数 γ 并将其设置为小于 1,使其在更少的迭代轮次内收敛。

  2. 2.

    我们证明,如果 γ 太小,QIB 算法无法达到 fα 的理想最小值。

2.6 β 的选择

我们的 QIB 算法的输出不仅取决于 ρXY [参见 (1)],还取决于 αβ 的选择。 直观地,较大的 β 提高了保真度 (因为它使 I(Y:T)fα 中更重要),而较小的 β 导致更多压缩 (因为它使 I(X:T)fα 中更重要)。 令人惊讶的是,β 的选择并非完全自由: 在下文中,我们将展示如果 β 太小,则 QIB 算法将产生一个平凡的 σT|X

为了考虑 β 的选择与 T 上的所得信息之间的关系,我们为子集 𝒮𝒮XT 引入以下条件, 其中 𝒮XT 是从 XT 的所有 c-q 通道的集合,即集合 {σT|X=(σT|x)x𝒳}

(A2)

对于任何两个不同的元素 σT|X,σT|X𝒮xPX(x)TrTσT|x(α[σT|X](x)α[σT|X](x))>0

条件 (A2) 是酉不变的, 即, 对 (σT|X,σT|X) 满足条件 (A2), 当且仅当对任何在 T 上的酉算子 U,对 (UσT|XU,UσT|XU) 满足条件 (A2)。 因此,我们将 𝒮 选为酉不变子集。

定理 4

假设一个酉不变子集 𝒮 满足 (A2)。 σT|XM:=argminσT|Xfα(σT|X) 为 QIB 问题的解。 σT|XM 属于 𝒮 时, 对于任何 xσT|xMT 上的最大混合状态。

如果对于每个 xσT|xM 都是最大混合状态,那么 TY 不相关,并且不包含任何有意义的信息。 换句话说, 当定理 4 的假设成立时, QIB 问题的解没有用。 因此,我们需要选择参数 α,β 使得条件 (A2) 不成立。

现在我们讨论如何避免条件 (A2)。 (A2) 的左侧被评估为

xPX(x)TrTσT|x(α[σT|X](x)α[σT|X](x))
= TrTYxPX(x)(σT|xρY|x)((logσT[σT|X]logσT[σT|X])+α(logσT|xlogσT|x)
+β((log(σT[σT|X]ρY)log(σT[σT|X]ρY))(logσYT[σT|X]logσYT[σT|X])))
= TrTYxPX(x)(σT|xρY|x)((logσT[σT|X]logσT[σT|X])+α(logPX(x)σT|xlogPX(x)σT|x)
+β((log(σT[σT|X]ρY)log(σT[σT|X]ρY))(logσYT[σT|X]logσYT[σT|X])))
= D(σT[σT|X]σT[σT|X])+αD(σXT[σT|X]σXT[σT|X])
β(D(σYT[σT|X]σYT[σT|X])D(σT[σT|X]σT[σT|X])), (39)

其中 σXT[σT|X]:=xPX(x)σT|x[σT|X]|xx| 由于 D(σYT[σT|X]σYT[σT|X])D(σT[σT|X]σT[σT|X])β 的系数是一个负值。 因此,一个较小的 β 更有可能满足条件 (A2)。 也就是说, 为了获得有效的解决方案,我们需要选择 β 为一个足够大的值。

定理 4 的证明:    U𝒯 上的任意酉算符。 我们定义 σT|XMσT|xM=UσT|xMU σT|x(n) 替换为 σT|xM 在 (36) 中, 我们有

0= xPX(x)D(σT|xMσT|xM)
xPX(x)D(σT|xMσ^γ,α,T|x[σT|XM])
= 1γ(fα(σT|XM)fα(σT|XM))
+1γxPX(x)TrσT|xM(α[σT|XM](x)α[σT|XM](x)) (40)
= 1γxPX(x)TrσT|xM(α[σT|XM](x)α[σT|XM](x)). (41)

因此,条件 (A2) 意味着 σT|XM=σT|XM σT|xMT 上的完全混合态,对任意 x 而言。  

3 经典系统 T

接下来,我们考虑 T约束 为一个经典系统的情况。 我们强调,这与之前讨论的量子 系统 T 的最小化不同,其最小值可能无法用经典 T 实现。 相反,我们现在的目标函数是

α,βc:=minσT|X:diagonalfα(σT|X). (42)

因此,我们需要重新检查之前分析的有效性。

让我们从 QIB 算法的形式开始。 幸运的是,我们使用量子 系统 T 的算法可以应用于这种情况,只是需要适应,即状态 σT|x 被限制为 关于 {|t} 基的 对角密度矩阵 T。 在这个条件下,状态 σ^γ,α,T|x[σT|X] 也是 对角密度矩阵。 因此,当我们将初始状态设置为对角密度矩阵时, 算法 1 对这种情况有效。

以上讨论引出了一个有趣的观察结果,如下所示。 具有初始对角线 σT|X 的收敛 σT|X 满足条件 (10),并且它也是对角线。 也就是说,如果使用经典 T 的最小值严格大于使用量子 T 的最小值, 那么使用经典 T 的最小值就是以下陈述的一个例子: 条件 (10) 的解并不一定给出使用量子 Tfα 的最小值。 这一事实表明,使用量子 Tfα 的 (10) 的解可能是鞍点或局部最小值,而不是全局最小值。

当状态 σT|x 限制为相对于 T 的基 {|t} 的对角密度矩阵时, σTY[σT|X]σT[σT|X] 可交换, 因此, 我们可以定义 σY|T[σT|X]:=σTY[σT|X]σT[σT|X]1 那么, σ^γ,α,T[σT|X](x) 简化为如下。

logσ^γ,α,T[σT|X](x)
= (1αγ)logσT|x+1γlogσT[σT|X]
βγTrY(ρY|x(logρYlogσY|T[σT|X])). (43)

酉不变性的概念简化为对 T 上的排列的不变性,条件 (A2) 对 T 上的排列是不变的。 那么,定理 4 可以改写为如下。

定理 5

假设子集 𝒮 满足 (A2) 并且 对 T 上的任何排列是不变的。 令 σT|XminσT|X:diagonalfα(σT|X) 的最小化器。 σT|X 属于 𝒮 时, σT|x 是 对于任何 xT 上的均匀分布。

定理 5 可以用与定理 4 相同的方式证明。

在这种情况下,我们可以对条件 (A2) 进行更精确的讨论。 为此, 我们考虑最大比率

κ:=maxQX,QXD(xQX(x)ρY|xxQX(x)ρY|x)D(QXQX). (44)

不等式 κ1 来自于映射 QXxQX(x)ρY|x 的信息处理不等式。 在这种情况下, σT[σT|X] 被写成 tQT[σT|X](t)|tt|,方法是 使用分布 QT[σT|X] 那么, (A2) 的 LHS 简化为

xPX(x)TrTσT|x(α[σT|X](x)α[σT|X](x))
= (β1)D(σT[σT|X]σT[σT|X])
+αD(σXT[σT|X]σXT[σT|X])
βD(σYT[σT|X]σYT[σT|X])
= (α1)D(σT[σT|X]σT[σT|X])
+tQT[σT|X](t)(αD(σX|T=t[σT|X]σX|T=t[σT|X])
βD(σY|T=t[σT|X]σY|T=t[σT|X]))
(α1)D(σT[σT|X]σT[σT|X])
+(αβκ)tQT[σT|X](t)
D(σX|T=t[σT|X]σX|T=t[σT|X]). (45)

当条件 α1,ακ>β 成立时, (A2) 的 LHS 对 σT|XσT|X 为正。 因此,要提取有用的 σT|X,我们需要选择 β 以满足条件 β>ακ 以及 α=1 事实上,即使 β>ακ, 也可能存在一个置换不变子集 𝒮 满足 (A2)。 由于定理 5, 当一个置换不变子集 𝒮 满足 (A2) 时, 一个有用的解不属于子集 𝒮 因此,为了获得一个有用的解,我们需要选择 β 足够大,超出 上述条件 β>ακα=1

备注 3

我们考虑经典 Yγ=α 的情况。 运算符 σ^α,T[σT|X](x) 简化为如下。

σ^α,T[σT|X](x)
= exp(1αlogσT[σT|X]
βαTrY(ρY|x(logρYlogσY|T[σT|X]))). (46)

在这种情况下, 参考文献 [31, (14) Section 3] 提出了以下更新规则:

τ^T|x[σT|X]:=1Trτ^T[σT|X](x)τ^T[σT|X](x), (47)

其中运算符 τ^T[σT|X](x) 定义为

τ^T[σT|X](x)
:= exp(1αlogσT[σT|X]
βαTrY(ρY|x(logρY|xlogσY|T[σT|X]))). (48)

由于

logτ^T[σT|X](x)logσ^T[σT|X](x)=βαD(ρY|xρY), (49)

我们有

τ^T|x[σT|X]
= 1TreβαD(ρY|xρY)σ^T[σT|X](x)eβαD(ρY|xρY)σ^T[σT|X](x)
= σ^T|x[σT|X]. (50)

也就是说,更新规则 (47) 由 [31, (14) Section 3] 给出,与我们这个特例的更新规则相同。 特别地,更新规则 (47) 与 α=1 一致,与参考文献 [32] 的更新规则一致。

备注 4

当系统 Y 是经典的,并且 α=1 时, 参考文献 [9, Appendix B] 声称,量子 T 的最优值与 经典 T 的最优值之间没有区别。 由于他们的算法使用大小固定的 T, 可以认为 他们声称上述陈述 是在 T 的大小固定时。 但是,他们的证明(见 [9, Appendix B II])存在一个漏洞: 等式 (B23) 下的陈述“拉格朗日量在选定基 |m 中对内存 M 的测量下是不变的”没有得到严格的数学证明的支撑。 因此,尚不清楚该陈述以及随之得出的量子优势不存在的说法是否正确。 另一方面,正如我们将在下一节中展示的那样,使用量子 T 的最优值可能严格小于使用经典 T 的最优值。 也就是说,[9, Appendix B] 中的断言 与我们下一节的结果相矛盾。

4 量子优势对于 T

为了看到量子系统 T 相对于经典系统 T 的优势, 我们讨论了几个具有严格不等式的例子

α,β<α,βc. (51)

我们在本节中提供了一个解析示例 以及在第 5.2 节中,在量子机器学习应用中的一个数值示例 当系统 T 的大小固定时。 通常,为了获得最佳性能, 我们需要将系统 T 选择为一个足够高维的系统。 然而,在本节中, 为了提供解析示例, 我们固定系统 T 的大小为某个特定值。

假设 𝒴 是一个大小为 d 的经典系统。 𝒳 的大小是 k 倍于 𝒴 的大小 d 我们假设 𝒳 被给出为 𝒳1×𝒳2 其中有 𝒳1=𝒴 以及 |𝒳2|=k 我们假设 X 的分布是均匀的。 我们关注维数为 n<d 的量子系统 T

引理 6

β1βα 时,我们有

α,β=(1β)logn (52)

证明: 首先,我们展示了对通用(量子)T 的 QIB 的界限。 对于任何 σT|x,我们有 H(T)I(T:X)I(T:Y) 因此,关系 βα0 意味着 (βα)I(T:Y)(βα)H(T) 因此,我们有

fα(σT|x)=(1α)H(T)+αI(T:X)βI(T:Y)
(1α)H(T)(βα)I(T:Y)(1β)H(T). (53)

由于 H(T)logn1β0,我们得到

α,β(1β)logn. (54)

上述界限是紧的。 实际上,我们将 σT|x1,x2 作为纯状态 t=1n1ne2πx1ni|t 然后,我们有 H(T)=logn 同样,H(T)=I(T:X)=I(T:Y) 因此,fα(σT|x)=(1β)logn   

接下来,我们关注 T 为维度为 n<d 的经典系统的情况。

引理 7

假设 d=mn+l0l<n。 当 β1α 时,我们有

α,βc=(1β)(l(m+1)dlogdm+1+(nl)mdlogdm) (55)

证明: 任何信道 σT|x 可以写成确定性信道的概率混合 σT|xj 也就是说,我们有

σT|x=jpjσT|xj. (56)

由于 YX2 独立,且 随机变量 J 描述了 j 的选择, 我们有

I(T:Y|JX2)= I(T:Y|JX2)+I(Y:JX2)
= I(TJX2:Y)I(T:Y). (57)

同样,我们有

H(T)H(T|JX2). (58)

然后,我们有

fα(σT|x)(a)(1α)H(T)(βα)I(T:Y)
(b) (1α)H(T|JX2)(βα)I(T:Y|JX2), (59)

其中 (a) 由 (53) 推出,而 (b) 由 (57) 和 (58) 推出。 (1α)H(T|JX2)(βα)I(T:Y|JX2) 的最小化等于 在 σT|X 为确定性信道且 σT|x1x2 仅取决于 x1 的条件下 对相同函数的最小化。

在此条件下,我们有 I(T:X)=I(T:X1)=I(T:Y),这说明在 (59) 处 (a) 等于。 因此,为了最小化,我们可以施加这个条件,即变量 T 仅由 X1=Y 确定,这意味着 I(T:Y)=H(T) 在这种情况下,我们有 fα(σT|x)=(1β)H(T) 在经典情况下,确定性信道中最大熵 H(T) 在分布 (PT(t))t=1n 尽可能接近均匀分布时达到,即 PT=(m+1d,,m+1dl,md,,mdnl) 因此,最大熵 H(T)l(m+1)dlogdm+1+(nl)mdlogdm 因此,我们得到了所需的陈述。   

当引理 7 的条件成立时,d 不能被 n 整除。 在这种情况下,由于 l(m+1)dlogdm+1+(nl)mdlogdm 严格小于 logn,当状态 ρXY 接近状态 x1d|x,xx,x| 时,严格不等式 (51) 成立。 使用量子 T 显然有优势。

5 具有 QIB 的量子特征映射

5.1 监督学习中的信息瓶颈

监督学习是机器学习的基石。 给定一个从未知概率分布 PXY 中采样的数据集 {(x,y)},一般监督学习任务是找到一个分类器,使得对于从相同分布 PXC 中采样的任何测试数据 (x,y),它在给定 x 的情况下,以尽可能高的准确率预测标签 y

值得注意的是,最近关于信息瓶颈理论的研究 [33, 28, 8] 表明深度学习的训练阶段可以分为两个阶段。 在第一个阶段,找到 X 的表示 T,它忠实地编码了它与 Y 的相关性,其特征是 I(T:Y) 的增加。 在第二阶段,T 的大小被压缩,其特征是 I(T:X) 的减少。 这个结果表明,找到 X 的有效和压缩表示有助于数据分类。

Refer to caption
图 3: 使用量子特征映射进行数据分类。 流程图说明了使用量子特征映射技术进行数据分类的训练阶段和测试阶段。 其中我们的 QIB 算法被应用的部分被突出显示。

5.2 量子特征映射

遵循上述直觉,我们通过将 QIB 算法与核方法结合,提出了一种经典-量子混合数据分类算法。 该想法在图 3 中的流程图中进行了说明。 给定一个训练数据集 𝒮train,该算法首先通过最小化信息瓶颈 fα:=H(T)αH(T|X)βI(T:Y) 来识别 X 的有效表示 T 然后构建一个分类器,该分类器根据对应于 X 值的 T 中的状态生成预测 Y^ 为简单起见,我们现在考虑 Y{1,1} 为二进制的情况。 在第一步中,我们将表示 T 设置为依赖于数据 x 的量子态 ρ(x),并通过算法 1 获得 ρ(x) 在第二步中,我们使用线性分类器

cQIB(ρ(x~))=sgn(Tr[Aρ(x~)]+b) (60)

其中 A 是一个厄米算符,而 b 我们进一步考虑 A 可以表示为线性组合 A=x:(x,y)𝒮trainaxρ(x),并且分类器具有简化的形式

cQIB(ρ(x~))=sgn(x:(x,c)𝒮trainaxK(x,x~)+b), (61)

其中 K(x,x~) 函数,在我们的情况下,由量子态的希尔伯特-施密特 (HS) 内积给出,可以通过在量子计算机上执行交换测试来评估:

K(x,y)=Tr{ρ(x)ρ(y)}. (62)

该算法总结如下:

算法 2 用于数据分类的 QIB
   输入: 训练数据集 𝒮train={(x,y)};配置 (α,β,γ)
   输入: 分类器 cQIB:XY^
   1)𝒮train 中生成一个经验分布 P^(x,y)
   2) 运行算法 1P^(x,y) 作为输入和某些(可调整的)参数 αβγ
   3) 使用步骤 2) 的输出计算公式 (61) 中的核 K
   4) 使用 𝒮train 训练分类器 (61) 并输出训练后的分类器。

我们注意到,量子核方法,其中构建了一个映射 xρ(x) 用于更好的分类,最近已成为一个热门话题(例如,参见 [26, 11, 5, 17, 20, 25])。 现有工作与我们目前方法的关键区别在于:在现有工作中,参数 x 被传递给一个参数化的(也称为 变分)量子电路,该电路准备状态 ρ(x) 人们需要在量子计算机上训练电路参数以获得良好的映射 xρ(x),这被称为特征映射。 在近期,这种方法可能会受到量子器件物理限制的影响。 相反,在我们目前的方法中,ρ(x) 是通过简单的迭代算法直接计算出来的。 因此,实现我们目前方法,即算法 2,有两种可能的方式。 在近期,我们可以将算法 2 视为一种“受量子启发的”经典算法,并在经典计算机上评估所有内容。 当大规模量子计算成为可能时,算法 2 可以很容易地“量子化”。 实际上,每次迭代中 ρ(x) 的评估需要子例程来计算矩阵幂和对数并求解线性系统,这些子例程已在参考文献中开发。   [10, 19, 18, 7]

5.3 数值实验

Refer to caption
Refer to caption
图 4: 量子与经典特征映射。 我们使用 α=γ=1β=15 对算法 1 运行, 在基于训练数据的分布 P~XY 上, 并比较 QIB 的收敛值 当 T 是经典的(即,概率位)时以及当 T 是量子的(即,单个量子位)时。 这些数值结果表明使用量子 T 相比经典 T 的优势。 具有量子 T 的最终特征映射(以红色绘制) 以及具有经典-T 的最终特征映射(以蓝色绘制)在 Bloch 球上可视化。

作为一项原理验证实验,我们测试了我们的 QIB 分类器在 2 上的数据集上的性能,该数据集以以下方式生成: 首先,我们定义离散集 𝒳=𝒳1×𝒳2𝒴, 其中 𝒳1=𝒴={0,1,2}𝒳2={0,1,,9} 为了应用我们的分类方法, 我们任意选择置换 π, 并生成 n=400 个独立同分布数据 (X~1,i,X~2,i,Yi),用于 i=1,,n,如下所示。 我们独立地生成 (X1,i,X2,i,Yi),根据 以下分布

PXY(x1,x2,y):=PY(y)QX1|Y(x1,y)QX2|X1(x2,x1), (63)

其中 PY 是在 Y 上的均匀分布, QX1|Y(x1,y)=δ(x1,y)QX2|X1(x2,x1)=δ(x1,x2)+1|𝒳2|+1(x1,x2)=π(x1,x2) 接下来,我们生成随机变量 X~j,i:=Xj,i+Rj,i,其中 随机变量 Rj,i 服从区间 [0,1.2) 内的均匀分布 除非 i=1,Xi=2i=2,Xi=9, 否则它服从区间 [0,1) 内的均匀分布。 然后,使用获得的数据 (X~1,i,X~2,i,Yi),其中 i=1,,n, 我们定义其经验分布 P~XY 我们将算法 1 应用于分布 P~XY,如图 4 所示。 在具有分布 P~XY 的情况下, 具有量子 T 的算法 1 可以实现更小的 fα,而不是具有经典 T 的算法 1, 这表明量子 T 相比经典 T 的优势。

在分类实验中,50% 的数据用作训练集,其余数据用作测试集。 该核使用算法 2 构建,并包含 α=1,β=15,γ=1、一个单量子比特寄存器 T 以及 10 次迭代。 我们分别考虑了 T 是一个通用量子比特系统和 T 被限制为一个二进制经典系统的情况,并比较了它们的性能。 从图 4 可以看出,量子 T 的 IB 值低于经典 T 的 IB 值。量子 T 情况下的最终特征图 σT|X 由于随机噪声 r1,r2 而存在一定程度的离散,但量子特征仍然形成了 3 个簇。 相比之下,经典 T 情况下的最终 σT|XX 的不同值映射到两个簇中。

上述区别的影响在分类性能中显而易见。 在图 5 中,通过分类器的决策区域说明了从核中构建的分类器的性能。 可以看出,由于经典-T 特征图将 X 分组到两个簇中,因此其生成的分类器对任何输入数据都给出二进制预测,放弃了尽可能少的标签。 相反,量子-T 特征图利用完整的布洛赫球来生成 3 个簇,从而导致更高的预测精度。 因此,这个数值例子体现了真正量子特征图的优势。

作为参考,在图 5 中,我们还绘制了两种标准的经典特征图方法的性能。 参考方法(线性核和多项式核)的准确率(由测试集中正确预测的比率定义)为 0.640.62,这略高于经典-T 信息瓶颈核 (0.565),但远低于 QIB 核 (0.92)。 这进一步证明了我们的 QIB 方法在分类方面的优越性能。

Refer to caption
图 5: QIB 分类器和参考分类器的决策区域。 QIB 分类器、经典-T IB 分类器和两个参考分类器的决策区域与测试数据一起绘制。 不同的点颜色对应于具有不同标签的数据,每个区域的颜色对应于分类器对该区域内数据的预测。

6 量子确定性信息瓶颈 (QDIB)

考虑到极限 α+0, 论文 [31] 提出了确定性 IB,它最小化 f0 现在,我们考虑用量子系统 T,Y 和经典系统 X 进行这种最小化。 首先,我们定义

σ^0,T|x[σT|X]
:= 1TrσT|xPT|x[σT|X]PT|x[σT|X]σT|xPT|x[σT|X], (64)

其中 PT|x[σT|X] 是对算子 (1β)logσT[σT|X]+βTrYρY|x(logσYT[σT|X]logρY) 的最大特征值的投影。

给定一个初始点 σT|X(1),我们提出以下更新规则

σT|X(n+1):=σ^0,T|X[σT|X(n)]. (65)

如下所示,该算法的每一步都提高了目标函数 f0 的值。

算子 σ^0,T|x[σT|X] 的特征是

σ^0,T|x[σT|X]=limα0σ^α,α,T|x[σT|X]. (66)

由于 定理 1 和 (20) 保证

fα(σ^α,α,T|X[σT|X])
= Jα,α(σ^α,α,T|X[σT|X],σ^α,α,T|X[σT|X])
Jα,α(σ^α,α,T|X[σT|X],σT|X)
Jα,α(σT|X,σT|X)=fα(σT|X), (67)

极限 α0 在 (67) 中意味着

fα0(σ^0,T|X[σT|X])fα0(σT|X]), (68)

这表明 该算法的每一步都提高了目标函数 fDIB:=fα0 的值。

算法 3 量子确定性信息瓶颈 (QDIB) 算法
1:  输入: 一个联合状态 ρXY [参见 (1) ]。
2:  创建一个计数器 n 作为迭代次数,初始化为 1。
3:  重复
4:     选择 σT|X(n+1) 作为
σT|x(n+1)=PT|x[σT|X(n)]σT|x(n)PT|x[σT|X(n)]Tr(σT|x(n)PT|x[σT|X]) (69)
其中 PT|x[σT|X(n)] 是在 α=0[σT|X(n)](x) 的特征向量所张成的空间上的投影 [参见 (2.4)],对应于最小特征值。
5:     设置 nn+1
6:  直到 收敛。
7:  输出: 一个 c-q 通道 σT|X(n+1)

7 从 DIB 中近似获取充分统计量

7.1 任务公式化

接下来,我们讨论 DIB 如何用于提取经典-量子 (c-q) 联合系统中包含有用信息的 XY 的联合状态 ρXY:=xPX(x)|xx|ρY|x, 其中 X 是经典系统,Y 是量子系统。 例如,假设我们感兴趣的是量子系统 Y 中的量子现象。 该量子系统 Y 与经典系统 X 相关联。 但是,经典系统 X 可能包含冗余信息。 在这种情况下,从 X 中提取必要的信息来描述量子系统 Y 中量子现象的行为是有用的。 为了讨论必要信息,我们引入了 ϵ-(近似) 充分统计量 的概念,它是经典系统 X 相对于量子系统 Y 的统计量, 而论文 [36, 12] 在系统 Y 是经典系统时讨论了 这个概念。

XT 的函数 f 被称为 量子系统 YX 充分统计量, 当存在条件分布 PX|T 使得

ρXY=tPX|T(x|t)|xx|xf1(t)PX(x)ρY|x. (70)

上述条件等价于条件

I(X:Y)=I(T:Y) (71)

而一般情况下我们有不等式 I(X:Y)I(T:Y)

然而,当我们使用充分统计量时,我们无法消除由噪声产生的微弱相关性。 例如,假设经典系统 X 由两个经典系统 X1X2 组成。 假设我们有一个 c-q 状态 ρX1X2Y=x1x2PX1,X2(x1,x2)|x1,x2x1,x2|ρY|x1,其中包含两个经典系统 X1X2

我们假设我们已经知道分布 PX1X2,但我们不知道 ρY|x 此外,我们假设我们多次生成此状态并将状态估计应用于生成的​​状态。 结果,我们得到了我们的估计

ρ^X1X2Y=x1x2PX1X2(x1,x2)|x1,x2x1,x2|ρ^Y|x1,x2. (72)

由于我们的估计始终存在很小的误差,ρ^Y|x1,x2ρY|x1 不完全相同,但它接近于 ρY|x1 在这种情况下,这种差异应被视为噪声。 也就是说,X2 的依赖关系并不重要。 最好考虑将相关性作为 ρ^Y|x1:=x2PX2|X1(x2|x1)ρ^Y|x1,x2 给出,以便我们对 ρX1X2Y 的估计作为 x1x2PX1,X2(x1,x2)|x1,x2x1,x2|ρ^Y|x1 给出。

对于 ϵ>0,函数 f:XT 被称为 ϵ 充分统计量,当不等式

I(X:Y)ϵI(T:Y) (73)

成立。 因此,具有 T 小尺寸的充分统计量和 ϵ -充分统计量可以被视为 X 关于 Y 的压缩数据。

在上面的例子中,X1X2Y 的充分统计量。 δ 对于 ϵ 足够小时,I(X1:Y) 接近 I(X1X2:Y),即 X1ϵ -充分统计量。 因此,我们可以移除非必要信息 X2 事实上,如果 𝒳=𝒳1×𝒳2 被随机排列 π 打乱, 提取基本信息将变得不 trivial 。 为了涵盖这种非 trivial 的情况,我们需要一种系统的方法 来找到一个具有小尺寸 T 的函数。 为此,我们可以使用信息瓶颈算法。

为了提取近似充分统计量 T, 我们关注两个要求。 互信息 I(T:Y) 应该更大, 而熵 H(T) 应该更小。 为了满足这些要求, 我们只需使用 确定性信息瓶颈算法与 |𝒯|=|𝒳| 最小化 H(T)βI(T:Y) 由于算法最小化了 H(T)βI(T:Y), 并且解中的条件分布 PT|X 是确定性的, 因此解中 PT 的支撑预计将小于 原始集合 𝒯

7.2 数值

Refer to caption
图 6: 估计的系综 {ρ(θx1,x2,λx1,x2)} 的 Bloch 表示。 从图中可以看出,量子比特状态,尤其是那些具有较高纯度的状态,在 Bloch 球中形成了几个簇。 在每个簇中,状态具有相同的值 x1 和不同的值 x2 这表明 X1Y 之间的相关性高于 X2Y 之间的相关性。

为了证明以上想法,让我们看一个具体的例子,它是第 2.5 节中例子的修改。 考虑一个单量子比特量子系统 Y 和一个经典寄存器 X,它编码有关 Y 的信息。 寄存器 X 进一步被分成两个子寄存器 X1X2,它们在 集合 𝒳1={0,1,,4}𝒳2={0,1,,19} 中取值。 然后,我们假设 PX 是在 𝒳1×𝒳2 上的均匀分布,并且 密度 ρY|x1 被给出为 ρ(θx1,λx1) 与 (37)。 参数 θλ 取决于 x1,如

θx1 :=πx1|𝒳1|λx1:=x14|𝒳1|. (74)

显然,量子系统仅取决于 X1X2,不包含关于量子系统的任何信息。 然而,拥有该系综的实验者并不知道这一点。 为了提取关于量子系统的信息,对于每对 (x1,x2),实验者通过在 ρ(θx1,λx1) 上重复进行适当的测量(ν< 次)来估计其密度矩阵。 根据量子态估计理论 [15, 13],估计值的不准确度与 1/ν 成正比。 考虑到这一点,我们将估计的密度矩阵建模为 ρ(θx1,x2,λx1,x2) 当实际密度矩阵为 ρ(θx1,λx1) 时,其中

θx1,x2 :=πx1|𝒳1|(1+rν(x1,x2)) (75)
λx1,x2 :=x14|𝒳1|(1+rν(x1,x2)) (76)

rν(x1,x2),rν(x1,x2)=O(1/ν) 表征估计误差。 估计的系综然后承认以 (72) 给出的密度矩阵,其中 ρ^Y|x1,x2=ρ(θx1,x2,λx1,x2) 由方程给出。   (37),(75), 和 (76)。 注意,现在寄存器 X2Y 在估计的联合状态 ρ^XY 中相关,即使估计引起的噪声遵循不依赖于 X2 值的分布。

现在,任务是压缩寄存器 X,通过从 X 到更小的经典寄存器 T 建立映射。这里我们取 TX 大小相同。 一种直观的方法是丢弃 X2 寄存器, 因为 X1 包含比 X2 多得多的关于量子位状态的信息。 然而,这样的简单映射在更一般的情况下不存在。 例如,如果 Eq. (72) 中的 (x1,x2) 值被置换,丢弃 X2 将不会导致忠实的压缩。 为了说明这一点,我们进一步对 Eq. (72) 中的经典寄存器 𝒳=𝒳1×𝒳2 应用一个任意选择的未知重排 π:𝒳𝒳 然后,系综承认以下联合密度矩阵:

ρ^XY= x1,x2(PX(x1,x2)|π(x1,x2)π(x1,x2)|
ρ(θx1,x2,λx1,x2)) (77)

由方程式 ρ(θx1,x2,λx1,x2) 给出。   (75) 和 (76)。 目标是通过构建映射 Q:𝒳𝒯 来提取近似的充分统计量。

Refer to caption
Refer to caption
图 7: QDIB 算法在构建近似充分统计量方面的性能。 我们将我们的量子确定性信息瓶颈 (QDIB) 算法应用于状态 (77)(另见图 6)。 对于联合状态,我们选择 |𝒳1|=5|𝒳2|=20,而 PX𝒳=𝒳1×𝒳2 上的均匀分布。 噪声 rν(x1,x2)rν(x1,x2) 从间隔 (1/ν,1/ν) 中随机均匀地提取,其中对于任何 x1𝒳1,x2𝒳2ν=20 在 QDIB 算法 (算法 3) 中,我们选择 β=20|𝒯|=|𝒳|=100 在上图中,信息瓶颈 fDIB:=fα0 被绘制成迭代次数的函数。 从图中可以看出,我们的算法的 QDIB 值在仅 3 次迭代后就低于“在逆置换 π1 之后丢弃 X2”的虚构协议。 在下图中,忠实度 I(T:Y) 被绘制成迭代次数的函数,而逆置换 π1 后的 I(X1:Y)(对应于“在逆置换 π1 之后丢弃 X2”的虚构协议的性能)以及 I(X:Y)(对应于 I(T:Y) 的上限)被绘制以供参考。 这两幅图都证明了我们的 QDIB 算法在构建近似充分统计量方面表现良好。

我们的 QDIB 算法作为一种更系统、更高效的方法来提取必要的信息并丢弃非必要的信息,即使在存在任意置换的情况下也是如此。 在 QDIB 算法 (算法 3) 中,我们选择 β=20|𝒯|=|𝒳|=|𝒳1||𝒳2| 首先,我们考虑系综采用形式 (72) 的情况,性能总结在图 7 中。 从数字中可以看出,将我们的 QDIB 算法应用于 ρ^XYfDIB:=fα0 下降低于逆排列 π1”在 5 次迭代内接近,并收敛到一个低得多的值,表明更好的压缩性能。 第二张图进一步证实了这一点,其中绘制了忠实度 I(T:Y) 和残余信息 I(T:X) 我们可以看到,由于我们的 QDIB 算法保留了与原始变量 X 几乎一样多的关于 Y 的信息,因此它压缩了关于原始寄存器 X 的相当大的部分信息。 t2>。

8 讨论与结论

We have proposed a generalized algorithm for QIB with an acceleration parameter γ and an additional parameter α, and have derived a necessary condition for the monotonic decrease of the objective function fα=H(T)αH(T|X)βI(T:Y) with quantum systems Y,T and classical system X when we extract information T with respect to Y from X. 我们还证明了它在相同条件下的收敛性,并证明了明智地选择参数 γ 可以加速收敛。 我们的数值计算进一步证实了上述分析,如下所示。 在我们的数值实验中,减小γ可以加速收敛,但如果γ小于阈值,算法将无法收敛。 此外,我们还提供了一些例子,表明量子系统 T 比经典系统 T 具有优势,即使 YX 是经典系统。

接下来,取限制α+0,我们提出了一种QDIB迭代算法,最小化目标函数fDIB=H(T)βI(T:Y) 我们已经证明,这种迭代算法总是使目标函数单调递减。 QDIB可以用来找到近似充分的统计量,因为它实现了较小的熵H(T)和较大的互信息I(T:Y) 然后,我们通过数值证明了我们的 QDIB 算法作为近似充分统计量能够很好地工作。

我们在这项工作中展示的一个重要应用是,我们的 QIB 算法提供了一种构建用于分类的量子特征图的新方法。 在我们的数值示例中,量子系统 T 实现的目标函数值比经典系统 T 更小。该数值分析显示了使用量子存储器T进行分类的优势。 尽管最近取得了重大进展 [34, 27, 3, 26, 11, 5, 17, 20, 25],但量子机器学习相对于其经典对应物的优势尚未得到广泛讨论。 我们的工作为解决这个问题提供了一个新的角度,阐明了在学习领域严格论证和量化量子霸权的新方案。

对于未来的研究,一个悬而未决的问题是如何将我们的结果扩展到 X 也是量子系统的情况,例如,压缩量子系统同时保持其与经典标签的相关性 [21, 23, 35, 36, 37, 38] 值得注意的是,在这种情况下,如果 T 是经典的,无论其大小如何,一些相关性都会丢失 [37] 因此,我们预计,对于具有量子 X 的 QIB,量子 T 的优势可能会持续甚至变得更强。

最后,我们注意到,目前还没有有效的方法来计算定理 3 中对 γ 的限制。 在未来的工作中解决这个问题将加速我们的信息瓶颈算法的收敛。

致谢

MH 部分得到中国国家自然科学基金(项目编号:   62171212)和广东省重点实验室(项目编号:2019B121203002)的资助。 YY 由广东省基础与应用基础研究基金(项目编号: 2022A1515010340)和香港研究资助局(RGC)通过早期职业计划(ECS)拨款 27310822 资助。

参考文献

  • Arimoto [1972] S. Arimoto. An algorithm for computing the capacity of arbitrary discrete memoryless channels. IEEE Transactions on Information Theory, 18(1):14–20, 1972. doi: 10.1109/TIT.1972.1054753.
  • Banchi et al. [2021] Leonardo Banchi, Jason Pereira, and Stefano Pirandola. Generalization in quantum machine learning: A quantum information standpoint. PRX Quantum, 2:040321, Nov 2021. doi: 10.1103/PRXQuantum.2.040321.
  • Biamonte et al. [2017] Jacob Biamonte, Peter Wittek, Nicola Pancotti, Patrick Rebentrost, Nathan Wiebe, and Seth Lloyd. Quantum machine learning. Nature, 549(7671):195–202, 2017. doi: 10.1038/nature23474.
  • Blahut [1972] R. Blahut. Computation of channel capacity and rate-distortion functions. IEEE Transactions on Information Theory, 18(4):460–473, 1972. doi: 10.1109/TIT.1972.1054855.
  • Blank et al. [2020] Carsten Blank, Daniel K Park, June-Koo Kevin Rhee, and Francesco Petruccione. Quantum classifier with tailored quantum kernel. npj Quantum Information, 6(1):1–7, 2020. doi: 10.1038/s41534-020-0272-6.
  • Datta et al. [2019] Nilanjana Datta, Christoph Hirche, and Andreas Winter. Convexity and operational interpretation of the quantum information bottleneck function. In 2019 IEEE International Symposium on Information Theory (ISIT), pages 1157–1161, 2019. doi: 10.1109/ISIT.2019.8849518.
  • Gilyén et al. [2019] András Gilyén, Yuan Su, Guang Hao Low, and Nathan Wiebe. Quantum singular value transformation and beyond: exponential improvements for quantum matrix arithmetics. In Proceedings of the 51st Annual ACM SIGACT Symposium on Theory of Computing, pages 193–204, 2019. doi: 10.1145/3313276.3316366.
  • Goldfeld and Polyanskiy [2020] Ziv Goldfeld and Yury Polyanskiy. The information bottleneck problem and its applications in machine learning. IEEE Journal on Selected Areas in Information Theory, 1(1):19–38, 2020. doi: 10.1109/JSAIT.2020.2991561.
  • Grimsmo and Still [2016] Arne L. Grimsmo and Susanne Still. Quantum predictive filtering. Phys. Rev. A, 94:012338, Jul 2016. doi: 10.1103/PhysRevA.94.012338.
  • Harrow et al. [2009] Aram W Harrow, Avinatan Hassidim, and Seth Lloyd. Quantum algorithm for linear systems of equations. Physical review letters, 103(15):150502, 2009. doi: 10.1103/PhysRevLett.103.150502.
  • Havlíček et al. [2019] Vojtěch Havlíček, Antonio D Córcoles, Kristan Temme, Aram W Harrow, Abhinav Kandala, Jerry M Chow, and Jay M Gambetta. Supervised learning with quantum-enhanced feature spaces. Nature, 567(7747):209–212, 2019. doi: 10.1038/s41586-019-0980-2.
  • Hayashi and Tan [2018] Masahito Hayashi and Vincent Y. F. Tan. Minimum rates of approximate sufficient statistics. IEEE Transactions on Information Theory, 64(2):875–888, 2018. doi: 10.1109/TIT.2017.2775612.
  • Helstrom [1969] Carl W Helstrom. Quantum detection and estimation theory. Journal of Statistical Physics, 1(2):231–252, 1969. doi: 10.1007/BF01007479.
  • Hirche and Winter [2020] Christoph Hirche and Andreas Winter. An alphabet-size bound for the information bottleneck function. In 2020 IEEE International Symposium on Information Theory (ISIT), pages 2383–2388, 2020. doi: 10.1109/ISIT44484.2020.9174416.
  • Holevo [2011] Alexander S Holevo. Probabilistic and statistical aspects of quantum theory, volume 1. Springer Science & Business Media, 2011. doi: 10.1007/978-88-7642-378-9.
  • Hsu et al. [2006] Winston H. Hsu, Lyndon S. Kennedy, and Shih-Fu Chang. Video search reranking via information bottleneck principle. MM ’06, pages 35–44, New York, NY, USA, 2006. Association for Computing Machinery. ISBN 1595934472. doi: 10.1145/1180639.1180654.
  • Lloyd et al. [2020] Seth Lloyd, Maria Schuld, Aroosa Ijaz, Josh Izaac, and Nathan Killoran. Quantum embeddings for machine learning. arXiv preprint arXiv:2001.03622, 2020. doi: 10.48550/arXiv.2001.03622.
  • Low and Chuang [2017] Guang Hao Low and Isaac L Chuang. Hamiltonian simulation by uniform spectral amplification. arXiv preprint arXiv:1707.05391, 2017. doi: 10.48550/arXiv.1707.05391.
  • Low and Chuang [2019] Guang Hao Low and Isaac L Chuang. Hamiltonian simulation by qubitization. Quantum, 3:163, 2019. doi: 10.22331/q-2019-07-12-163.
  • Pérez-Salinas et al. [2020] Adrián Pérez-Salinas, Alba Cervera-Lierta, Elies Gil-Fuster, and José I Latorre. Data re-uploading for a universal quantum classifier. Quantum, 4:226, 2020. doi: 10.22331/q-2020-02-06-226.
  • Plesch and Bužek [2010] Martin Plesch and Vladimír Bužek. Efficient compression of quantum information. Physical Review A, 81(3):032317, 2010. doi: 10.1103/PhysRevA.81.032317.
  • Ramakrishnan et al. [2021] Navneeth Ramakrishnan, Raban Iten, Volkher B. Scholz, and Mario Berta. Computing quantum channel capacities. IEEE Transactions on Information Theory, 67(2):946–960, 2021. doi: 10.1109/TIT.2020.3034471.
  • Rozema et al. [2014] Lee A Rozema, Dylan H Mahler, Alex Hayat, Peter S Turner, and Aephraim M Steinberg. Quantum data compression of a qubit ensemble. Physical Review Letters, 113(16):160504, 2014. doi: 10.1103/PhysRevLett.113.160504.
  • Salek et al. [2019] Sina Salek, Daniela Cadamuro, Philipp Kammerlander, and Karoline Wiesner. Quantum rate-distortion coding of relevant information. IEEE Transactions on Information Theory, 65(4):2603–2613, 2019. doi: 10.1109/TIT.2018.2878412.
  • Schuld [2021] Maria Schuld. Supervised quantum machine learning models are kernel methods. arXiv preprint arXiv:2101.11020, 2021. doi: 10.48550/arXiv.2101.11020.
  • Schuld and Killoran [2019] Maria Schuld and Nathan Killoran. Quantum machine learning in feature Hilbert spaces. Physical Review Letters, 122(4):040504, 2019. doi: 10.1103/PhysRevLett.122.040504.
  • Schuld et al. [2015] Maria Schuld, Ilya Sinayskiy, and Francesco Petruccione. An introduction to quantum machine learning. Contemporary Physics, 56(2):172–185, 2015. doi: 10.1080/00107514.2014.964942.
  • Shwartz-Ziv and Tishby [2017] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017. doi: 10.48550/arXiv.1703.00810.
  • Slonim and Tishby [2000] Noam Slonim and Naftali Tishby. Document clustering using word clusters via the information bottleneck method. SIGIR ’00, pages 208–215, New York, NY, USA, 2000. Association for Computing Machinery. ISBN 1581132263. doi: 10.1145/345508.345578.
  • Stark et al. [2018] Maximilian Stark, Aizaz Shah, and Gerhard Bauch. Polar code construction using the information bottleneck method. In 2018 IEEE Wireless Communications and Networking Conference Workshops (WCNCW), pages 7–12, 2018. doi: 10.1109/WCNCW.2018.8368978.
  • Strouse and Schwab [2017] DJ Strouse and David J. Schwab. The Deterministic Information Bottleneck. Neural Computation, 29(6):1611–1630, 06 2017. ISSN 0899-7667. doi: 10.1162/NECO_a_00961.
  • Tishby et al. [1999] N. Tishby, F. C. Pereira, and W. Bialek. The information bottleneck method. In The 37th annual Allerton Conference on Communication, Control, and Computing, pages 368–377. Univ. Illinois Press, 1999. doi: 10.48550/arXiv.physics/0004057.
  • Tishby and Zaslavsky [2015] Naftali Tishby and Noga Zaslavsky. Deep learning and the information bottleneck principle. In 2015 IEEE information theory workshop (ITW), pages 1–5. IEEE, 2015. doi: 10.1109/ITW.2015.7133169.
  • Wittek [2014] Peter Wittek. Quantum machine learning: what quantum computing means to data mining. Academic Press, 2014. doi: 10.1016/C2013-0-19170-2.
  • Yang et al. [2016a] Yuxiang Yang, Giulio Chiribella, and Daniel Ebler. Efficient quantum compression for ensembles of identically prepared mixed states. Physical Review Letters, 116(8):080501, 2016a. doi: 10.1103/PhysRevLett.116.080501.
  • Yang et al. [2016b] Yuxiang Yang, Giulio Chiribella, and Masahito Hayashi. Optimal compression for identically prepared qubit states. Phys. Rev. Lett., 117:090502, Aug 2016b. doi: 10.1103/PhysRevLett.117.090502.
  • Yang et al. [2018a] Yuxiang Yang, Ge Bai, Giulio Chiribella, and Masahito Hayashi. Compression for quantum population coding. IEEE Transactions on Information Theory, 64(7):4766–4783, 2018a. doi: 10.1109/TIT.2017.2788407.
  • Yang et al. [2018b] Yuxiang Yang, Giulio Chiribella, and Masahito Hayashi. Quantum stopwatch: how to store time in a quantum memory. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences, 474(2213):20170773, 2018b. doi: 10.1098/rspa.2017.0773.