胶囊之间的动态路由

Sara Sabour
Nicholas Frosst
Geoffrey E. Hinton
Google Brain
Toronto
{sasabour, frosst, geoffhinton}@google.com

（2017 年 5 月）

摘要

胶囊是一组神经元，其活动向量表示特定类型实体（例如对象或对象部分）的实例化参数。我们使用活动向量的长度来表示实体存在的概率，并使用其方向来表示实例化参数。某一级别的活动胶囊通过变换矩阵对更高级别胶囊的实例化参数进行预测。当多个预测一致时，更高级别的胶囊就会被激活。我们证明，经过区分训练的多层胶囊系统在 MNIST 上实现了最先进的性能，并且在识别高度重叠的数字方面比卷积网络要好得多。为了实现这些结果，我们使用迭代路由协议机制：较低级别的胶囊更喜欢将其输出发送到较高级别的胶囊，其活动向量与来自较低级别胶囊的预测具有较大的标量积。

1简介

人类视觉通过使用仔细确定的固定点序列来忽略不相关的细节，以确保仅以最高分辨率处理光学阵列的一小部分。内省对于理解我们对场景的了解有多少来自注视序列以及我们从单个注视中收集了多少信息来说是一个糟糕的指导，但在本文中，我们将假设单个注视给我们带来的不仅仅是单个注视。识别的对象及其属性。我们假设我们的多层视觉系统在每个注视点上创建一个类似解析树的结构，并且我们忽略了这些单注视点解析树如何在多个注视点上协调的问题。

解析树通常是通过动态分配内存来动态构建的。然而，根据Hinton等人（2000），我们假设，对于单个固定，解析树是从固定的多层神经网络中雕刻出来的，就像从岩石中雕刻出雕塑一样。每层将被分为许多称为“胶囊”的神经元小组(Hinton 等人（2011）)，解析树中的每个节点将对应于一个活动胶囊。使用迭代路由过程，每个活动胶囊将选择上层中的一个胶囊作为其在树中的父胶囊。对于更高层次的视觉系统，这个迭代过程将解决将部分分配给整体的问题。

活动胶囊内神经元的活动代表图像中存在的特定实体的各种属性。这些属性可以包括许多不同类型的实例化参数，例如姿势（位置、大小、方向）、变形、速度、反照率、色调、纹理等。一个非常特殊的属性是图像中实例化实体的存在。表示存在的一种明显方法是使用单独的逻辑单元，其输出是实体存在的概率。在本文中，我们探索了一种有趣的替代方案，即使用实例化参数向量的总长度来表示实体的存在，并强制向量的方向来表示实体的属性¹¹1这具有生物学意义，因为它不使用大型活动来获得可能不存在的事物的准确表示。. 我们通过应用非线性来确保胶囊的矢量输出的长度不能超过 $1$ ，该非线性使矢量的方向保持不变但缩小其幅度。

胶囊的输出是一个向量，这一事实使得可以使用强大的动态路由机制来确保胶囊的输出发送到上层中适当的父级。最初，输出被路由到所有可能的父级，但通过总和为 $1$ 的耦合系数按比例缩小。对于每个可能的父代，胶囊通过将其自身的输出乘以权重矩阵来计算“预测向量”。如果该预测向量与可能的父对象的输出具有较大的标量积，则存在自上而下的反馈，该反馈会增加该父对象的耦合系数并减少其他父对象的耦合系数。这增加了胶囊对该父代的贡献，从而进一步增加了胶囊预测与父代输出的标量积。这种类型的“协议路由”应该比最大池化实现的非常原始的路由形式有效得多，最大池化允许一层中的神经元忽略该层中本地池中除了最活跃的特征检测器之外的所有特征检测器以下。我们证明了我们的动态路由机制是实现分割高度重叠对象所需的“解释”的有效方法。

卷积神经网络 (CNN) 使用学习到的特征检测器的翻译副本。这使得他们能够将在图像中的一个位置获取的良好权重值的知识转化为其他位置。事实证明，这对于图像解释非常有帮助。尽管我们用矢量输出胶囊取代了 CNN 的标量输出特征检测器，并用协议路由取代了最大池化，但我们仍然希望跨空间复制学到的知识。为了实现这一目标，我们使除了最后一层之外的所有胶囊都是卷积的。与 CNN 一样，我们使更高级别的胶囊覆盖图像的更大区域。然而，与最大池不同的是，我们不会丢弃有关区域内实体的精确位置的信息。对于低级别胶囊，位置信息通过胶囊处于活动状态进行“位置编码”。随着层次结构的上升，越来越多的位置信息被“速率编码”在胶囊输出向量的实值分量中。这种从位置编码到速率编码的转变，再加上更高级别的胶囊代表具有更多自由度的更复杂的实体，这表明胶囊的维度应该随着我们提升层次结构而增加。

2 如何计算胶囊的向量输入和输出

有很多可能的方法来实现胶囊的总体思想。本文的目的不是探索整个领域，而只是为了表明一种相当简单的实现效果很好，并且动态路由有所帮助。

我们希望胶囊的输出向量的长度能够表示胶囊所表示的实体出现在当前输入中的概率。因此，我们使用非线性“挤压”函数来确保短向量收缩到几乎为零的长度，而长向量收缩到略低于 $1$ 的长度。我们将其留给判别学习来充分利用这种非线性。

{\bf v}_{j}=\frac{||{\bf s}_{j}||^{2}}{1+||{\bf s}_{j}||^{2}}\frac{{\bf s}_{j}}{||{\bf s}_{j}||}

(1)

其中 ${\bf v}_{j}$ 是胶囊 $j$ 的向量输出， ${\mathbf{s}}_{j}$ 是其总输入。

对于除第一层胶囊之外的所有胶囊，胶囊 ${\bf s}_{j}$ 的总输入是来自下层胶囊的所有“预测向量” ${\bf\hat{u}}_{j|i}$ 的加权和，并由下式生成：将下层中胶囊的输出 ${\bf u}_{i}$ 乘以权重矩阵 ${\bf W}_{ij}$

{\bf s}_{j}=\sum_{i}c_{ij}{\bf\hat{u}}_{j|i}\ ,\ \ \ \ \ \ \ {\bf\hat{u}}_{j|i}={\bf W}_{ij}{\bf u}_{i}

(2)

其中 $c_{ij}$ 是由迭代动态路由过程确定的耦合系数。

胶囊 $i$ 与上层所有胶囊之间的耦合系数总和为 $1$ ，并由“路由softmax”确定，其初始logits $b_{ij}$ 为记录胶囊 $i$ 应该与胶囊 $j$ 耦合的先验概率。

c_{ij}=\frac{\exp(b_{ij})}{\sum_{k}\exp(b_{ik})}

(3)

对数先验可以与所有其他权重同时有区别地学习。它们取决于两个胶囊的位置和类型，但不取决于当前输入图像²²2对于 MNIST，我们发现将所有这些先验设置为相等就足够了。. 然后，通过测量上层中每个胶囊的当前输出 ${\bf v}_{j}$ $j$ 与做出的预测 ${\bf\hat{u}}_{j|i}$ 之间的一致性，迭代地细化初始耦合系数通过胶囊 $i$ 。

该协议只是标量积 $a_{ij}={\bf v}_{j}.{\bf\hat{u}}_{j|i}$ 。该一致性被视为对数似然，并在计算将胶囊 $i$ 连接到更高级别胶囊的所有耦合系数的新值之前添加到初始 logit $b_{ij}$ 中。

在卷积胶囊层中，每个胶囊将局部向量网格输出到上层中的每种类型的胶囊，对于网格的每个成员以及每种类型的胶囊使用不同的变换矩阵。

过程1 路由算法。

1:procedure Routing(

\bm{\hat{u}}_{j|i}

r

l

)

2: for all capsule

i

in layer

l

and capsule

j

in layer

(l+1)

b_{ij}\leftarrow 0

3: for

r

iterations do

4: for all capsule

i

in layer

l

{\bf c}_{i}\leftarrow\texttt{softmax}({\bf b}_{i})

\triangleright

softmax computes Eq. 3

5: for all capsule

j

in layer

(l+1)

{\bf s}_{j}\leftarrow\sum_{i}{c_{ij}{\bf\hat{u}}_{j|i}}

6: for all capsule

j

in layer

(l+1)

{\bf v}_{j}\leftarrow\texttt{squash}({\bf s}_{j})

\triangleright

squash computes Eq. 1

7: for all capsule

i

in layer

l

and capsule

j

in layer

(l+1)

b_{ij}\leftarrow b_{ij}+{\bf\hat{u}}_{j|i}.{\bf v}_{j}

return

{\bf v}_{j}

3 数字存在的保证金损失

我们使用实例化向量的长度来表示胶囊实体存在的概率。当且仅当该数字出现在图像中时，我们希望数字类 $k$ 的顶级胶囊具有长实例化向量。为了允许多个数字，我们对每个数字胶囊使用单独的边距损失， $L_{k}$ , $k$ ：

L_{k}=T_{k}\ \max(0,m^{+}-||{\bf v}_{k}||)^{2}+\lambda\ (1-T_{k})\ \max(0,||{\bf v}_{k}||-m^{-})^{2}

(4)

其中 $T_{k}=1$ 当且仅当存在 $k$ 类的数字时³³3我们不允许图像包含同一数字类别的两个实例。我们在讨论部分解决了胶囊的这个弱点。和 $m^{+}=0.9$ 和 $m^{-}=0.1$ 。 $\lambda$ 缺失数字类别的损失权重会阻止初始学习缩小所有数字胶囊的活动向量的长度。我们使用 $\lambda=0.5$ 。总损失只是所有数字胶囊损失的总和。

4CapsNet架构

Refer to caption — 图1：一个简单的 3 层 CapsNet。该模型给出了与深度卷积网络相当的结果（例如 Chang 和 Chen (2015))。 DigitCaps 层中每个胶囊的活动向量的长度指示每个类的实例的存在，并用于计算分类损失。 ${\bf W}_{ij}$ 是PrimaryCapsules中每个 ${\bf u}_{i},i\in(1,32\times 6\times 6)$ 和 ${\bf v}_{j},j\in(1,10)$ 之间的权重矩阵。

一个简单的 CapsNet 架构如图1所示。该架构很浅，只有两个卷积层和一个全连接层。 Conv $1$ 具有 $256$ 、 $9\times 9$ 卷积核，步幅为 1，并具有 ReLU 激活。该层将像素强度转换为局部特征检测器的活动，然后用作主胶囊的输入。

主胶囊是多维实体的最低级别，从逆图形的角度来看，激活主胶囊对应于反转渲染过程。这是一种非常不同的计算类型，与将实例化的部分拼凑在一起形成熟悉的整体是一种非常不同的计算类型，而这正是胶囊设计所擅长的。

第二层 (PrimaryCapsules) 是一个卷积胶囊层，具有 $32$ 个卷积 $8$ D 胶囊通道(即每个主胶囊包含 8 个卷积单元，其中 $9\times 9$ 内核，步幅为 2)。每个主胶囊输出都会看到所有感受野与胶囊中心位置重叠的 $256\times 81$ Conv $1$ 单元的输出。 PrimaryCapsules 总共有 $[32\times 6\times 6]$ 个胶囊输出（每个输出是一个 $8$ D 向量），并且 $[6\times 6]$ 网格中的每个胶囊彼此共享权重。人们可以将 PrimaryCapsules 视为具有等式 1 的卷积层。 1 作为其块非线性。最后一层 (DigitCaps) 每个数字类别有一个 $16$ D 胶囊，每个胶囊都接收来自下一层中所有胶囊的输入。

我们仅在两个连续的胶囊层（例如 PrimaryCapsules 和 DigitCaps）之间进行路由。由于 Conv $1$ 输出为 $1$ D，因此其空间中没有一致的方向。因此，Conv $1$ 和 PrimaryCapsule 之间不使用路由。所有路由日志 ( $b_{ij}$ ) 都初始化为零。因此，最初胶囊输出 ( ${\bf u}_{i}$ ) 以相同的概率 ( $c_{ij}$ ) 发送到所有父胶囊 ( ${\bf v}_{0}...{\bf v}_{9}$ )。

我们的实现是在 TensorFlow 中实现的 (Abadi 等人 (2016))，并使用 Adam 优化器 (Kingma 和 Ba (2014)) 及其 TensorFlow 默认参数，包括指数衰减的学习率，以最小化等式中的边际损失之和。 4。

4.1 重构作为正则化方法

[Uncaptioned image] — Figure 3: Sample MNIST test reconstructions of a CapsNet with 3 routing iterations. $(l,p,r)$ represents the label, the prediction and the reconstruction target respectively. The two rightmost columns show two reconstructions of a failure example and it explains how the model confuses a $5$ and a $3$ in this image. The other columns are from correct classifications and shows that model preserves many of the details while smoothing the noise.

$(l,p,r)$	$(2,2,2)$	$(5,5,5)$	$(8,8,8)$	$(9,9,9)$	$(5,3,5)$	$(5,3,3)$
1cmInput



Output

Method	Routing	Reconstruction	MNIST (%)	MultiMNIST (%)
Baseline	-	-	$0.39$	$8.1$
CapsNet	1	no	$0.34_{\pm 0.032}$	-
CapsNet	1	yes	$0.29_{\pm 0.011}$	$7.5$
CapsNet	3	no	$0.35_{\pm 0.036}$	-
CapsNet	3	yes	$\bm{0.25}_{\pm 0.005}$	$\bm{5.2}$

Scale and thickness
Localized part
Stroke thickness
Localized skew
Width and translation
Localized part

R: $(2,7)$	R: $(6,0)$	R: $(6,8)$	R: $(7,1)$	*R: $(5,7)$	*R: $(2,3)$	R: $(2,8)$	R:P: $(2,7)$
L: $(2,7)$	L: $(6,0)$	L: $(6,8)$	L: $(7,1)$	L: $(5,0)$	L: $(4,3)$	L: $(2,8)$	L: $(2,8)$

R: $(8,7)$	R: $(9,4)$	R: $(9,5)$	R: $(8,4)$	*R: $(0,8)$	*R: $(1,6)$	R: $(4,9)$	R:P: $(4,0)$
L: $(8,7)$	L: $(9,4)$	L: $(9,5)$	L: $(8,4)$	L: $(1,8)$	L: $(7,6)$	L: $(4,9)$	L: $(4,9)$

胶囊之间的动态路由

摘要

1简介

2 如何计算胶囊的向量输入和输出

3 数字存在的保证金损失

4CapsNet架构

4.1 重构作为正则化方法

5 Capsules on MNIST

5.1 What the individual dimensions of a capsule represent

5.2 Robustness to Affine Transformations

6 Segmenting highly overlapping digits

6.1 MultiMNIST dataset

6.2 MultiMNIST results

7 Other datasets

8 Discussion and previous work

References

Appendix A How many routing iterations to use?