在分布外检测中使用特征范数的块选择方法

Yeonguk Yu, Sungho Shin, Seongju Lee, Changhyun Jun, and Kyoobine Lee
Gwangju Institute of Science and Technology
{yeon_guk, hogili89, lsj2121, junch9634}@gm.gist.ac.kr, kyoobinlee@gist.ac.kr
摘要

在推理阶段检测分布外 (OOD) 输入对于在现实世界中部署神经网络至关重要。 以前的方法通常依赖于从高度激活的特征图导出的网络的输出。 在本研究中,我们首先揭示了从最后一个块之外的其他块获得的特征图的范数可以更好地指示 OOD 检测。 受此启发,我们提出了一个简单的框架,其中包含FeatureNorm:特征图的范数和NormRatio:ID和OOD的FeatureNorm比率,用于衡量OOD检测性能每个块的。 特别是,为了选择提供ID的FeatureNorm和OOD的FeatureNorm之间最大差异的块,我们从ID训练样本创建拼图图像作为伪OOD并计算NormRatio,并选择具有最大值的块。 选择合适的块后,使用 FeatureNorm 进行 OOD 检测优于其他 OOD 检测方法,在 CIFAR10 基准上将 FPR95 降低高达 52.77%,在 ImageNet 基准上降低高达 48.53%。 我们证明了我们的框架可以推广到各种架构和块选择的重要性,这也可以改进以前的 OOD 检测方法。

1简介

神经网络已广泛应用于现实世界,例如自动驾驶汽车[9, 20]和医疗诊断[39, 7] 在现实世界中,神经网络经常遇到与数据不同的以前未见过的训练输入。 如果系统无法将这些输入识别为未知输入,则可能会产生危险的后果。 例如,医学诊断系统可以将未见过的疾病图像识别为已知疾病之一。 这就提出了分布外(OOD)检测的重要性,它使用户在现实世界中更安全地操作神经网络系统。

在实践中,网络的各种输出可以用作区分分布内(ID)和分布外(OOD)数据的指示符。 例如,使用输出概率[14]、校准输出概率[27]和输出能量[29]作为指标。 神经网络的输出通常使用特征提取器的特征向量和分类层的权重向量来计算。 众所周知,特征向量的范数可以作为输入图像质量[38,41,22]或认知水平[50]的指标。 因此,我们提出以下问题: 我们可以用特征的范数作为区分ID和OOD的指标吗?

Refer to caption
图1 ResNet18 的卷积块生成的特征图范数直方图。 在最后一个块(a)中,与倒数第二块(b)中的相比,ID(黑色)的范数很难与OOD(蓝色,橙色)分开。
Refer to caption
图2 我们提出的分布外检测框架的图示。 FeatureNorm 是指对块生成的给定特征图进行范数计算。 我们使用 ID 和伪 OOD(即拼图图像)的 NormRatio 来查找哪个块适合 OOD 检测 (a)。 在推理期间,对于给定的输入图像,OOD 分数是通过所选块 (b) 上的 FeatureNorm 计算的。 如果给定输入的 FeatureNorm 小于阈值,则给定输入被分类为 OOD。

在本文中,我们首先揭示了关于神经网络最后一个区块有时会因过度自信问题而恶化的关键观察结果[10, 11] 根据经验,我们表明 OOD 图像在使用 CIFAR10 训练的网络上高度激活最后一个块的滤波器(即大范数;参见图1,左),而低度激活倒数第二个块的滤波器(即,小范数;参见图1,右)。 因此,考虑过度激活的特征[44]和过度自信的输出[27]的OOD检测方法已经成功。 然而,我们发现与最后一个块相比,倒数第二个块中 OOD 和 ID 的特征图范数是相当可分离的。

这激发了一个简单有效的 OOD 检测框架,其中包含 (1) FeatureNorm:特征图的范数和 (2) NormRatio:FeatureNorm< 的比率/t2> 用于 ID 和 OOD。 在适合 OOD 检测的块的情况下,ID 的 FeatureNorm 很大,而 OOD 的 FeatureNorm 很小,因为它的过滤器被训练为在 ID 上激活[55, 1] 因此,我们使用NormRatio最大的块的FeatureNorm作为区分ID和OOD的指标。 虽然NormRatio直接代表了块的OOD检测性能,但我们无法在部署之前访问OOD。 为了选择提供 ID 的 FeatureNorm 和 OOD 的 FeatureNorm 之间最大差异的块,我们通过生成拼图来从 ID 训练样本创建伪 OOD [36]并用它们计算NormRatio,并且选择具有最大值的块而不访问OOD。 随后,我们计算给定测试图像的FeatureNorm以进行OOD检测。 所提出的 OOD 检测框架如图2所示。

我们对我们提出的框架进行实证和理论分析。 我们对常见的 OOD 检测基准进行了实验,结果表明我们的简单框架优于以前的 OOD 检测方法。 下面,我们总结了我们的主要成果和贡献:

  • 我们引入了FeatureNorm(特征图的范数)和NormRatio(ID和OOD的FeatureNorm之比)来选择用于OOD检测的块。 据我们所知,FeatureNormNormRatio是第一个探索并证明特征图范数可以作为OOD检测指标的技术。

  • 我们在通用基准上广泛评估了我们提出的框架,并在事后 OOD 检测方法中建立了最先进的性能。 我们的框架在 CIFAR10 基准上将 FPR95 降低了高达 52.77%,在 ImageNet 基准上将 FPR95 降低了高达 48.53%,优于最佳基准。

  • 我们提供消融和理论分析,以提高对我们框架的理解。 我们的分析证明了来自合适块的范数的重要性,它可以改进以前的 OOD 检测方法。

2 预赛

我们首先描述图像分类网络的监督学习问题的一般设置。 在一般设置中,分类网络针对给定的训练数据集 Din={(xi,yi)}i=1I 使用交叉熵损失进行训练,其中 xi3×W×H 是输入 RGB 图像,yi{1,2,,K} 是对应标签与K类类别。 如果 OOD 检测方法在训练阶段不修改任何内容,则该方法被视为事后方法。

分布外检测

在现实世界中部署网络时,如果网络正确分类已知图像并将 OOD 图像检测为“未知”,则用户可以信任该网络。 对于图像分类网络的 OOD 检测问题,当 x 语义上(例如,对象身份)或非语义上(例如,相机)时,给定的测试图像 x 被视为 OOD 图像图像的设置或风格)与 Din 的图像不同。 OOD 检测的决策是具有评分函数的二元分类,该评分函数为给定图像 x 生成 ID 性。 OOD检测研究的主要目标是找到能够有效区分ID样本和OOD样本的评分函数。

卷积神经网络的要素

卷积神经网络(CNN)通常由特征提取器和分类层组成。 特征提取器使用其块将 RGB 图像编码为具有 M 通道 zM×W×H 的特征图,其中 WH 指的是每个特征图的宽度和高度。 此外,分类层将特征图 z 编码为 logit 向量 v。 CNN 架构有多种,例如 AlexNet[24]、VGG[43]、ResNet[12] 和 MobileNet[ 16] 在本文中,我们将 VGG 架构中的块视为具有激活函数的单个卷积层的集合,将 ResNet 和 MobileNet 中的块视为残差块。

请注意,CNN 的输出 logit 和输出概率通常计算如下:

vi=Wif=f2Wi2cos(θi),
pi=exp(vi)kexp(vk),

其中,||||2vifWi分别表示 L2正态、对数 v 的第 i 个元素、特征向量和第 i 个等级权重。 另外,θi指的是特征向量fi类权重向量Wi之间的角度。 由于输出概率分布是通过在 logit 上应用 softmax 函数来计算的,较大的 L2-norm 特征和较大的 L2-norm 类权重会产生更硬的概率分布[52 ] 因为交叉熵损失迫使网络为所有训练数据产生 1.0 的概率,所以特征向量的范数和类权重的范数被迫很大。

3方法

3.1 OOD检测框架概述

我们的 OOD 检测框架基于这样的思想:从适合 OOD 检测的块获得的特征图范数可以是一个很好的指标,并且可以根据 ID 训练样本生成的 ID 和伪 OOD 的比率来选择合适的块。 我们在图 2 中说明了我们的框架。 训练完成后,我们通过NormRatio选择块进行OOD检测(图2;左)。 然后,我们在推理阶段使用从所选特征图获得的特征图FeatureNorm的范数进行OOD检测(图2;右)。 具体来说,我们首先根据 ID 训练样本生成拼图图像作为伪 OOD,并计算训练样本的 NormRatio 和相应的伪 OOD。 由于拼图游戏图像破坏了对象信息,因此我们认为这些图像可以被视为语义转移的 OOD。 因此,ID训练样本和伪OOD(即拼图图像)的NormRatio适合寻找产生FeatureNorm的块,该块可以在推理过程中分离ID和OOD样本阶段。 请注意,我们提出的 OOD 检测框架不会修改网络的训练阶段,一旦输入图像在推理阶段被检测为分布图像,我们始终可以获得原始输出,而不会影响分类精度。

3.2 FeatureNorm:特征图的范数

我们认为FeatureNorm(特征图的范数)是给定图像的块激活级别的指标。 在实践中,我们考虑使用特征提取器和分类层进行 K 类别图像分类的预训练神经网络。 我们用zM×W×H表示由特征提取器的块获得的特征图。 特征图zi1×W×H各通道的范数计算如下:

ai=wWhHmax(zi(w,h),0)2, (1)

其中 zi(w,h) 是特征映射 zi 的第 wh 元素。 该方程可以解释为通过ReLU函数修正的zi的Frobenius范数。 我们利用 ReLU 函数来消除特征图负元素的影响,这可以看作是滤波器的停用。 因此,ai表示对于所获得的特征图z的第i通道的激活水平。

随后,块B的特征图的通道平均范数计算如下:

fFeatureNorm(x;B)=1Mm=1Mam, (2)

其中 fFeatureNorm(x;B) 是给定图像 x 和块 B 的激活级别。 在推理阶段,可以通过阈值γ使用FeatureNorm和合适的块Bs进行OOD检测:

G(x;θ)={IDif fFeatureNorm(x;Bs)γOODelse, (3)

其中,通常选择阈值γ,以便95%的ID数据被正确分类为ID(即,真阳性率为95%),并且θ指的是神经网络。

3.3 NormRatio:区块适用性的衡量标准

我们认为NormRatio(ID FeatureNorm和伪OOD FeatureNorm的比率)是块适合OOD检测的指标。 NormRatio直接表示块对于OOD检测的适用性,因为合适的块将产生大IDFeatureNorm和小OODFeatureNorm 在实践中,用于选择块的NormRatio的主要问题是我们无法在部署之前访问OOD。 因此,我们需要生成伪OOD,它可以代表推理阶段可能出现的OOD,以计算NormRatio 我们认为,使用 NormRatio 来选择能够代表最难 OOD 的伪 OOD 块可以获得最佳的 OOD 检测结果,并且由于已知语义移位的 OOD 图像是最难检测的 OOD。检测[17],我们生成 3×3 拼图图像,该图像在语义上进行了转换,如 [36] 中使用训练样本所做的那样。 我们使用 NormRatio 的选择算法被描述为算法 1

算法1 使用 NormRatio 进行块选择
Input: Block list {B1,BN}, training data {xi,yi}i=1I
while Bn{B1,BN} do
while iI do
Create jigsaw image:
xi^Jigsaw(xi)
Compute NormRatio:
R(n,i)=fFeatureNorm(xi;Bn)fFeatureNorm(x^i;Bn)
end while
Rn1IΣiR(n,i)
end while
sargmaxn(Rn)
Return Bs

4实验

设置

我们使用常用的 CNN 架构:ResNet18[12]、VGG11[43] 和 WideResNet[58],深度为 28,宽度为 10 (WRN28 )用于 CIFAR10[23] 基准。 ResNet18 和 VGG11 使用批量大小 128 进行 100 个时期的训练,权重衰减为 0.0005。 WRN28 使用批量大小 128 进行了 200 个时期的训练,权重衰减为 0.0005。 在所有训练中,均使用动量为 0.9、初始学习率为 0.1 的 SGD 优化器,但 VGG11 使用初始学习率为 0.05。 ResNet18 和 VGG11 的学习率在 50、75、90 个训练周期时降低了 10 倍,而 WRN28 在 100、150 个训练周期时学习率降低了 10 倍。 此外,我们还使用 Pytorch 为 ImageNet 提供的预训练 ResNet50[12]、VGG16[43] 和 MobileNetV3_large[16] (MobileNetV3) 架构[4] 基准。 在测试时,对于 CIFAR10 网络,所有图像的大小都调整为 32×32,对于 ImageNet,所有图像的大小都调整为 256×256,并且中心裁剪为 224×224 的大小网络。 我们使用 SVHN[34]、纹理[2]、LSUN-crop[56](LSUN(c))、LSUN-resize[56](LSUN(r))、iSUN[53] 和 Places365[59] 作为 CIFAR10 基准的 OOD 数据集。 我们使用 iNaturalist[49]、SUN[51]、PLACE[59] 和纹理[2] ,由 Huang et al. [18] 采样,作为 OOD 数据集用于 ImageNet 基准测试。

评估指标

我们使用 OOD 检测研究中最广泛采用的两个指标来衡量 OOD 检测的质量:(1) 接收者操作特征曲线下面积 (AUROC; [3, 8]) 和 (2 ) 假阳性率为 95% 真阳性率 (FPR95; [27])。 AUROC 通过改变 OOD 检测阈值来绘制 ID 数据的真阳性率与 OOD 数据的假阳性率。 因此,它可以表示 ID 样本比 OOD 样本得分更高的概率。 FPR95 是假阳性率阈值,设置为产生 95% 的真阳性率。 因此,它可以代表应用程序要求召回率为95%时的OOD检测性能。 综上所述,较高的AUROC和较低的FPR95代表OOD检测方法的质量较好。

与之前方法的比较

我们将我们的框架与其他事后 OOD 检测方法进行比较,后者使用交叉熵损失根据 ID 数据训练的模型计算 OOD 分数。 尽管 ODIN[27] 需要 ID 和 OOD 验证集来进行超参数设置,但我们在没有 OOD 数据的情况下设置这些超参数,如 [17] 中那样,以便在不访问 OOD 的情况下进行公平比较。 因此,我们将我们的方法与最大 Softmax 概率 (MSP; [14])、ODIN[27]、Energy[29] 进行比较、Energy+ReAct[44] 和 Energy+DICE[45]

ID Architecture Selected Block Name Output Size Depth
CIFAR10 ResNet18 Block 4.1 512 × 4 × 4 N-1
WRN28 Block 3.3 640 × 8 × 8 N-1
VGG11 Layer 7 512 × 4 × 4 N-2
ImageNet ResNet50 Block 4.2 2048 × 7 × 7 N-1
VGG16 Layer 13 512 × 14 × 14 N
MobileNetV3 Block 17 960 × 7 × 7 N
表1 每种架构所选模块的摘要。 深度 N 代表最后一个块,而深度 1 代表第一个块。

使用 NormRatio 进行 OOD 检测的块选择

我们通过使用 ID 和伪 OOD 的 NormRatio 进行块选择来评估所提出的 FeatureNorm 的 OOD 检测性能。 伪 OOD 是从每个 ID 样本生成的 3×3 拼图图像。 网络训练完成后,我们使用算法 1 计算每个块的 NormRatio 由于实验使用了各种架构,我们在表1中总结了块选择的结果。 我们发现我们的方法一致地为每个架构选择块。 例如,在所有五个试验中,ResNet18、WRN28 和 VGG11 都选择了 Block 4.1、Block 3.3 和 Layer 7。

OOD
SVHN Textures LSUN© LSUN® iSUN Places365 Average
Architecture Method FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑
MSP[14] 52.12 92.20 59.47 89.56 32.83 95.62 48.35 93.07 50.30 92.58 60.70 88.42 50.63 91.91
ODIN[27] 33.83 93.03 45.49 90.01 7.29 98.62 20.05 96.56 23.09 96.01 45.06 89.86 29.14 94.02
Energy[29] 30.47 94.05 45.83 90.37 7.21 98.63 23.62 95.93 27.14 95.34 43.67 90.29 29.66 94.10
Energy+ReAct[44] 40.54 90.54 48.61 88.44 15.12 96.86 27.01 94.74 30.57 93.95 44.99 89.37 34.47 92.32
Energy+DICE[45] 25.95 94.66 47.22 89.82 3.83 99.26 27.70 95.01 31.07 94.42 49.28 88.08 30.84 93.54
ResNet18 FeatureNorm (ours) 7.13 98.65 31.18 92.31 0.07 99.96 27.08 95.25 26.02 95.38 62.54 84.62 25.67 94.36
MSP[14] 42.10 91.85 53.30 87.45 24.85 96.37 37.81 93.71 40.11 93.05 50.73 88.58 41.49 91.84
ODIN[27] 37.08 88.36 47.58 82.85 6.14 98.65 20.51 95.04 22.95 94.22 41.03 86.57 29.22 90.95
Energy[29] 33.11 90.54 46.06 85.09 5.86 98.76 22.68 94.90 25.12 94.17 39.08 88.50 28.65 91.99
Energy+ReAct[44] 98.31 39.94 91.85 60.80 96.76 57.11 77.63 80.15 79.48 78.67 73.29 77.98 86.22 65.78
Energy+DICE[45] 37.84 86.99 50.77 79.70 2.54 99.43 26.30 92.89 28.30 92.14 43.46 84.65 31.53 89.30
WRN28 FeatureNorm (ours) 3.83 99.18 14.23 97.06 0.32 99.81 8.13 98.32 5.98 98.71 48.69 90.91 13.53 97.33
MSP[14] 68.07 90.02 63.86 89.37 46.63 93.73 70.19 86.29 71.81 85.71 68.08 87.25 64.77 88.73
ODIN[27] 53.84 92.23 48.09 91.94 19.95 97.01 54.29 89.47 56.61 88.87 52.34 89.86 47.52 91.56
Energy[29] 53.13 92.26 47.04 92.08 18.51 97.20 53.02 89.58 55.39 88.97 51.67 89.95 46.46 91.67
Energy+ReAct[44] 58.81 83.28 51.73 87.47 23.40 94.77 47.19 89.68 51.30 88.07 50.47 87.39 47.15 88.44
Energy+DICE[45] 47.81 93.27 50.95 91.77 16.73 97.06 64.26 87.83 65.83 87.43 59.23 88.53 50.80 90.98
VGG11 FeatureNorm (ours) 8.84 98.24 24.62 95.11 3.38 99.36 71.17 83.12 62.80 86.05 65.25 85.20 39.34 91.18
表2 CIFAR10 基准上的 OOD 检测性能。 表中的所有方法在训练和验证期间都无法访问 OOD 数据。 最好和第二好的结果分别用粗体下划线表示。 所有值都是五次运行的平均值百分比。

5结果

5.1 CIFAR10 基准测试结果

在表2中,我们报告了使用各种事后检测方法对 ResNet18、WRN28 和 VGG11 架构进行 OOD 检测的性能。 性能是使用 FPR95 和 AUROC 在六个 OOD 数据集上计算得出的。 我们提出的方法在 ResNet18 和 WRN28 上实现了最佳平均性能,在 VGG11 上实现了最佳 FPR95。 请注意,与 ResNet18、WRN28 和 VGG11 上的第二好结果相比,我们的方法将平均 FPR95 分别降低了 13.45%、52.77% 和 15.33%。

如表2所示,我们的方法在三个 OOD 数据集上始终优于其他方法:SVHN、Textures 和 LSUN(c)。 此外,我们发现我们的方法弱于 LSUN(r)、iSUN 和 Places365。 我们认为,我们的方法能够更强地检测来自 SVHN、纹理和 LSUN(c) 的图像,因为与 CIFAR10[28] 相比,其图像复杂度较低,并且图像的激活累积与早期阶段不同。网络到后期(参见6.2)。 相比之下,LSUN(r)和iSUN具有较大的复杂度[28],这使得其在浅层上的激活较大,并且在使用更深的架构(即WRN28)时更容易被检测到。 最后,Places365 具有与 CIFAR10[28] 类似的复杂性,这可以解释为 Places365 中的图像具有类似的低级抽象信息,并且与 ID 相比在语义上发生了偏移(即语义偏移 OOD[17 ])。

5.2 ImageNet 基准测试结果

OOD
iNaturalist SUN PLACES Textures Average
Architecture Method FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑ FPR95↓ AUROC↑
MSP†[14] 54.99 87.74 70.83 80.86 73.99 79.76 68.00 79.61 66.95 81.99
ODIN†[27] 47.66 89.66 60.15 84.59 67.89 81.78 50.23 85.62 56.48 85.41
Energy†[29] 55.72 89.95 59.26 85.89 64.92 82.86 53.72 85.99 58.41 86.17
Energy+ReAct†[44] 20.38 96.22 24.20 94.20 33.85 91.58 47.30 89.80 31.43 92.95
Energy+DICE†[45] 25.63 94.49 35.15 90.83 46.49 87.48 31.72 90.30 34.75 90.78
ResNet50 FeatureNorm (Ours) 22.01 95.76 42.93 90.21 56.80 84.99 20.07 95.39 35.45 91.59
MSP[14] 56.72 87.26 75.66 78.31 77.89 77.60 64.84 81.66 68.78 81.21
ODIN[27] 42.66 92.13 61.31 86.51 67.33 83.87 44.57 89.82 53.97 88.08
Energy[29] 44.60 91.77 59.34 86.82 66.27 83.95 43.90 89.94 53.53 88.12
Energy+ReAct[44] 99.94 34.50 99.87 35.01 99.25 37.54 96.45 49.12 98.88 39.04
Energy+DICE[45] 49.70 90.03 58.42 86.71 68.97 83.04 38.95 90.66 54.01 87.61
VGG16 FeatureNorm (Ours) 16.78 96.69 28.09 94.37 41.78 90.21 23.53 95.05 27.55 94.08
MSP[14] 56.04 87.31 74.19 79.08 77.03 78.23 65.00 81.64 68.07 81.57
ODIN[27] 39.93 93.10 55.22 87.87 64.11 85.09 38.28 91.24 49.39 89.33
Energy[29] 54.04 91.15 68.13 85.89 69.37 83.91 54.91 88.88 61.61 87.46
Energy+ReAct[44] 40.98 91.17 59.82 84.80 63.07 81.53 58.78 85.17 55.66 85.67
Energy+DICE[45] 60.94 84.72 63.4 82.7 75.88 77.88 42.98 87.36 60.80 83.17
MobileNetV3 FeatureNorm (Ours) 33.10 92.71 42.41 88.60 58.46 81.79 8.60 98.26 35.64 90.34
表3 ImageNet 基准上的 OOD 检测性能。 表中的所有方法在训练和验证期间都无法访问 OOD 数据。 最好和第二好的结果分别用粗体下划线表示。 所有值都是通过 Pytorch 提供的预训练网络单次运行获得的。 †表示该结果由Sun.[45]报告。

在表3中,我们报告了 ResNet50、VGG16 和 MobileNetV3 架构的 OOD 检测性能。 性能是使用 FPR95 和 AUROC 在四个数据集上计算得出的。 我们提出的方法在 VGG16 和 MobileNetV3 架构上实现了最佳平均性能。 请注意,与使用 VGG16 和 MobileNetV3 架构时的第二佳结果相比,我们的方法将 ImageNet 基准上的 FPR95 降低了 48.53% 和 27.84%。 相反,我们发现与其他方法相比,我们的方法在 ResNet50 架构上效果不佳。 我们认为 ResNet 的带有批量归一化层的块结构减少了 ID 和 OOD 样本之间的分离差距(参见6.4)。

请注意,我们的方法在检测纹理数据集方面始终优于其他方法。 我们认为,与其他 OOD 数据集相比,纹理图像是远 OOD[54] 的,并且具有大量低级复杂性图像,并且激活从网络的早期阶段累积到不同后期(参见6.2)。 此外,与 ImageNet 相比,iNaturalist 通常具有更高复杂度的图像。 因此,深度网络可以将 iNaturalist 检测为 OOD,这与 CIFAR10 基准上的 VGG11 和 ResNet18 不同。 最后,与 ImageNet 相比,SUN 和 PLACES 具有相似的复杂度,这意味着 OOD 图像在语义上发生了偏移,难以检测[17]

6讨论

6.1 NormRatio 的效果

Refer to caption
图3 NormRatio 使用在每个块上计算的 ID 和伪 OOD(带有方形标记的实线)以及使用 FeatureNorm 进行 OOD 检测的性能 在每个块上(灰色条)。 它表明,当使用产生最大的块时,可以获得最佳的 OOD 检测性能。 NormRatio.

我们使用 ID 训练样本和伪 OOD(从 ID 图像生成的拼图游戏)计算 NormRatio,以选择合适的块进行 OOD 检测。 我们的见解是,具有最大 NormRatio 的块适合检测伪 OOD(即拼图游戏),并且在推理阶段也可以看到其他 OOD。 为了找出NormRatio可以代表块的OOD检测性能,我们计算每个块的NormRatio和OOD检测性能。 在图3中,我们表明,产生最大NormRatio的块可以实现最佳的OOD检测性能。 此外,在图 4 中,我们显示了给定 ID(黑色)、伪 OOD(灰色)和各种 OOD(SVHN:红色,地点:蓝色,LSUN)的 FeatureNorm (r):橙色)。 我们看到伪 OOD(灰色)的 FeatureNorm 充当具有足够低级抽象(蓝色、橙色)的 OOD 图像的 FeatureNorm

6.2 FeatureNorm的效果

为了证明FeatureNorm作为OOD检测指标的有效性,我们通过图4中的块展示了各种输入的FeatureNorm的变化。 在图4中,我们证明了低复杂度的OOD图像(SVHN)的范数在除最后一个块之外的所有块上始终较低。 另一方面,高复杂度 OOD 图像 (LSUN(r)) 的 FeatureNorm 高于浅层块中的 ID,因为网络的浅层块充当边缘检测器[1, 55 ] 并且高级复杂性图像往往具有大量低级抽象。 此外,高复杂度图像在浅层块中获得较大的FeatureNorm,FeatureNorm会减少,因为它无法激活充当高级抽象检测器的更深的块。 我们认为,像 VGG11 或 ResNet18 这样的网络很难以高级别复杂度分离 ID 和 OOD,因为与 WRN28 相比,它具有一些深层块。 结果,低质量ID图像获得低FeatureNorm,高质量ID图像或具有高级语义信息的OOD图像获得高FeatureNorm,如图5

Refer to caption
图4 使用给定 ID(黑色)、伪 OOD(灰色)和 OOD 图像(SVHN:红色,Places:蓝色,LSUN(r):橙色)的每个块计算的 FeatureNorm 我们表明,高复杂度图像(LSUN(r))激活浅层块,而低复杂度图像(SVHN)不激活除最后一个块之外的块。 我们发现拼图图像代表了没有语义信息的高复杂度 OOD 图像。
Refer to caption
图5 我们提出的 OOD 检测框架的示例结果,该框架具有适用于 ImageNet 的 VGG16 架构。 我们证明低复杂度图像获得低 FeatureNorm,而高复杂度图像获得高 FeatureNorm 请注意,一些 OOD 图像实际上包含 ID 对象(例如丁丁、王企鹅、蜂窝)。

6.3 使用所选块进行输出校准

当网络的最后一个块为 ID 和 OOD 产生高范数时,网络的输出会恶化,我们认为可以通过用所选块的范数替换最后一个块的范数来校准网络输出。 我们在 ResNet18、WRN28 和 VGG11 上评估了 OOD 检测方法,这些方法因最后一个块过于自信而受到影响,有替换和没有替换。 在表4中,我们表明,可以通过选择合适的 OOD 检测范数来改进利用网络输出的现有 OOD 检测方法。 这表明当前网络在过度自信的最后一个块的 OOD 检测中表现不佳,并且可以通过块选择来校准。

Architecture Method w/o the selected norm w/ the selected norm
FPR95↓ AUROC↑ FPR95↓ AUROC↑
ResNet18 MSP 50.63 91.91 35.56 94.66
ODIN 29.14 94.02 15.99 97.03
Energy 29.66 94.10 17.59 96.69
WRN28 MSP 41.49 91.84 38.38 93.59
ODIN 29.22 90.95 23.71 94.75
Energy 28.65 91.99 24.01 94.87
VGG11 MSP 64.77 88.73 56.57 90.55
ODIN 47.52 91.56 35.62 93.50
Energy 46.46 91.67 35.42 93.58
表4 对其他先前 OOD 检测方法进行的消融研究,有或没有选定的标准。 我们证明,用所选块的范数替换最后一个块的范数可以提高以前方法的性能。 结果是五次运行的平均值。

6.4 区块结构导致过度自信

尽管FeatureNormNormRatio对OOD检测有影响,但我们的方法无法在Resnet18和ResNet50架构上达到最佳结果,并且我们认为残差块的结构是其原因。 特别是,我们证明了批量归一化(BN)层[19]的位置会导致表5中的大OODFeatureNorm 注意,ResNet[12]块中层的顺序是Conv-BN-ReLU,但WRN中是BN-ReLU-Conv [58] 实现更快的训练和更高的准确性。 有报道称 BN 层会导致过度自信[10]和过度激活[44],因为它通过使用移动平均值和移动方差标准化输入元素来计算输出ID,输出元素的绝对值变大。 然后,残差块的输入和 BN 输出之间的逐元素加法(即 x+f(x),其中 f() 是给定输入特征图 x 的块操作) >) 将使输出特征图的 FeatureNorm 变得更大,特别是对于产生未经 ReLU 校正的更高范数的高复杂性图像。 然而,具有 BN-ReLU-Conv 阶数的块会产生较低的 OOD FeatureNorm,因为卷积层的滤波器对于 OOD 输入的激活程度较低;因此,对于给定的 OOD,输出特征图的 FeatureNorm 较小。 因此,我们认为块顺序是 OOD 检测的一个重要方面。 在表5中,我们表明,块顺序为BN-ReLU-Conv的ResNet18优于块顺序为Conv-BN-ReLU的ResNet18 >。

Conv-BN-ReLU BN-ReLU-Conv
OOD FPR95↓ AUROC↑ FPR95↓ AUROC↑
SVHN 7.13 98.65 6.92 98.68
Textures 31.18 92.31 36.89 91.91
LSUN(c) 0.07 99.96 0.50 99.82
LSUN(r) 27.08 95.25 17.93 96.97
iSUN 26.02 95.38 14.62 97.39
Places365 62.54 84.62 49.30 90.76
Average 25.67 94.36 21.03 95.92
表5 具有不同块顺序的两种 ResNet18 架构之间的 OOD 检测性能比较。 Conv-BN-ReLU指的是ResNet18的基本块顺序,BN-ReLU-Conv指的是WRN28的块顺序,我们认为这对于OOD来说是更好的块顺序检测。 它表明,BN-ReLU-Conv 块顺序在检测高复杂度 OOD 图像(LSUN(r)、iSUN、Places365)方面优于原始块顺序。 因此,ResNet18 和 ResNet50 无法充分利用所提出的框架。 结果是五次运行的平均值。

7相关工作

7.1 分发外检测

为了在推理阶段使用交叉熵损失通过预训练网络检测 OOD 样本,Hendrycks 等人 [14]提出了最大 softmax概率 (MSP),基于他们的观察,即分类器对 OOD 样本的置信度往往低于对 ID 样本的置信度。 类似地,ODIN[27]是MSP的增强版,它应用输入预处理和温度缩放两种策略来分离ID样本和OOD样本的置信度,这从而提高 OOD 检测性能。 另一方面,Lee 等人. [26]提出在原型特征向量、训练数据构建和特征之间使用Mahalanobis距离用于检测 OOD 样本的给定输入样本的向量。 此外,Liu等人.[29]提出使用能量函数进行OOD检测。 最近,Sun 等人. [44]提出了一种简单的技术,根据 OOD 特征很少的观察结果,剪辑生成特征的激活。超大规模的激活。 此外,Sun等人.[45]提出了一种权重选择方法来选择超参数化网络的重要权重,并且可以分离能量得分ID 和 OOD 之间。 上述方法可用于任何现成的网络。 尽管任何经过训练的网络都可以使用它的便利性,但它对 OOD 检测性能的提高是有限的。 我们的方法也属于事后方法的范畴,我们在本文中将我们的方法与其他事后方法进行了比较。

OOD 检测的另一个分支旨在训练网络以提高其 OOD 检测性能。 例如,Hendrycks等人[15]提出了异常值暴露(outlier Exposure),它训练网络对异常值数据示例的置信度较低,并发现它导致网络更好地校准并增强 OOD 检测性能。 此外,Papadopoulos 等人[37]通过置信度控制改进了异常值暴露,以改善网络的校准。 Macêdo 等人[30]提出了一种新颖的损失来替代交叉熵损失,以遵循最大熵原理[47] 上述使用异常值暴露的方法可以大幅提高 OOD 检测性能,但其缺点是需要异常值数据集,而这在实践中很难需要。 已经有一些研究利用自我监督学习来提高绩效。 例如,Tack等人[46]提出了一种基于模型表示知识的新颖性检测方法,该方法是通过对比学习来学习的的视觉表征。 此外,Sehwang 等人. [42]提出使用基于马哈拉诺比斯距离的检测,使用通过自监督学习方法训练的模型。 然而,最近这些方法的主要缺点是它不能与预训练的网络一起使用,并且可能会降低分类精度。 在本文中,我们没有将性能与这些方法进行比较,因为我们的方法是事后方法。

7.2 神经网络的校准

我们更喜欢在现实世界中部署神经网络时使用经过良好校准的网络,因为经过校准的网络会对给定的看不见的输入产生较低的置信度。 然而,有报告称,深度神经网络,尤其是现代架构,由于过度拟合和批量归一化而校准不佳[10] 校准方法可以分为事后方法(利用预训练模型的重新校准功能)和事前方法(利用额外的训练程序)。 使用重新校准方法改进模型校准的最基本方法是 logit[10] 的温度缩放。 此外,Gupta 等人. [11]建议利用基于样条的重新校准函数,该函数将 logit 映射到校准的类别概率。 这些方法是使用保留的校准集来计算校准方法的超参数来执行的。 训练过程的校准方法使用数据增强[48, 57]或修改训练损失[25,33,21] 这些校准方法可能有助于 OOD 检测研究,因为校准良好的网络应该产生较低的 OOD 概率。

7.3 神经网络的特征

众所周知,对于未见过的图像,特征向量的范数会较低,因为特征提取器在训练阶段被迫产生更高的范数[50] 另外,有报道指出,人脸识别中特征向量的范数代表了输入图像的质量[41,40,22],未知样本的特征向量的范数为通常低于已知的[5, 50] 然而,众所周知,网络很容易被无法识别的图像[35, 32, 13]或对抗性攻击[31, 6]所欺骗,这意味着过滤器网络的功能可以通过看不见的图像来激活。 此外,直接用于通过点积计算训练logit的特征向量在其阶段由于交叉熵损失而被迫变大[52] 由于我们的工作利用了特征图的范数,因此我们相信可以通过考虑上述工作来改进我们的框架。

8结论

我们提出了一个简单的 OOD 检测框架,由两个操作组成:(1)FeatureNorm,它是来自块的特征图的范数,以及(2)NormRatio,它是给定 ID 和 OOD 图像的 FeatureNorm 比率。 我们证明,可以在不访问 OOD 的情况下选择适合 OOD 检测的块,方法是选择产生最大 NormRatio 的块(ID 和从 ID 生成的伪 OOD),并使用 FeatureNorm<用于 OOD 检测的合适块的 /t1> 优于现有方法。 我们提供实证和理论分析来帮助理解我们的框架。 大量的实验表明我们的框架也可以改进其他现有方法。 我们希望我们的研究能够帮助解决神经网络的过度自信问题。

致谢

该工作得到了MSIT/IITP ICT研发计划[2020-0-00857,开发云机器人智能增强、共享和框架技术以集成和增强多个机器人的智能]和信息与通信技术研究所的部分支持由韩国政府 (MSIT) 资助的规划与评估 (IITP) 赠款(编号:2017) 2022-0-00951,开发不确定性感知智能体(通过提问进行学习)。

参考

  • [1] Saad Albawi, Tareq Abed Mohammed, and Saad Al-Zawi. Understanding of a convolutional neural network. In 2017 international conference on engineering and technology (ICET), pages 1–6. Ieee, 2017.
  • [2] M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, , and A. Vedaldi. Describing textures in the wild. In Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2014.
  • [3] Jesse Davis and Mark Goadrich. The relationship between precision-recall and roc curves. In Proceedings of the 23rd international conference on Machine learning, pages 233–240, 2006.
  • [4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
  • [5] Akshay Raj Dhamija, Manuel Günther, and Terrance Boult. Reducing network agnostophobia. Advances in Neural Information Processing Systems, 31, 2018.
  • [6] Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Jun Zhu, Xiaolin Hu, and Jianguo Li. Boosting adversarial attacks with momentum. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 9185–9193, 2018.
  • [7] Andre Esteva, Katherine Chou, Serena Yeung, Nikhil Naik, Ali Madani, Ali Mottaghi, Yun Liu, Eric Topol, Jeff Dean, and Richard Socher. Deep learning-enabled medical computer vision. NPJ digital medicine, 4(1):1–9, 2021.
  • [8] Tom Fawcett. An introduction to roc analysis. Pattern recognition letters, 27(8):861–874, 2006.
  • [9] Angelos Filos, Panagiotis Tigkas, Rowan Mcallister, Nicholas Rhinehart, Sergey Levine, and Yarin Gal. Can autonomous vehicles identify, recover from, and adapt to distribution shifts? In Hal Daumé III and Aarti Singh, editors, Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pages 3145–3153. PMLR, 13–18 Jul 2020.
  • [10] Chuan Guo, Geoff Pleiss, Yu Sun, and Kilian Q Weinberger. On calibration of modern neural networks. In International Conference on Machine Learning, pages 1321–1330. PMLR, 2017.
  • [11] Kartik Gupta, Amir Rahimi, Thalaiyasingam Ajanthan, Thomas Mensink, Cristian Sminchisescu, and Richard Hartley. Calibration of neural networks using splines. In International Conference on Learning Representations, 2021.
  • [12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.
  • [13] Matthias Hein, Maksym Andriushchenko, and Julian Bitterwolf. Why relu networks yield high-confidence predictions far away from the training data and how to mitigate the problem. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 41–50, 2019.
  • [14] Dan Hendrycks and Kevin Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In Proceedings of International Conference on Learning Representations, 2017.
  • [15] Dan Hendrycks, Mantas Mazeika, and Thomas Dietterich. Deep anomaly detection with outlier exposure. In International Conference on Learning Representations, 2019.
  • [16] Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, et al. Searching for mobilenetv3. In Proceedings of the IEEE/CVF international conference on computer vision, pages 1314–1324, 2019.
  • [17] Yen-Chang Hsu, Yilin Shen, Hongxia Jin, and Zsolt Kira. Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10951–10960, 2020.
  • [18] Rui Huang and Yixuan Li. Mos: Towards scaling out-of-distribution detection for large semantic space. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
  • [19] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning, pages 448–456. PMLR, 2015.
  • [20] Joel Janai, Fatma Güney, Aseem Behl, Andreas Geiger, et al. Computer vision for autonomous vehicles: Problems, datasets and state of the art. Foundations and Trends® in Computer Graphics and Vision, 12(1–3):1–308, 2020.
  • [21] Archit Karandikar, Nicholas Cain, Dustin Tran, Balaji Lakshminarayanan, Jonathon Shlens, Michael C Mozer, and Becca Roelofs. Soft calibration objectives for neural networks. Advances in Neural Information Processing Systems, 34:29768–29779, 2021.
  • [22] Minchul Kim, Anil K Jain, and Xiaoming Liu. Adaface: Quality adaptive margin for face recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022.
  • [23] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. 2009.
  • [24] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6):84–90, 2017.
  • [25] Aviral Kumar, Sunita Sarawagi, and Ujjwal Jain. Trainable calibration measures for neural networks from kernel mean embeddings. In International Conference on Machine Learning, pages 2805–2814. PMLR, 2018.
  • [26] Kimin Lee, Kibok Lee, Honglak Lee, and Jinwoo Shin. A simple unified framework for detecting out-of-distribution samples and adversarial attacks. Advances in neural information processing systems, 31, 2018.
  • [27] Shiyu Liang, Yixuan Li, and R Srikant. Enhancing the reliability of out-of-distribution image detection in neural networks. In 6th International Conference on Learning Representations, ICLR 2018, 2018.
  • [28] Ziqian Lin, Sreya Dutta Roy, and Yixuan Li. Mood: Multi-level out-of-distribution detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 15313–15323, 2021.
  • [29] Weitang Liu, Xiaoyun Wang, John Owens, and Yixuan Li. Energy-based out-of-distribution detection. Advances in Neural Information Processing Systems, 2020.
  • [30] David Macêdo, Tsang Ing Ren, Cleber Zanchettin, Adriano L. I. Oliveira, and Teresa Ludermir. Entropic out-of-distribution detection: Seamless detection of unknown examples. IEEE Transactions on Neural Networks and Learning Systems, pages 1–15, 2021.
  • [31] Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083, 2017.
  • [32] Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, and Pascal Frossard. Deepfool: a simple and accurate method to fool deep neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2574–2582, 2016.
  • [33] Jishnu Mukhoti, Viveka Kulharia, Amartya Sanyal, Stuart Golodetz, Philip Torr, and Puneet Dokania. Calibrating deep neural networks using focal loss. Advances in Neural Information Processing Systems, 33:15288–15299, 2020.
  • [34] Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y Ng. Reading digits in natural images with unsupervised feature learning. 2011.
  • [35] Anh Nguyen, Jason Yosinski, and Jeff Clune. Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 427–436, 2015.
  • [36] Mehdi Noroozi and Paolo Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. In European conference on computer vision, pages 69–84. Springer, 2016.
  • [37] Aristotelis-Angelos Papadopoulos, Mohammad Reza Rajati, Nazim Shaikh, and Jiamian Wang. Outlier exposure with confidence control for out-of-distribution detection. Neurocomputing, 441:138–150, 2021.
  • [38] Connor J. Parde, Carlos Domingo Castillo, Matthew Q. Hill, Y. Ivette Colón, Swami Sankaranarayanan, Jun-Cheng Chen, and Alice J. O’Toole. Deep convolutional neural network features and the original image. ArXiv, abs/1611.01751, 2016.
  • [39] Eduardo HP Pooch, Pedro Ballester, and Rodrigo C Barros. Can we trust deep learning based diagnosis? the impact of domain shift in chest radiograph classification. In International Workshop on Thoracic Image Analysis, pages 74–83. Springer, 2020.
  • [40] Zhuwei Qin, Fuxun Yu, Chenchen Liu, and Xiang Chen. How convolutional neural networks see the world—a survey of convolutional neural network visualization methods. Mathematical Foundations of Computing, 1(2):149, 2018.
  • [41] Rajeev Ranjan, Carlos D Castillo, and Rama Chellappa. L2-constrained softmax loss for discriminative face verification. arXiv preprint arXiv:1703.09507, 2017.
  • [42] Vikash Sehwag, Mung Chiang, and Prateek Mittal. Ssd: A unified framework for self-supervised outlier detection. In International Conference on Learning Representations, 2021.
  • [43] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
  • [44] Yiyou Sun, Chuan Guo, and Yixuan Li. React: Out-of-distribution detection with rectified activations. In Advances in Neural Information Processing Systems, 2021.
  • [45] Yiyou Sun and Yixuan Li. Dice: Leveraging sparsification for out-of-distribution detection. In European Conference on Computer Vision, 2022.
  • [46] Jihoon Tack, Sangwoo Mo, Jongheon Jeong, and Jinwoo Shin. Csi: Novelty detection via contrastive learning on distributionally shifted instances. In Advances in Neural Information Processing Systems, 2020.
  • [47] MTCAJ Thomas and A Thomas Joy. Elements of information theory. Wiley-Interscience, 2006.
  • [48] Sunil Thulasidasan, Gopinath Chennupati, Jeff A Bilmes, Tanmoy Bhattacharya, and Sarah Michalak. On mixup training: Improved calibration and predictive uncertainty for deep neural networks. Advances in Neural Information Processing Systems, 32, 2019.
  • [49] Grant Van Horn, Oisin Mac Aodha, Yang Song, Yin Cui, Chen Sun, Alex Shepard, Hartwig Adam, Pietro Perona, and Serge Belongie. The inaturalist species classification and detection dataset, 2017.
  • [50] Sagar Vaze, Kai Han, Andrea Vedaldi, and Andrew Zisserman. Open-set recognition: A good closed-set classifier is all you need. In International Conference on Learning Representations, 2022.
  • [51] Jianxiong Xiao, James Hays, Krista A. Ehinger, Aude Oliva, and Antonio Torralba. Sun database: Large-scale scene recognition from abbey to zoo. In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 3485–3492, 2010.
  • [52] Kunran Xu, Lai Rui, Yishi Li, and Lin Gu. Feature normalized knowledge distillation for image classification. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXV 16, pages 664–680. Springer, 2020.
  • [53] Pingmei Xu, Krista A Ehinger, Yinda Zhang, Adam Finkelstein, Sanjeev R. Kulkarni, and Jianxiong Xiao. Turkergaze: Crowdsourcing saliency with webcam based eye tracking, 2015.
  • [54] Jingkang Yang, Pengyun Wang, Dejian Zou, Zitang Zhou, Kunyuan Ding, Wenxuan Peng, Haoqi Wang, Guangyao Chen, Bo Li, Yiyou Sun, Xuefeng Du, Kaiyang Zhou, Wayne Zhang, Dan Hendrycks, Yixuan Li, and Ziwei Liu. Openood: Benchmarking generalized out-of-distribution detection. 2022.
  • [55] Jason Yosinski, Jeff Clune, Anh Nguyen, Thomas Fuchs, and Hod Lipson. Understanding neural networks through deep visualization. arXiv preprint arXiv:1506.06579, 2015.
  • [56] Fisher Yu, Yinda Zhang, Shuran Song, Ari Seff, and Jianxiong Xiao. Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015.
  • [57] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF international conference on computer vision, pages 6023–6032, 2019.
  • [58] Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. In Edwin R. Hancock Richard C. Wilson and William A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), pages 87.1–87.12. BMVA Press, September 2016.
  • [59] Bolei Zhou, Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(6):1452–1464, 2018.