使用核密度估计进行与任务无关的分布外检测

Ertunc Erdil, Krishna Chaitanya, Neerav Karani, Ender Konukoglu
Computer Vision Lab, ETH Zurich
Sternwartstrasse 7, Zurich 8092, Switzerland
ertunc.erdil@vision.ee.ethz.ch
摘要

近年来,研究人员提出了许多成功的方法来在深度神经网络(DNN)中执行分布外(OOD)检测。 到目前为止,高精度方法的范围仅限于图像级分类任务。 然而,对分类之外的普遍适用方法的尝试并未达到类似的效果。 在本文中,我们通过提出一种简单而有效的任务无关的 OOD 检测方法来解决这一限制。 我们通过在训练数据集上执行核密度估计 (KDE) 来估计预训练 DNN 中间特征的概率密度函数 (pdf)。 由于 KDE 直接应用于特征图受到高维度的阻碍,因此我们使用一组低维边缘化 KDE 模型而不是单个高维模型。 在测试时,我们评估测试样本的 pdf,并生成表明样本 OOD 的置信度分数。 KDE 的使用消除了对底层特征 pdf 进行简化假设的需要,并使所提出​​的方法与任务无关。 我们使用用于 OOD 检测的基准数据集对分类任务进行了广泛的实验。 此外,我们还使用脑 MRI 数据集对医学图像分割任务进行实验。 结果表明,所提出的方法在分类和分割任务中始终如一地实现了较高的 OOD 检测性能,并且在几乎所有情况下都提高了最新技术。 代码可在 https://github.com/eerdil/task_agnostic_ood 获取

1简介

当训练数据和测试数据来自同一分布时,深度神经网络 (DNN) 可以以非常高的准确度对测试图像进​​行预测。 然而,当测试图像是从与训练图像 [16, 36] 不同的分布中采样时,预测精度会迅速下降。 此外,在这种情况下,DNN 可能会以非常高的置信度[11]做出错误的预测。 这在为实际应用部署 DNN 时造成了重大障碍,特别是对于错误容忍度较低的应用,例如自动驾驶和医疗诊断。 因此,提高基于 DNN 的方法的鲁棒性并防止其犯大错误至关重要[1]

Input Prediction Ground Truth
Refer to caption Refer to caption Refer to caption
Refer to caption Refer to caption Refer to caption
图1 一个直观的示例,展示了 OOD 检测对分割任务的重要性。 在 T1w 图像上训练的网络在 T1w 测试图像(第一行)上运行良好,但在同一患者的 T2w 图像(第二行)上产生的分割效果很差。

最近,为了提高 DNN 的鲁棒性,针对图像级分类任务训练的 DNN 在 OOD 检测方面取得了实质性进展[12,23,25,15] 尽管 OOD 检测对于非分类任务(例如分割)同样重要,但到目前为止,开发更通用的 OOD 检测方法的尝试并未达到类似的性能[26] 在图1中,我们展示了医学图像分割任务中的视觉示例,以强调 OOD 检测在非分类任务中的重要性。 该示例表明,在 T1w 大脑图像(分布内 (InD))上训练的 DNN 对于同一患者的 T2w 图像 (OOD) 产生较差的分割结果。 让我们想象一个基于细分进行诊断的自动化临床决策系统。 在这种情况下,OOD T2w 图像的不良分割可能会导致错误的诊断,从而产生严重的后果。 该管道中的 OOD 检测方法可以在防止此类错误方面发挥关键作用。

1.1相关工作

使用预测类概率的方法:Hendrycks等人[12]提出了一种基线OOD检测方法,该方法使用分类DNN中的最大预测类概率作为样本的置信度分数是 OOD。 ODIN [24]通过对输入图像应用对抗性扰动(称为输入预处理)和softmax之前的温度缩放来扩展基线,以增加InD和OOD的预测概率之间的差异样品。 Sastry等人[29]提出的方法对输入图像进行预测,并使用语法矩阵将图像的中间特征与从预测类别的其他图像中提取的中间特征进行比较。 Hsu 等人[15]的工作进一步扩展了ODIN,称为广义ODIN(G-ODIN),通过引入一个额外的输出来指示输入样本属于InD还是OOD。 DNN 的倒数第二层被分解为两个分支,以对该指示变量的条件分布及其与类标签的联合分布进行建模。 指示变量的条件概率用作置信度得分,而联合概率与条件概率的比率用作应用输入处理后的图像的最终类别预测。

提出训练策略的方法:DeVries和Taylor[7]引入了置信度估计网络分支,并提出使用从该分支获得的置信度估计来训练softmax分类网络的概率。 Lee 等人[22]提出了一种分类器网络的训练方法,使他们对 OOD 示例变得不那么自信。 除了交叉熵之外,他们还引入了两个损失项。 第一个鼓励网络对 OOD 示例变得不那么自信,而第二个则为第一个生成最佳的 OOD 示例。 Vyas 等人[35]的方法提出使用分类器集合进行 OOD 检测,其中每个分类器通过从 InD 训练集中删除不同的类来进行训练。 然后,在应用 ODIN 中的温度缩放和输入预处理之后,基于每个分类器的 softmax 概率的集合执行 OOD 检测。 Hendrycks 等人[13]提出了一种称为异常值暴露的方法,该方法利用已知在训练期间 OOD 的现有非常大的数据集。 Yu等人[39]提出了一种具有两个分类头的DNN,其中一个旨在最小化分类损失,另一个旨在最大化两个分类器之间的差异。 该方法称为 MCD,在差异损失中使用 OOD 样本的子集以及 InD 样本。 在测试时,差异较大的样本被标记为 OOD。 最近,Liu等人[25]提出了一种基于能量的方法(EBM),它将softmax概率解释为能量分数并用于OOD检测。

执行密度估计的方法:Lee等人[23]提出了一种名为Mahalanobis的方法,该方法用高斯模型对DNN中间层特征的类条件pdf进行建模InD 样品的密度。 通过使用属于该类的 InD 样本计算经验均值和协方差来估计每个类条件高斯训练的参数。 在测试时,在评估估计密度以获得置信度分数之前应用 ODIN 式输入预处理,预计 InD 样本的置信度分数较高,而 OOD 样本的置信度分数较低。

尽管它们的性能很成功,但大多数上述方法都是为分类任务的 OOD 检测而设计的,并且它们对非分类任务的扩展通常并不简单。 还提出了不具有相同缺点的任务无关网络。 Hendryks等人[14]提出了一种基于自监督学习(SSL)的OOD检测方法。 该方法在 InD 数据集上训练辅助旋转网络,预测离散类别中的旋转角度,并计算测试图像的置信度分数作为 softmax 激活的最大值,与 OOD 样本相比,InD 样本的激活值预计更高。 Kim 等人[18]提出了一种称为RaPP的方法,该方法基于以下观察:在自动编码器中,输入图像的内部特征表示及其重构版本对于InD样本非常相似对于未用于自动编码器训练的 OOD 样本,相似度会降低。 RaPP 根据 OOD 检测的观察定义了置信度分数。 Venkatakrishnan 等人[34]结合了SSL和RaPP的思想,提出了一种方法(Multitask_SSL),通过联合训练网络来进行脑图像OOD检测的旋转预测和重建任务。 由于 SSL [14]、RaPP [18] 和 Multitask_SSL[34] 都在与主网络分离的辅助网络上运行,它们与任务无关,因此可以应用于分类和非分类任务。

1.2贡献

在本文中,我们提出了一种简单而有效的任务无关的 OOD 检测方法。 在所提出的方法中,我们使用 KDE 和 InD 训练图像估计 DNN 中每个通道的特征 pdf。 我们使用新的测试样本评估 pdf,并获得每个通道的置信度得分。 我们使用逻辑回归模型将所有分数组合成最终的置信度训练,我们使用图像的通道置信度分数作为 InD 样本,并将其对抗性扰动版本作为 OOD 样本进行训练。

我们的动机来自 Mahalanobis [23] 来开发所提出的方法,但以多种方式对其进行了扩展,这对于构建任务无关的方法来提高检测精度至关重要。 (1) Mahalanobis 估计类条件密度,而所提出的方法中的分布近似不以类为条件,使其与任务无关。 (2) 在与任务无关的设置中直接使用 Mahalanobis 是可行的,使用无条件高斯分布来近似 InD 样本的逐层特征分布。 然而,高斯假设对于无条件特征密度的建模可能过于严格,并且当假设不成立时会导致精度降低。 使用非参数密度估计方法 KDE,我们扩展了所提出方法中密度近似的灵活性。 (3)逐层逼近容易出现维数灾难。 尽管 Mahalanobis 在密度估计之前采用通道均值将通道的维度从 C×H×W 减少到 C×1,但在现代架构中所得向量仍然可以是高维的。 我们在所提出的方法中近似一维通道分布,这更容易估计。 这种方法忽略了密度估计部分中层通道之间的依赖性,但在组合通道分数的逻辑回归模型中考虑了它们。

使用 KDE 进行 OOD 检测并不是什么新鲜事。 第一次使用可以追溯到 1994 年,当时 Bishop [2] 在输入空间中应用了 KDE。 该工作中输入仅为12维,KDE的应用是可行的。 在现代架构中,输入维度通常要大得多,因此直接应用 Bishop 方法不可行。 通过在测试图像和训练图像 [17, 4] 之间的距离上应用 KDE,仍然可以在高维空间中应用该方法的修改版本。 Bishop 的方法及其修改版本与所提出的方法不同。 在我们的方法中,我们使用多个通道 KDE 并汇总结果

使用 KDE 和估计通道式 pdf 是概念上简单的扩展,非常有效并产生可观的收益。 我们对经过分类和分割任务训练的 DNN 进行了广泛的比较。 在分类实验中,我们使用通用基准,其中包含在 CIFAR-10 和 CIFAR-100 数据集 [21] 以及其他 6 个 OOD 数据集上训练的 2 个不同分类网络。 我们将所提出的方法与文献中的 6 种方法进行比较,其中大多数是最近使用的或文献中使用的常见基线。 在分割实验中,我们使用数据集进行脑 MRI 分割并与 5 种方法进行比较。 总的来说,我们与 10 种不同的 OOD 检测方法进行了比较,以在当前文献中正确定位所提出的方法。

2方法

让我们用 Xtr={x1,x2,xM}Pin 表示一组训练图像,并用 ytr={y1,y2,,yM} 表示相应的标签,其中 Pin 表示 InD。 我们还用 f 表示 DNN,并使用 (Xtr,ytr) 进行训练。 如果 xtestPin,则 f 更有可能对测试图像 xtest 执行良好的预测;如果 xtestPout,则更有可能执行错误的预测,其中 PoutPin. 在本节中,我们提出了基于 KDE 的任务无关方法,该方法可识别从 Pout 采样的测试图像。 算法1总结了所提出模型在测试时的应用。

Input: Test Image: x
Random subset of training images: X^tr={xu1,xu2,,xuN}
Weights of logistic regression classifier: αlc
Set of kernel sizes: 𝝈
Output: Confidence score of x: x.
foreach lL do
for c1 to Cl do
Perform KDE at channel c of the feature map at layer l: p^lc(x)=1Ni=1N𝒦(flc(x)flc(xui);σlc)
end for
end foreach
return x=l=1Lc=1Clαlcp^lc(x)
Algorithm 1 The proposed method

2.1 计算置信度分数

该方法的主要输出是一个置信度分数,指示给定样本属于给定 DNN f 的 OOD 的可能性。在本节中,我们将描述如何计算此分数。 让我们假设 fL 层组成,给定图像 x 的层 l 中的特征图表示为 fl(x),其尺寸为 Cl×Hl×Wl,其中 ClHlWl 是通道数、高度,和特征图的宽度,分别。 我们采用特征图的通道平均值,并将维度降低到 Cl×1,正如 [23] 中所做的那样。 我们用 fl(x) 表示生成的 Cl 维特征向量。 然后,我们使用 KDE 估计每个通道的边际特征 pdf c

plc(x)p^lc(x)=1Mi=1M𝒦(flc(x)flc(xi);σlc) (1)

其中plc是层l的通道c中特征flc的真实边缘pdf,p^lc是pdf 的估计,𝒦(u,v;σlc)=e(uv)2/σlc2 是一维平方指数内核,σlc 是内核大小。 我们稍后将在2.3节中详细描述设置内核大小σlc的过程。 使用 KDE 时,我们使用样本 xiXtr,从而使用 p^lc 对 InD 通道 pdf 进行建模。 对于给定样本x,p^lc(x)是层l中通道c的置信度分数。

估计逐通道 pdf 相对于估计逐层 pdf 的优势(如[23]中所做的那样)是在一维空间而不是ClD空间中执行密度估计。 通常,Cl 在现代网络中可能非常大,并且密度估计在高维 [30] 中变得不太准确,通道明智的估计避免了这种情况。

为了评估等式中的plc。 (1) 对于新样本,理想情况下我们需要将所有 InD 图像存储在 Xtr 中。 M 非常大的实际应用中,存储整个 Xtr 可能不可行,并且对方程式中的 M 图像进行求和。 (1) 可能需要很长时间。 通过定义无偏估计器 [9] 可以提高基于 KDE 的方法的计算和内存效率,该估计器简单地使用 Xtr 的随机子集,使得

X^tr={xu1,xu2,,xuN}Xtr

其中 {u1,u2,,uN}{1,2,,M} 是通过从均匀密度采样生成的索引的随机子集,𝒰(1,M)(无替换)和 N<<M。使用随机子集,我们替换方程式中的求和。 (1) 具有计算效率更高的无偏估计器

plc(x)p^lc(x)=1Ni=1N𝒦(flc(x)flc(xui);σlc). (2)

在我们的实验中,我们设置了N=5000 在补充材料中,我们演示了不同选择 N 的结果。

使用方程估计边际 pdf。 (2) 不会对通道之间的依赖关系进行建模。 在所提出的方法中,我们考虑了这种依赖性并使用逻辑回归分类器计算最终的置信度得分:

x=l=1Lc=1Clαlcp^lc(x) (3)

其中 αlc 是如下所述学习的权重。

2.2 学习逻辑回归权重αlc

逻辑回归模型的作用是在给定通道置信度分数的情况下区分 InD 和 OOD 样本。 权重 αlc 的训练需要访问 InD 和 OOD 图像。 尽管 InD 图像 Xtr 已经可用,但很难捕获 Pout 中所有可能的图像。 Lee等人[23]提出使用FGSM[10]获得的对抗样本作为Pout的样本进行超参数调整。 我们使用对抗性示例作为 OOD 样本来在所提出的方法中训练逻辑回归。 使用 FGSM 对 Xtr 中的图像应用对抗性扰动获得 OOD 样本后,使用置信度分数 p^lc 作为输入来训练逻辑回归分类器,并提供输出标签: InD 图像为正值,OOD 图像为负值。 请注意,FGSM 可以使用适用于该任务的任何类型的标签,例如用于分类的图像级标签、用于分割的地面真实掩模等。 因此,使用 FGSM 不会影响所提出方法的任务无关性质。 为了完整起见,我们在补充材料中提供了有关 FGSM 方法的更多详细信息。

2.3 确定 KDE 内核的大小 σlc

内核大小 σ 是 KDE 的一个关键参数,因为它显着影响估计密度的形状。 σ 设置为较大的值会导致 pdf 非常平滑,从而降低观察到的样本以及来自同一分布的其他样本的可能性。 σ 设置为非常小的值会导致非常峰值的分布,仅将高概率归因于观察到的样本,而将非常低的概率分配给即使来自相同分布的未观察到的样本。 因此,为了捕获数据[30]的底层pdf,找到最佳的σ值非常重要。

在所提出的方法中,如方程式所示。 (2),我们为每个通道 c 和图层 l 使用不同的 σlc。为了计算σlc,我们使用k-最近邻法(kNN)[31] 具体来说,我们计算所有 i,j[1,N]ijflc(xui)flc(xuj) 之间的距离,并将 σlc 设置为kth最小值。 我们用 𝝈 表示所有 σlc 值的集合。

kNN 方法的参数是 k 本身。 我们自动从 𝐤 表示的一组候选值中选择最合适的 k 值。 为了实现这一目标,我们通过获取 KDE 中未使用的样本,将验证集 XvalXtr 中分离出来。 然后,我们对 Xval 中的图像应用对抗性扰动,并获得 Xvaladv 作为 OOD 示例。 我们选择最大化 InD 和 OOD 数据集之间差异的 k𝐤

klc=argmaxk𝐤xXvalp^lc(x)xXvaladvp^lc(x) (4)

其中klc表示层l中的最佳k值。在我们的实验中,我们使用所描述的方法从候选集 𝐤={1,2,5,10,15,20,50} 中选择 kl

3实验和结果

我们评估了所提出的方法在经过分类和分割任务训练的 DNN 上的性能。 所提出的方法在 PyTorch 中实现,我们在具有 12GB 内存的 Nvidia GeForce Titan X GPU 上运行所有实验。

3.1 数据集和网络架构

在分类实验中,我们使用在 CIFAR-10 和 CIFAR-100 [21] 数据集上训练的两种不同的 ResNet 架构,其中包含来自 10100 的图像分别是类。 两个数据集均包含 50000 训练和 10000 大小为 32×32 的测试 RGB 彩色图像。 预训练模型在文献中用作常见基准,可在 https://github.com/pokaxpoka/deep_Mahalanobis_detector 上获取。

我们使用 6 个常见的基准数据集作为 OOD。 SVHN [27] 包含 Google 街景图像中门牌号的 26032 图像。 TinyImageNet (TIN) 数据集由 10000 32×32 RGB 测试图像 [6] 组成。 LSUN 数据集包含 10000 尺寸为 32×32 [38] 的 RGB 测试图像。 iSUN 是 SUN 数据集 [37] 的子集,其中包含大小调整为 32×32 的 8925 个 RGB 图像。 高斯和均匀数据集分别包含 10000 个从均值和单位方差为零的高斯分布以及均匀分布生成的噪声图像。 SVHN 数据集可在 Pytorch 中使用,TIN、LSUN 和 iSUN 可在 https://github.com/facebookresearch/odin 上获取。

在分割实验中,我们使用来自 2 个公开数据集的图像进行大脑分割:人类连接组计划 (HCP) [33] 和自闭症脑成像数据交换 (ABIDE) [8]. HCP 数据集包含每个受试者的 T1w 和 T2w 图像,而 ABIDE 数据集包含来自不同成像部位的 T1w 图像。 HCP_T1w 和 HCP_T2w 数据集包含来自 47 名患者的图像,我们分为 21 个用于训练,5 个用于验证,21 个用于测试。 ABIDE_Caltech_T1w 和 ABIDE_Stanford_T1w 数据集中都有来自 37 名患者的 T1w 图像,我们分为 11、5、21 个图像进行训练、验证和测试。

使用 HCP 和 ABIDE 数据集,我们设计了 2 个不同的实验来评估分割任务上的 OOD 检测性能。 在第一个实验中,我们在 ABIDE_Caltech_T1w 图像上训练 UNet [28] 架构,并使用 ABIDE_Stanford_T1w、HCP_T1w 和 HCP_T2w 图像作为 OOD。 在第二个实验中,我们在 HCP_T1w 图像上训练 UNet,并使用 ABIDE_Caltech_T1w、ABIDE_Stanford_T1w 和 HCP_T2w 作为 OOD。 我们选择 UNet 作为网络架构,因为它是医学图像分割最常见的选择[28,3,20] 在这两个实验中,我们分割了以下15个标签:背景、小脑灰质、小脑白质、大脑灰质、大脑白质、丘脑、海马、杏仁核、心室、尾状核、壳核、苍白球、腹侧DC、脑脊液和脑干。

OOD FPR at 95% TPR AUROC
Baseline / ODIN / Mahalanobis / MCD / G-ODIN / EBM / Proposed
SVHN 25.77 / 16.65 / 8.37 / 60.61 / 10.50 / 6.86 / 6.49 89.88 / 95.42 / 98.12 / 72.86 / 97.80 / 98.19 / 98.48
TIN 28.37 / 11.24 / 18.89 / 40.44 / 18.60 / 35.88 / 8.41 90.53 / 96.78 / 96.73 / 89.75 / 96.10 / 86.21 / 98.31
LSUN 28.31 / 10.30 / 19.61 / 34.46 / 9.10 / 21.62 / 3.80 91.09 / 97.06 / 96.77 / 91.15 / 98.00 / 92.50 / 99.01
iSUN 28.02 / 12.37 / 22.46 / 37.72 / 11.20 / 22.52 / 7.31 91.01 / 96.03 / 96.34 / 89.89 / 97.60 / 92.03 / 98.55
Gaussian 6.44 / 2.69 / 0.0 / 4.21 / 0.0 / 0.13 / 0.0 97.11 / 98.45 / 100.0 / 97.14 / 100.0 / 99.96 / 100.0
Uniform 9.24 / 4.16 / 0.0 / 13.17 / 0.0 / 0.0 / 0.0 96.04 / 97.78 / 100.0 / 92.69 / 100.0 / 100.0 / 100.0
表1 将 CIFAR-10 InD 数据集的测试集与多个 OOD 数据集区分开来的定量结果。 表示值越大越好,表示值越小越好。 所有值均为百分比。
OOD FPR at 95% TPR AUROC
Baseline / ODIN / Mahalanobis / MCD / G-ODIN / EBM / Proposed
SVHN 55.73 / 24.76 / 15.53 / 73.33 / 44.90 / 45.49 / 17.46 79.34 / 92.13 / 97.01 / 64.92 / 93.20 / 88.93 / 95.44
TIN 58.97 / 33.74 / 24.33 / 56.95 / 23.50 / 70.04 / 7.64 77.01 / 88.32 / 95.04 / 85.53 / 95.90 / 75.11 / 98.38
LSUN 64.71 / 37.09 / 28.68 / 58.40 / 23.20 / 67.99 / 3.73 75.58 / 87.70 / 94.66 / 84.97 / 96.10 / 76.45 / 99.13
iSUN 63.26 / 38.21 / 29.46 / 64.32 / 24.70 / 70.11 / 6.07 75.68 / 86.73 / 94.02 / 83.46 / 95.70 / 76.57 / 98.75
Gaussian 58.43 / 39.41 / 0.0 / 10.78 / 0.0 / 0.0 / 0.0 55.85 / 72.04 / 100.0 / 94.02 / 100.0 / 100.0 / 100.0
Uniform 32.04 / 18.49 / 0.0 / 15.99 / 0.0 / 0.0 / 0.0 85.13 / 89.81 / 100.0 / 92.34 / 100.0 / 100.0 / 100.0
表2 将 CIFAR-100 InD 数据集的测试集与多个 OOD 数据集区分开来的定量结果。 表示值越大越好,表示值越小越好。 所有值均为百分比。

3.2 比较所用方法详情

在分类实验中,我们将所提出的方法与 Hendryks 等人 [12]、ODIN [24]、Mahalanobis [23]< 提出的 Baseline 方法进行比较/t2>、MCD [39]、G-ODIN [15] 和 EBM [25] 主要设计用于 OOD 检测分类任务。

ODIN 和 Mahalanobis 具有用户定义的参数,这些参数会显着影响其性能。 对于 ODIN,这些参数是温度缩放和输入预处理幅度。 对于 Mahalanobis 来说,它只是输入的预处理幅度。 在原始论文中,这些参数是通过利用目标 OOD 数据集的子集作为验证从值列表中选择的。 同样,MCD 在训练期间需要来自目标 OOD 数据集的样本。 然而,在实际用例中,我们通常无法访问目标 OOD 数据集。 EBM 使用包含 8000 万张图像[32]的大规模数据集作为 OOD 到变量网络进行 OOD 检测,以获得 [25] 中报告的最佳结果。 我们认为,在训练中使用如此大的数据集作为 OOD 可能不适合评估该方法的真实性能,因为大数据集可能包含与实验中使用的目标 OOD 基准非常相似的示例。 为了对现有方法进行公平比较,我们对需要 OOD 示例来设置超参数或模型微调的方法(包括我们的方法)使用对抗性图像。 请注意,使用 InD 集无需额外成本即可获得对抗图像。 我们从一组值 {0.01,0.1,1.0,2.0,5.0} 中搜索对抗性幅度参数,并根据一组保留的对抗性图像的性能选择最佳值。 G-ODIN 的实现并未公开,但由于我们的实验设置与他们的[15]非常相似,包括网络架构和 OOD 数据集,因此我们直接使用他们论文中提出的结果进行比较。

在分割实验中,我们将所提出的方法与可用于非分类任务的 5 种不同的 OOD 检测方法进行了比较:Baseline [12]、Bishop [2]、SSL [14]、RaPP [18] 和 Multitask_SSL [34] 在 RaPP 的实验中,我们按照原始论文 [18] 中的建议,使用 10 层编码器-解码器网络架构在 InD 数据集 (COCO) 上训练自动编码器网络。 SSL 使用自监督旋转网络进行 OOD 检测。 为了与 SSL 进行比较,我们按照集合 {0,90,180,270} 中的值随机旋转 InD 数据集的训练图像,并训练神经网络以使用 ResNet 架构预测应用于输入图像的旋转角度。 在 Multitask_SSL 中,我们构建了一个 12 层变分自动编码器 (VAE) [19],其中按照原始论文中的建议,在旋转预测的潜在表示之上应用了额外的 2 个密集层。 我们针对这两项任务联合训练了架构。 在基线[12]中,我们将前景类的softmax概率的平均值作为OOD检测的置信度得分,预计InD样本的置信度得分较高,OOD样本的置信度得分较低。 最后,我们还将我们的方法与 Bishop 的工作[2]进行比较,以证明在低维空间而不是高维输入空间上应用 KDE 的价值。

SVHN TIN LSUN iSUN Adversarial
Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption
图2 当 InD 数据集为 CIFAR-10 时,使用 AUROC 对不同 OOD 数据集评估的通道级 OOD 检测性能趋势。 该图显示对抗性图像的 AUROC 趋势与 OOD 数据集相似,表明使用对抗性图像训练的逻辑回归分类器可以推广到 OOD 分类器。

3.3评估方法

我们使用文献[12]中评估OOD检测方法常用的评估方法。 在所有评估中,我们将InD作为正类,OOD作为负类。

95% 处的 FPR TPR: 95%的真阳性率(TPR)达到某个阈值时,测量假阳性率(FPR)。 假阳性率的计算公式为 FPR=FP/(FP+TN),真阳性率的计算公式为 TPR=TP/(TP+FN),其中 TP、FP、TN 和 FN 分别代表真阳性、假阳性、真阴性,和假阴性,分别。

AUROC: 接受者操作特征曲线下面积 (AUROC) 是一种与阈值无关的方法,用于测量接受者操作特征 (ROC) 曲线下面积[5] ROC曲线反映了TPR和FPR值随阈值变化的关系。 当检测完美时,AUROC 在 100% 处取最高值。

检测错误: 该指标衡量当 TPR 为 95% 时错误分类的概率。 我们用 Perr 表示检测误差,并计算为 Perr=0.5(1-TPR+FPR)。 为了节省空间,我们在补充材料中提供了该指标的结果。

3.4结果与分析

在这里,我们展示了分类和分割任务的主要定量结果,并在补充材料中展示了额外的实验结果。

3.4.1 分类任务的结果

我们分别在表12中展示了CIFAR-10和CIFAR-100数据集为InD时的OOD检测结果。 CIFAR-10 实验的结果表明,所提出的方法在所有 OOD 数据集上比现有方法实现了更好的 OOD 检测性能。 在 CIFAR-100 数据集上的实验中,我们的方法在除 SVHN 之外的所有数据集上都产生了最好的 OOD 检测结果,它获得了第二好的结果。 分类任务的结果表明,所提出的方法在几乎所有情况下都改进了最先进的 OOD 检测方法。

该方法中的逻辑回归模型是使用 InD 图像及其对抗性扰动版本作为 OOD 样本进行训练的。 尽管 OOD 空间很大,但使用扰动样本进行训练似乎表现良好。 为了更好地理解回归模型如何推广到真实的 OOD 图像,我们分析了通道置信度分数 p^lc(x),它们是回归模型的输入。 我们分别对每个通道的置信度得分进行 OOD 检测,并绘制了 SVHN、TIN、LSUN、iSUN 数据集以及 InD 为 CIFAR-10 时的对抗性 InD 图像的 AUROC 值,如图 2 所示。 为了简洁起见,我们没有为高斯数据集和均匀数据集提供类似的图。 可以看出,所有 OOD 数据集的跨通道 AUROC 趋势与对抗图像相似,其中早期通道的 AUROC 结果较低,后期通道的 AUROC 结果较高。 这表明对抗性图像的通道分数可以很好地推广到使用 OOD 图像获得的分数。 这一观察结果也适用于 CIFAR-100 数据集,我们在补充材料中提供了类似的图。

OOD FPR at 95% TPR AUROC
Baseline / Bishop / SSL / RaPP / Multitask_SSL / Proposed
ABIDE_Stanford_T1w 78.90 / 76.21 / 49.60 / 69.57 / 66.48 / 44.25 48.26 / 81.71 / 63.45 / 52.44 / 54.30 / 89.27
HCP_T1w 88.06 / 79.72 / 63.51 / 87.20 / 76.58 / 42.93 39.30 / 75.83 / 55.13 / 40.11 / 45.35 / 93.96
HCP_T2w 80.37 / 41.77 / 81.28 / 57.85 / 70.39 / 40.27 42.19 / 92.93 / 43.82 / 52.78 / 47.88 / 94.62
表3 将 ABIDE_Caltech_T1w InD 数据集的测试集与多个 OOD 数据集区分开来的定量结果。 表示值越大越好,表示值越小越好。 所有值均为百分比。
OOD FPR at 95% TPR AUROC
Baseline / Bishop / SSL / RaPP / Multitask_SSL /Proposed
ABIDE_Stanford_T1w 59.25 / 100.0 / 62.96 / 67.01 / 45.06 / 44.78 71.34 / 39.02 / 84.43 / 67.07 / 83.78 / 90.42
ABIDE_Caltech_T1w 83.26 / 100.0 / 58.94 / 99.68 / 63.88 / 11.71 68.41 / 17.21 / 87.22 / 59.38 / 79.56 / 96.77
HCP_T2w 47.55 / 94.98 / 76.89 / 47.94 / 61.62 / 18.77 72.88 / 62.12 / 57.79 / 70.56 / 73.39 / 95.60
表4 将 HCP_T1w InD 数据集的测试集与多个 OOD 数据集区分开来的定量结果。 表示值越大越好,表示值越小越好。 所有值均为百分比。

3.4.2 分割任务的结果

我们分别在表34中展示了InD数据集为ABIDE_Caltech_T1w和HCP_T1w数据集时的OOD检测结果。 结果表明,所提出的方法在所有情况下都改进了现有方法。 由于 Bishop [2] 在高维输入空间上工作,因此无法实现准确的密度估计,并且产生如预期的较差的 OOD 检测结果。 在这里,自监督方法:SSL、RaPP 和 Multitask_SSL 的结果低于我们的预期,我们进一步研究以更好地解释结果。 这些方法表现出性能下降,因为自监督网络对 OOD 图像的泛化效果出人意料地好。 例如,针对 SSL 旋转任务在 HCP_T1w 图像上训练的网络可以以 75% 精度预测 InD 和 OOD 数据集的旋转角度。 这适用于我们使用 ABIDE_Caltech_T1w 作为 InD 的情况。 我们的观察类似于为 RaPP 训练的自动编码器网络。 在图 3 中,我们显示了当 ABIDE_Caltech_T1w 为 InD 时的输入图像及其重建。 视觉结果表明,自动编码器从不同数据集重建图像的效果同样好。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图3 在 RaPP 的 ABIDE_Caltech_T1w 数据集上训练的自动编码器的输入图像(第一行)和重建(第二行)。 从左到右,图像分别属于 ABIDE_Caltech_T1w、ABIDE_Stanford_T1w、HCP_T1w 和 HCP_T2w 数据集。
Layer-wise Channel-wise
Gaussian
(Mahalanobis)
KDE Gaussian
KDE
(Proposed)
SVHN 15.53 24.09 12.00 17.46
TIN 24.33 34.08 13.90 7.64
LSUN 28.68 28.47 5.10 3.73
iSUN 29.46 33.49 7.50 6.07
表5 在 CIFAR-100 数据集中 95% TPR 的 FPR 方面,比较密度估计方法(高斯和 KDE)与特征空间(逐层和逐通道)的不同组合。

3.5 逐通道与逐层以及 KDE 与参数估计

在所提出的方法中,我们执行通道式 KDE。 与最接近的 Mahalanobis [23] 工作相比,这在密度估计方面引入了两个变化,一个是特征选择(逐层与通道特征),另一个是估计方法(KDE 与高斯)。 在本节中,我们量化每个更改的贡献。 为此,我们使用所有可能的组合执行 OOD 检测。 5中的结果表明,与逐层密度估计相比,执行逐通道密度估计可以大大提高 OOD 检测精度。 我们认为这种改进是由于通过通道特征在一维空间中实现了更准确的密度估计。 逻辑回归模型考虑了通道之间的依赖性。 我们还观察到,在大多数情况下,对通道特征执行 KDE 比使用 Gaussian 产生了进一步的改进。 这是预期的,因为 KDE 更灵活并且可以导致更准确的密度估计。 我们在补充材料中提出了进一步的实验来比较通道式 KDE 与分层式 KDE。

3.6计算时间

我们将所提出的方法与其他方法在计算时间方面进行比较。 我们测量了在 CIFAR-10 实验中对 Baseline、ODIN、MCD、EBM 和 Mahalanobis 的所有 OOD 数据集执行检测所需的计算时间。 由于实施未公开,因此未提供 G-ODIN 的计算时间。 我们在图 4 的图中显示了计算时间的平均值和标准偏差。 结果表明,Baseline、MCD 和 EBM 是预期的最快方法,因为它们仅在网络中执行一次前向传递。 尽管 KDE 的计算成本较高,但所提出的方法还是紧随其后。 由于输入预处理步骤的计算成本较高,ODIN 和 Mahalanobis 的计算效率低于其他方法。 Mahalanobis 是所有方法中最慢的,因为它在计算每一层的分数之前应用输入预处理。

Refer to caption
图4 CIFAR-10 实验中所有 OOD 数据集的计算时间的平均值和标准差。

4结论

在本文中,我们提出了一种与任务无关的 OOD 检测方法,该方法使用 KDE 估计 DNN 每个通道的特征密度。 在相应的 KDE 上评估测试图像的特征,以获得每个通道的置信度得分,预计 InD 图像的置信度得分高于 OOD 图像。 使用逻辑回归分类器将这些分数组合成最终分数,该分类器使用 InD 训练图像及其对抗性扰动版本进行预训练。 由于与任务无关,所提出的方法可以应用于分类和非分类 DNN。

我们对分类和分割网络进行了广泛的评估,并将它们与最先进的方法进行了比较。 结果表明,所提出的使用通道 KDE 的方法在大多数情况下都提高了现有技术水平。 我们还进行了一项实验,将通道密度估计与分层估计进行比较,并执行参数密度估计(高斯)与非参数密度估计(KDE)。 结果表明,通道方式密度估计在改善结果方面发挥着主要作用,因为密度估计在低维空间更容易。 由于非参数方法的灵活性,使用 KDE 进行密度估计而不是假设 pdf 是高斯分布可以带来进一步的改进。

附录 A 检测错误指标的结果

主论文中的实验结果是针对 95% TPR 的 FPR 和 AUROC 指标给出的。 除了这些结果之外,我们还在图 6789 分别适用于 CIFAR-10、CIFAR-100、ABIDE_Caltech_T1w 和 HCP_T1w 数据集。

OOD Detection Error
Baseline / ODIN / Mahalanobis / MCD / EBM / Proposed
SVHN 15.38 / 11.32 / 5.90 / 32.80 / 12.45 / 5.74
TIN 16.68 / 8.12 / 9.44 / 22.72 / 27.76 / 6.70
LSUN 16.65 / 7.69 / 9.02 / 19.73 / 22.10 / 4.40
iSUN 16.51 / 8.68 / 10.23 / 21.36 / 22.99 / 6.15
Gaussian 5.72 / 3.84 / 0.0 / 4.60 / 2.50 / 0.0
Uniform 7.12 / 4.58 / 0.0 / 9.08 / 2.50 / 0.0
表6 检测错误 区分 CIFAR-10 InD 数据集测试集与多个 OOD 数据集的度量结果。 所有值均为百分比。
OOD Detection Error
Baseline / ODIN / Mahalanobis / MCD / EBM / Proposed
SVHN 30.36 / 14.88 / 7.72 / 36.16 / 19.64 / 11.23
TIN 31.98 / 19.37 / 11.71 / 30.94 / 35.85 /6.32
LSUN 34.85 / 21.04 / 12.39 / 31.70 / 33.62 /4.36
iSUN 34.13 / 21.60 / 13.37 / 34.66 / 34.77 /5.53
Gaussian 31.71 / 22.20 / 0.0 / 7.89 / 0.0 /0.0
Uniform 18.52 / 11.74 / 0.0 / 10.49 / 0.0 /0.0
表7 检测错误 区分 CIFAR-100 InD 数据集测试集与多个 OOD 数据集的度量结果。 所有值均为百分比。
OOD Detection Error
Baseline / Bishop / SSL / RaPP / Multitask_SSL / Proposed
ABIDE_Stanford_T1w 41.95 / 40.60 / 27.30 / 37.28 / 35.74 / 24.62
HCP_T1w 46.53 / 42.36 / 34.25 / 46.10 / 40.79 / 23.96
HCP_T2w 42.68 / 23.38 / 43.14 / 31.42 / 37.69 / 22.63
表8 检测错误 将 ABIDE_Caltech_T1w InD 数据集的测试集与多个 OOD 数据集区分开来的度量结果。 所有值均为百分比。
OOD Detection Error
Baseline / Bishop / SSL / RaPP / Multitask_SSL /Proposed
ABIDE_Stanford_T1w 32.12 / 52.50 / 33.98 / 36.00 / 24.53 / 24.89
ABIDE_Caltech_T1w 44.43 / 52.50 / 31.97 / 52.34 / 34.44 / 8.35
HCP_T2w 26.27 / 49.99 / 40.94 / 26.47 / 33.31 / 11.88
表9 检测错误 将 HCP_T1w InD 数据集的测试集与多个 OOD 数据集区分开来的度量结果。 所有值均为百分比。

附录 B KDE 中不同数量样本 N 的结果

N 是所提出方法的超参数,用于确定使用 KDE 无偏估计目标密度所使用的样本数量。 在本节中,我们分析所提出方法的行为作为不同 N 值的函数。 我们分别在表 1011 中展示了 CIFAR-10 和 CIFAR-100 实验使用不同指标的 OOD 检测性能。 结果表明,所提出的方法对 KDE 中使用的样本数量 N 不是很敏感。

OOD FPR at 95% TPR AUROC Detection Error
N= 1000/2000/5000/7000
SVHN 23.16 / 19.33 / 6.49 / 17.22 94.19 / 94.57 / 98.48 / 97.89 14.08 / 12.16 / 5.74 / 11.11
TIN 7.02 / 8.45 / 8.41 / 8.02 98.29 / 98.26 / 98.31 / 98.73 6.01 / 6.72 / 6.70 / 6.51
LSUN 1.92 / 2.40 / 3.80 / 1.84 99.36 / 99.29 / 99.01 / 99.46 3.46 / 3.70 / 4.40 / 3.42
iSUN 5.63 / 6.69 / 7.31 / 5.91 98.62 / 98.63 / 98.55 / 98.85 5.31 / 5.84 / 6.15 / 5.45
Gaussian 0.0 / 0.0 / 0.0 / 0.0 100.0 / 100.0 / 100.0 / 100.0 0.0 / 0.0 / 0.0 / 0.0
Uniform 0.0 / 0.0 / 0.0 / 0.0 100.0 / 100.0 / 100.0 / 100.0 0.0 / 0.0 / 0.0 / 0.0
表10 所提出的方法在 CIFAR-10 数据集上的性能与 KDE 中使用的样本数量 (N) 的函数关系。
OOD FPR at 95% TPR AUROC Detection Error
N= 1000/2000/5000/7000
SVHN 18.65 / 17.19 / 17.46 / 17.69 95.61 / 96.24 / 95.44 / 95.99 11.82 / 11.09 / 11.23 / 11.34
TIN 14.98 / 11.98 / 7.64 / 10.96 96.81 / 97.72 / 98.38 / 98.01 9.99 / 8.49 / 6.32 / 7.98
LSUN 10.69 / 6.65 / 3.73 / 5.17 97.60 / 98.65 / 99.13 / 98.98 7.84 / 5.82 / 4.36 / 5.08
iSUN 12.41 / 9.01 / 6.07 / 7.21 97.33 / 98.24 / 98.75 / 98.62 8.70 / 7.00 / 5.53 / 6.10
Gaussian 0.0 / 0.0 / 0.0 / 0.0 100.0 / 100.0 / 100.0 / 100.0 0.0 / 0.0 / 0.0 / 0.0
Uniform 0.0 / 0.0 / 0.0 / 0.0 100.0 / 100.0 / 100.0 / 100.0 0.0 / 0.0 / 0.0 / 0.0
表11 所提出的方法在 CIFAR-100 数据集上的性能与 KDE 中使用的样本数量 (N) 的函数关系。

附录C对抗性扰动方法-FGSM的详细信息

正如我们在第二节中讨论的那样。 2.2.在主论文中,我们使用称为快速梯度符号方法 (FGSM) [10] 的对抗性攻击方法生成 OOD 样本来训练逻辑回归。 在本节中,我们将介绍 FGSM 的更多详细信息。

FGSM 方法在创建对抗性示例时使用神经网络的梯度。 为此,它计算损失函数相对于输入图像的梯度,并将梯度添加到原始输入图像以获得对抗图像。 用梯度扰动输入图像会导致损失函数最大化。 使用以下等式将对抗性扰动应用于输入图像 x

xadv=x+ϵ×sign((L(x,y)))

其中yx的标签,L(x,y)是损失函数,ϵ是控制扰动强度的参数。 我们在图 5 中展示了来自 CIFAR-10 数据集的一些示例图像及其对抗版本。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图5 将 FGSM 应用于 CIFAR-10 数据集中的一些示例图像。 请注意,每一行对应于不同的图像。 从左到右的列表示原始图像、损失的梯度。 分别是输入图像和对抗图像。

附录 D FGSM 中 ϵ 的超参数搜索

在我们的实验中,我们在应用 ODIN、Mahalanobis、MCD、EBM 和所提出的方法时使用 FGSM 生成的对抗性示例,因为它们需要一些 OOD 样本来进行超参数选择或训练。 正如主论文中提到的,我们根据验证集的性能从实验中的一组值 {0.01,0.1,1.0,2.0,5.0} 中选择了最佳的 ϵ 值,验证集是对抗性示例的一部分。 在本节中,我们介绍了 Mahalanobis(表 12)、EBM(表 13)和拟议方法(表 14)在每个 ϵ 条件下获得的结果,以显示对该参数的敏感性。

Mahalanobis
ϵ= 0.01 0.1 1.0 2.0 5.0
CIFAR-10 / CIFAR-100
SVHN 44.25 / 32.39 26.46 / 19.72 8.37 / 15.53 4.33 / 14.84 4.70 / 37.36
TIN 12.00 / 24.73 10.07 / 22.66 18.89 / 24.33 16.09 / 26.55 11.57 / 25.90
LSUN 10.72 / 25.42 8.70 / 27.43 19.61 / 28.68 15.98 / 32.30 11.05 / 25.85
iSUN 14.33 / 28.48 11.87 / 28.55 22.46 / 29.46 18.22 / 32.16 13.27 / 29.88
Gaussian 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0
Uniform 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0
表12 Mahalanobis 在 CIFAR-10 和 CIFAR-100 上不同 ϵ 值的 FPR(95% TPR)结果。
EBM
ϵ= 0.01 0.1 1.0 2.0 5.0
CIFAR-10 / CIFAR-100
SVHN 0.03 / 1.39 4.21 / 18.35 6.86 / 45.49 77.59 / 89.0 57.83 / 92.94
TIN 76.13 / 87.07 61.68 / 80.92 35.88 / 70.04 30.40 / 68.86 37.41 / 70.91
LSUN 67.18 / 89.12 44.95 / 76.59 21.62 / 67.99 21.10 / 64.93 28.63 / 67.77
iSUN 66.54 / 87.04 46.88 / 76.76 22.52 / 70.11 22.0 / 65.93 28.43 / 69.89
Gaussian 99.75 / 99.44 91.19 / 93.42 0.13 / 0.0 0.0 / 0.0 0.0 / 0.0
Uniform 80.13 / 100.0 53.87 / 94.59 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0
表13 对于不同 ϵ 值,CIFAR-10 和 CIFAR-100 上 95% TPR 下的 FPR 的 EBM 结果。
Proposed
ϵ= 0.01 0.1 1.0 2.0 5.0
CIFAR-10 / CIFAR-100
SVHN 17.54 / 27.71 12.03 / 28.24 6.49 / 17.46 7.18 / 18.79 4.08 / 43.36
TIN 32.46 / 52.03 17.27 / 25.17 8.41 / 7.64 10.33 / 13.73 19.03 / 31.05
LSUN 21.44 / 49.67 11.82 / 17.55 3.80 / 3.73 4.62 / 8.60 5.30 / 16.29
iSUN 26.83 / 52.90 14.92 / 17.80 7.31 / 6.07 8.29 / 12.25 13.72 / 31.11
Gaussian 3.04 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0
Uniform 1.17 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0 0.0 / 0.0
表14 所提出方法的结果,以 CIFAR-10 和 CIFAR-100 上不同 ϵ 值的 95% TPR 的 FPR 表示。

附录 ECIFAR-100 数据集的 AUROC 趋势

在主论文中,我们对 CIFAR-10 数据集进行分析,以更好地理解在对抗性图像上训练的回归模型如何推广到真实的 OOD 图像。 在本节中,我们对 CIFAR-100 进行类似的分析,以证明对 CIFAR-10 的分析也适用于其他数据集。 我们分别对每个通道的置信度得分进行 OOD 检测,并绘制了 SVHN、TIN、LSUN、iSUN 数据集以及 InD 为 CIFAR-100 时的对抗性 InD 图像的 AUROC 值,如图 6 所示。 我们观察到所有 OOD 数据集的跨通道 AUROC 趋势与对抗图像相似。 这表明对抗性图像的通道分数可以很好地推广到使用 OOD 图像获得的分数。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图6 当 InD 数据集为 CIFAR-100 时,使用 AUROC 评估不同 OOD 数据集的通道级 OOD 检测性能趋势。 绘图显示,对抗性图像的 AUROC 趋势与大多数 OOD 数据集相似,表明使用对抗性图像训练的逻辑回归分类器可以推广到大多数 OOD 数据集。

附录 F逐通道 KDE 与逐层 KDE 之间的比较

在本节中,我们将提供其他结果来展示通过在 CIFAR-10(表 15)和 CIFAR-100(表 16)数据集。 虽然逐层 KDE 在 CIFAR-10 数据集上取得了稍好的结果,但逐通道 KDE 在 CIFAR-100 上的表现明显更好。

OOD FPR at 95% TPR AUROC Detection Error
Layer-wise KDE / Proposed (Channel-wise KDE)
SVHN 2.44 / 6.49 99.36 / 98.48 3.72 / 5.74
TIN 5.11 / 8.41 98.99 / 98.31 5.05 / 6.70
LSUN 2.54 / 3.80 99.44 / 99.01 3.77 / 4.40
iSUN 3.83 / 7.31 99.26 / 98.55 4.41 / 6.15
Gaussian 0.0 / 0.0 100.0 / 100.0 0.0 / 0.0
Uniform 0.0 / 0.0 100.0 / 100.0 0.0 / 0.0
表15 CIFAR-10 数据集上通道式 KDE 与分层式 KDE 的比较。
OOD FPR at 95% TPR AUROC Detection Error
Layer-wise KDE / Proposed (Channel-wise KDE)
SVHN 24.09 / 17.46 94.66 / 95.44 14.54 / 11.23
TIN 34.08 / 7.64 93.89 / 98.38 19.54 / 6.32
LSUN 28.47 / 3.73 94.55 / 99.13 16.73 / 4.36
iSUN 33.49 / 6.07 93.90 / 98.75 19.24 / 5.53
Gaussian 0.0 / 0.0 100.0 / 100.0 0.0 / 0.0
Uniform 0.0 / 0.0 100.0 / 100.0 0.0 / 0.0
表16 CIFAR-100 数据集上通道式 KDE 与分层式 KDE 的比较。

参考

  • [1] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. Concrete problems in ai safety. arXiv preprint arXiv:1606.06565, 2016.
  • [2] Christopher M Bishop. Novelty detection and neural network validation. IEE Proceedings-Vision, Image and Signal processing, 141(4):217–222, 1994.
  • [3] Krishna Chaitanya, Ertunc Erdil, Neerav Karani, and Ender Konukoglu. Contrastive learning of global and local features for medical image segmentation with limited annotations. Advances in Neural Information Processing Systems, 33, 2020.
  • [4] Daniel Cremers, Stanley J Osher, and Stefano Soatto. Kernel density estimation and intrinsic alignment for shape priors in level set segmentation. International journal of computer vision, 69(3):335–351, 2006.
  • [5] Jesse Davis and Mark Goadrich. The relationship between precision-recall and roc curves. In Proceedings of the 23rd international conference on Machine learning, pages 233–240. ACM, 2006.
  • [6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.
  • [7] Terrance DeVries and Graham W Taylor. Learning confidence for out-of-distribution detection in neural networks. arXiv preprint arXiv:1802.04865, 2018.
  • [8] Adriana Di Martino, Chao-Gan Yan, Qingyang Li, Erin Denio, Francisco X Castellanos, Kaat Alaerts, Jeffrey S Anderson, Michal Assaf, Susan Y Bookheimer, Mirella Dapretto, et al. The autism brain imaging data exchange: towards a large-scale evaluation of the intrinsic brain architecture in autism. Molecular psychiatry, 19(6):659–667, 2014.
  • [9] Ertunc Erdil, Sinan Yildirim, Tolga Tasdizen, and Mujdat Cetin. Pseudo-marginal mcmc sampling for image segmentation using nonparametric shape priors. IEEE Transactions on Image Processing, 28(11):5702–5715, 2019.
  • [10] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572, 2014.
  • [11] Chuan Guo, Geoff Pleiss, Yu Sun, and Kilian Q Weinberger. On calibration of modern neural networks. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 1321–1330. JMLR. org, 2017.
  • [12] Dan Hendrycks and Kevin Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. Proceedings of International Conference on Learning Representations, 2017.
  • [13] Dan Hendrycks, Mantas Mazeika, and Thomas Dietterich. Deep anomaly detection with outlier exposure. In International Conference on Learning Representations, 2018.
  • [14] Dan Hendrycks, Mantas Mazeika, Saurav Kadavath, and Dawn Song. Using self-supervised learning can improve model robustness and uncertainty. In Advances in Neural Information Processing Systems, pages 15637–15648, 2019.
  • [15] Yen-Chang Hsu, Yilin Shen, Hongxia Jin, and Zsolt Kira. Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10951–10960, 2020.
  • [16] Neerav Karani, Ertunc Erdil, Krishna Chaitanya, and Ender Konukoglu. Test-time adaptable neural networks for robust medical image segmentation. Medical Image Analysis, 68:101907, 2021.
  • [17] Junmo Kim, Müjdat Çetin, and Alan S Willsky. Nonparametric shape priors for active contour-based image segmentation. Signal Processing, 87(12):3021–3044, 2007.
  • [18] Ki Hyun Kim, Sangwoo Shim, Yongsub Lim, Jongseob Jeon, Jeongwoo Choi, Byungchan Kim, and Andre S Yoon. Rapp: Novelty detection with reconstruction along projection pathway. In International Conference on Learning Representations, 2020.
  • [19] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
  • [20] Simon AA Kohl, Bernardino Romera-Paredes, Clemens Meyer, Jeffrey De Fauw, Joseph R Ledsam, Klaus H Maier-Hein, SM Eslami, Danilo Jimenez Rezende, and Olaf Ronneberger. A probabilistic u-net for segmentation of ambiguous images. arXiv preprint arXiv:1806.05034, 2018.
  • [21] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. Technical report, Citeseer, 2009.
  • [22] Kimin Lee, Honglak Lee, Kibok Lee, and Jinwoo Shin. Training confidence-calibrated classifiers for detecting out-of-distribution samples. In ICLR 2018. ICLR 2018, 2018.
  • [23] Kimin Lee, Kibok Lee, Honglak Lee, and Jinwoo Shin. A simple unified framework for detecting out-of-distribution samples and adversarial attacks. In Advances in Neural Information Processing Systems, pages 7167–7177, 2018.
  • [24] Shiyu Liang, Yixuan Li, and Rayadurgam Srikant. Enhancing the reliability of out-of-distribution image detection in neural networks. arXiv preprint arXiv:1706.02690, 2017.
  • [25] Weitang Liu, Xiaoyun Wang, John Owens, and Yixuan Li. Energy-based out-of-distribution detection. Advances in Neural Information Processing Systems, 33, 2020.
  • [26] Eric Nalisnick, Akihiro Matsukawa, Yee Whye Teh, Dilan Gorur, and Balaji Lakshminarayanan. Do deep generative models know what they don’t know? In International Conference on Learning Representations, 2018.
  • [27] Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y Ng. Reading digits in natural images with unsupervised feature learning. 2011.
  • [28] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.
  • [29] Chandramouli Shama Sastry and Sageev Oore. Detecting out-of-distribution examples with in-distribution examples and gram matrices. arXiv preprint arXiv:1912.12510, 2019.
  • [30] David W Scott. Multivariate density estimation: theory, practice, and visualization. John Wiley & Sons, 2015.
  • [31] Bernard W Silverman. Density estimation for statistics and data analysis, volume 26. CRC press, 1986.
  • [32] Antonio Torralba, Rob Fergus, and William T Freeman. 80 million tiny images: A large data set for nonparametric object and scene recognition. IEEE transactions on pattern analysis and machine intelligence, 30(11):1958–1970, 2008.
  • [33] David C Van Essen, Stephen M Smith, Deanna M Barch, Timothy EJ Behrens, Essa Yacoub, Kamil Ugurbil, Wu-Minn HCP Consortium, et al. The wu-minn human connectome project: an overview. Neuroimage, 80:62–79, 2013.
  • [34] Abinav Ravi Venkatakrishnan, Seong Tae Kim, Rami Eisawy, Franz Pfister, and Nassir Navab. Self-supervised out-of-distribution detection in brain ct scans. arXiv preprint arXiv:2011.05428, 2020.
  • [35] Apoorv Vyas, Nataraj Jammalamadaka, Xia Zhu, Dipankar Das, Bharat Kaul, and Theodore L Willke. Out-of-distribution detection using an ensemble of self supervised leave-out classifiers. In Proceedings of the European Conference on Computer Vision (ECCV), pages 550–564, 2018.
  • [36] Dequan Wang, Evan Shelhamer, Shaoteng Liu, Bruno Olshausen, and Trevor Darrell. Fully test-time adaptation by entropy minimization. arXiv preprint arXiv:2006.10726, 2020.
  • [37] Pingmei Xu, Krista A Ehinger, Yinda Zhang, Adam Finkelstein, Sanjeev R Kulkarni, and Jianxiong Xiao. Turkergaze: Crowdsourcing saliency with webcam based eye tracking. arXiv preprint arXiv:1504.06755, 2015.
  • [38] Fisher Yu, Ari Seff, Yinda Zhang, Shuran Song, Thomas Funkhouser, and Jianxiong Xiao. Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015.
  • [39] Qing Yu and Kiyoharu Aizawa. Unsupervised out-of-distribution detection by maximum classifier discrepancy. In Proceedings of the IEEE International Conference on Computer Vision, pages 9518–9526, 2019.