使用深度最近邻进行分布外检测

Yiyou Sun Yifei Ming Xiaojin Zhu Yixuan Li

摘要

分布外（OOD）检测是在开放世界中部署机器学习模型的一项关键任务。基于距离的方法已被证明是有前景的，如果测试样本距离分布内 (ID) 数据相对较远，则将其检测为 OOD。然而，现有方法对底层特征空间强加了强分布假设，但这可能并不总是成立。在本文中，我们探讨了非参数最近邻距离在 OOD 检测中的功效，这在文献中很大程度上被忽视了。与之前的工作不同，我们的方法不强加任何分布假设，因此提供了更强的灵活性和通用性。我们在多个基准上证明了基于最近邻的 OOD 检测的有效性，并建立了卓越的性能。在 ImageNet-1k 上训练的相同模型下，与强基线 SSD+（在检测中使用参数方法 Mahalanobis 距离）相比，我们的方法将误报率 (FPR@TPR95) 大幅降低了 24.77%。代码可用：https://github.com/deeplearning-wisc/knn-ood。

分布外检测

1简介

在开放世界中部署的现代机器学习模型经常会遇到分布外（OOD）输入，即来自网络在训练期间未接触过的不同分布的样本，因此不应在测试时进行预测。可靠的分类器不仅应该对已知的分布内 (ID) 样本进行准确分类，还应将任何 OOD 输入识别为“未知”。这就凸显了 OOD 检测的重要性，它可以确定输入是 ID 还是 OOD，并使模型能够采取预防措施。

最近开发了丰富的 OOD 检测算法，其中基于距离的方法表现出了良好的前景（Lee 等人，2018；Tack 等人，2020；Sehwag 等人，2021）。基于距离的方法利用从模型中提取的特征嵌入，并在测试 OOD 样本距离 ID 数据相对较远的假设下进行操作。例如，Lee等人将特征嵌入空间建模为多元高斯分布的混合，并使用到所有类质心的最大马氏距离（Mahalanobis，1936）进行OOD检测。然而，所有这些方法都对底层特征空间是类条件高斯分布做出了强有力的假设。正如我们所验证的，学习到的嵌入可能无法通过 Henze-Zirkler 多元正态性检验（Henze & Zirkler，1990）。这种限制导致了一个悬而未决的问题：

我们可以利用非参数最近邻方法进行 OOD 检测吗？

与之前的工作不同，非参数方法不会对底层特征空间强加任何分布假设，因此提供了更强的灵活性和通用性。尽管它很简单，但最近邻方法却很少受到关注。纵观过去几年关于OOD检测的文献，还没有任何工作证明非参数最近邻方法对于这个问题的有效性。这表明，让看似简单的想法发挥作用并非易事。事实上，我们发现简单地使用从标准分类模型的特征嵌入导出的最近邻距离是不高效的。

Refer to caption — 图1：我们的框架使用最近邻进行 OOD 检测的图示。 KNN 执行非参数水平集估计，根据第 $k$ 个最近邻距离将数据划分为两个集（ID 与 OOD）。距离是根据倒数第二个特征嵌入估计的，通过 UMAP (McInnes 等人，2018) 进行可视化。使用交叉熵损失（左）与损失函数在 ResNet-18 （He 等人，2016）上训练模型。对比损失（右）。分布内数据为 CIFAR-10（以非灰色显示），OOD 数据为 LSUN（以灰色显示）。密度分布图中的灰色阴影区域表示被错误识别为 ID 数据的 OOD 样本。

在本文中，我们通过提出第一项研究来挑战现状，探索和证明非参数最近邻距离在 OOD 检测中的有效性。为了检测 OOD 样本，我们计算测试输入的嵌入与训练集的嵌入之间的 $k$ -th 最近邻 (KNN) 距离，并使用基于阈值的标准来确定输入是否为 OOD或不。简而言之，我们执行非参数水平集估计，根据深度 $k$ -最近邻距离将数据划分为两个集（ID 与 OOD）。 KNN 提供了令人信服的优势：(1) 无分布假设，(2) OOD 不可知(即，距离阈值估计为仅ID数据，不依赖于未知数据的信息），（3）易于使用(即，无需计算协方差的倒数矩阵，可能在数值上不稳定），以及（4）模型无关(即，测试过程适用于不同的模型架构和训练损失）。

我们的探索带来了实证有效性（第 4 和 5 节）和理论论证（第 6 节）。通过研究表示空间的作用，我们表明紧凑且标准化的特征空间是 OOD 检测的最近邻方法成功的关键。大量实验表明 KNN 优于参数化方法，并且可以很好地扩展到大规模数据集。从计算角度来看，近似最近邻搜索的现代实现使我们能够在几毫秒内完成此操作，即使数据库包含数十亿张图像（Johnson 等人，2019）。在具有挑战性的 ImageNet OOD 检测基准（Huang & Li，2021）上，我们基于 KNN 的方法在与基线方法类似的推理速度下实现了卓越的性能。 KNN 的整体简单性和有效性使其对现实世界的应用程序具有吸引力。我们总结了我们的贡献如下：

1.

我们提出了第一项研究，探索并证明了使用最近邻进行 OOD 检测的非参数密度估计的有效性——一种简单、灵活但在文献中被忽视的方法。我们希望我们的工作引起人们对非参数方法的强烈希望的关注，它消除了特征空间上的数据假设。
2.

我们在多个 OOD 检测基准、不同的模型架构（包括 CNN 和 ViT）以及不同的训练损失上展示了基于 KNN 的方法的卓越性能。在 ImageNet-1k 上训练的相同模型下，与强基线 SSD+ 相比，我们的方法将误报率 (FPR@TPR95) 大幅降低了 24.77% （Sehwag 等人，2021），使用参数方法(即、马哈拉诺比斯距离(Lee等人, 2018))进行检测。
3.

我们提供了关于使 KNN 在实践中有效的关键组件的新见解，包括特征归一化和紧凑的表示空间。我们的发现得到了广泛的消融和实验的支持。我们相信这些见解对于社区开展未来的研究很有价值。
4.

我们提供理论分析，表明基于 KNN 的 OOD 检测可以拒绝相当于贝叶斯最优估计器的输入。通过对特征空间中的最近邻距离进行建模，我们的理论 (1) 直接连接到我们也在特征空间中运行的方法，并且 (2) 通过考虑 OOD 数据的普遍性来补充我们的实验。

2 预赛

我们考虑监督多类分类，其中 $\mathcal{X}$ 表示输入空间， $\mathcal{Y}=\{1,2,...,C\}$ 表示标签空间。训练集 $\mathbb{D}_{in}=\{(\mathbf{x}_{i},y_{i})\}_{i=1}^{n}$ 绘制为 i.i.d. 来自联合数据分布 $P_{\mathcal{X}\mathcal{Y}}$ 。让 $\mathcal{P}_{\text{in}}$ 表示 $\mathcal{X}$ 上的边际分布。令 $f:\mathcal{X}\mapsto\mathbb{R}^{|\mathcal{Y}|}$ 为神经网络，对从 $P_{\mathcal{X}\mathcal{Y}}$ 抽取的样本进行训练，以输出 logit 向量，该向量用于预测输入样本的标签。

分布外检测在现实世界中部署机器模型时，可靠的分类器不仅应该准确地对已知分布内 (ID) 样本进行分类，还应将任何 OOD 输入识别为“未知” 。这可以通过 OOD 检测器与分类模型 $f$ 配合来实现。

OOD 检测可以表述为二元分类问题。在测试时，OOD检测的目标是确定样本 $\mathbf{x}\in\mathcal{X}$ 是否来自 $\mathcal{P}_{\text{in}}$ （ID）或不是（OOD）。可以通过水平集估计做出决定：

\displaystyle G_{\lambda}(\*x)=\begin{cases}\text{ID}&S(\mathbf{x})\geq\lambda\\ \text{OOD}&S(\mathbf{x})<\lambda\end{cases},

其中得分较高的样本 $S(\mathbf{x})$ 被分类为ID，反之亦然， $\lambda$ 是阈值。在实践中，OOD 通常由模拟部署期间遇到的未知情况的分布来定义，例如来自不相关分布的样本，其标签集与 $\mathcal{Y}$ 没有交集，因此不应由模型进行预测。

3 用于 OOD 检测的深度最近邻

在本节中，我们将描述使用深度 $k$ -最近邻（KNN）进行 OOD 检测的方法。我们在图 1 中说明了我们的方法，该方法在较高层次上可以归类为基于距离的方法。基于距离的方法利用从模型中提取的特征嵌入，并在测试 OOD 样本距离 ID 数据相对较远的假设下进行操作。之前基于距离的 OOD 检测方法采用参数密度估计，并将特征嵌入空间建模为多元高斯分布的混合（Lee 等人，2018）。然而，这种方法对学习的特征空间做出了很强的分布假设，这可能不一定成立¹¹1我们通过对嵌入执行 Henze-Zirkler 多元正态性检验（Henze & Zirkler，1990）来验证这一点。测试结果表明，每个类别的特征向量在显着性水平为 0.05 时不呈正态分布。.

在本文中，我们转而探索使用最近邻的非参数密度估计进行 OOD 检测的功效。尽管 KNN 方法很简单，但在大多数当前的 OOD 检测论文中都没有系统地探索或比较。具体来说，我们计算每个测试图像的嵌入与训练集之间的第 $k$ 个最近邻距离，并使用简单的基于阈值的标准来确定输入是否 OOD。重要的是，我们使用归一化倒数第二个特征 $\mathbf{z}=\phi(\mathbf{x})/\lVert\phi(\mathbf{x})\rVert_{2}$ 进行 OOD 检测，其中 $\phi:\mathcal{X}\mapsto\mathbb{R}^{m}$ 是特征编码器。将训练数据的嵌入集表示为 $\mathbb{Z}_{n}=(\mathbf{z}_{1},\mathbf{z}_{2},...,\mathbf{z}_{n})$ 。在测试过程中，我们会得出测试样本 $\mathbf{x}^{*}$ 的归一化特征向量 $\mathbf{z}^{*}$ ，并计算嵌入向量 $\mathbf{z}_{i}\in\mathbb{Z}_{n}$ 的欧氏距离 $\lVert\mathbf{z}_{i}-\mathbf{z}^{*}\rVert_{2}$ 。我们根据增加的距离 $\lVert\mathbf{z}_{i}-\mathbf{z}^{*}\rVert_{2}$ 重新排序 $\mathbb{Z}_{n}$ 。将重新排序的数据序列表示为 $\mathbb{Z}_{n}^{\prime}=(\mathbf{z}_{(1)},\mathbf{z}_{(2)},...,\mathbf{z}_{(n)})$ 。 OOD 检测的决策函数由下式给出：

G(\mathbf{z}^{*};k)=\mathbf{1}\{-r_{k}(\mathbf{z}^{*})\geq\lambda\},

其中 $r_{k}(\mathbf{z}^{*})=\lVert\mathbf{z}^{*}-\mathbf{z}_{(k)}\rVert_{2}$ 是到第 $k$ 个最近邻 ( $k$ -NN) 的距离， $\mathbf{1}\{\cdot\}$ 是指示函数。通常选择阈值 $\lambda$ ，以便正确分类大部分 ID 数据(例如 95%）。该阈值不依赖于 OOD 数据。

Input: Training dataset

\mathbb{D}_{in}

, pre-trained neural network encoder

\phi

, test sample

\mathbf{x}^{*}

, threshold

\lambda

For

\mathbf{x}_{i}

in the training data

\mathbb{D}_{in}

, collect feature vectors

\mathbb{Z}_{n}=(\mathbf{z}_{1},\mathbf{z}_{2},...,\mathbf{z}_{n})

Testing Stage:

Given a test sample, we calculate feature vector

\mathbf{z}^{*}=\phi(\mathbf{x}^{*})/\lVert\phi(\mathbf{x}^{*})\rVert_{2}

Reorder

\mathbb{Z}_{n}

according to the increasing value of

\lVert\mathbf{z}_{i}-\mathbf{z}^{*}\rVert_{2}

\mathbb{Z}_{n}^{\prime}=(\mathbf{z}_{(1)},\mathbf{z}_{(2)},...,\mathbf{z}_{(n)})

Output: OOD detection decision

\mathbf{1}\{-\lVert\mathbf{z}^{*}-\mathbf{z}_{(k)}\rVert_{2}\geq\lambda\}

算法1 使用深度最近邻进行 OOD 检测

表格1： CIFAR-10 上的结果。与竞争性 OOD 检测方法的比较。所有方法都基于仅在 ID 数据上训练的判别模型，而不使用异常数据。

\uparrow

表示值越大越好，反之亦然。

Method	OOD Dataset										Average		ID ACC
	SVHN		LSUN		iSUN		Texture		Places365		Average
	FPR $\downarrow$	AUROC $\uparrow$	FPR $\downarrow$	AUROC $\uparrow$	FPR $\downarrow$	AUROC $\uparrow$	FPR $\downarrow$	AUROC $\uparrow$	FPR $\downarrow$	AUROC $\uparrow$	FPR $\downarrow$	AUROC $\uparrow$
	Without Contrastive Learning
MSP	59.66	91.25	45.21	93.80	54.57	92.12	66.45	88.50	62.46	88.64	57.67	90.86	94.21
ODIN	53.78	91.30	10.93	97.93	28.44	95.51	55.59	89.47	43.40	90.98	38.43	93.04	94.21
Energy	54.41	91.22	10.19	98.05	27.52	95.59	55.23	89.37	42.77	91.02	38.02	93.05	94.21
GODIN	18.72	96.10	11.52	97.12	30.02	94.02	33.58	92.20	55.25	85.50	29.82	92.97	93.64
Mahalanobis	9.24	97.80	67.73	73.61	6.02	98.63	23.21	92.91	83.50	69.56	37.94	86.50	94.21
KNN (ours)	27.97	95.48	18.50	96.84	24.68	95.52	26.74	94.96	47.84	89.93	29.15	94.55	94.21
	With Contrastive Learning
CSI	37.38	94.69	5.88	98.86	10.36	98.01	28.85	94.87	38.31	93.04	24.16	95.89	94.38
SSD+	1.51	99.68	6.09	98.48	33.60	95.16	12.98	97.70	28.41	94.72	16.52	97.15	95.07
KNN+ (ours)	2.42	99.52	1.78	99.48	20.06	96.74	8.09	98.56	23.02	95.36	11.07	97.93	95.07

我们在算法 1 中总结了我们的方法。值得注意的是，基于 KNN 的 OOD 检测具有几个引人注目的优势：

1.

无分布假设：非参数最近邻方法不会对底层特征空间强加分布假设。因此KNN提供了更强的灵活性和通用性，即使在特征空间不符合高斯混合的情况下也适用。
2.

OOD 不可知：测试过程不依赖于未知数据的信息。距离阈值仅根据 ID 数据进行估计。
3.

易于使用：近似最近邻搜索的现代实现使我们能够在几毫秒内完成此操作，即使数据库包含数十亿张图像（Johnson 等人，2019）。相反，马氏距离需要计算协方差矩阵的逆矩阵，这在数值上可能不稳定。
4.

与模型无关：测试过程适用于各种模型架构，包括 CNN 和更新的基于 Transformer 的 ViT 模型（Dosovitskiy 等人，2021）。此外，我们将证明 KNN 与训练过程无关，并且与在不同损失函数(例如、交叉熵损失和对比损失）下训练的模型兼容。

我们在4节中继续展示基于KNN的OOD检测方法的有效性。

4实验

我们实验评估的目标是回答以下问题：（1）KNN 与用于 OOD 检测的参数对应物（例如马哈拉诺比斯距离）相比如何？ (2) 当训练数据规模较大时(例如，ImageNet），KNN 能否扩展到更具挑战性的任务？ (3) 基于 KNN 的 OOD 检测在不同模型架构和目标下训练是否有效？ (4) 各种设计选择如何影响性能？

评估指标

我们报告以下指标：(1) 当 ID 样本的真阳性率为 95% 时，OOD 样本的假阳性率 (FPR95)，(2) 接收器操作特征下的面积曲线 (AUROC)、(3) ID 分类精度 (ID ACC) 和 (4) 每幅图像的推理时间（以毫秒为单位，在测试图像上取平均值）。

训练损失

在我们的实验中，我们的目的是证明基于 KNN 的 OOD 检测与训练过程无关，并且与在不同损失下训练的模型兼容。我们考虑两种类型的损失函数，分别有和没有对比学习。我们采用（1）交叉熵损失训练，这是分类中最常用的目标，以及（2）监督对比学习（SupCon）（Khosla 等人，2020） - 表示的最新发展学习，它通过在嵌入空间中对齐属于同一类的样本来利用标签信息。

实施备注

所有实验均基于 PyTorch (Paszke 等人, 2019)。代码在网上公开发布。我们使用 Faiss (Johnson 等人, 2019)，一个用于高效最近邻搜索的库。具体来说，我们使用 faiss.IndexFlatL2 作为欧氏距离的索引方法。在实践中，我们预先计算所有图像的嵌入并将它们存储在键值映射中，以使 KNN 搜索高效。 ID数据的嵌入向量只需要在训练完成后提取一次。

4.1 通用基准评估

数据集

我们从文献中经常使用的 CIFAR 基准开始。我们使用包含 50,000 个训练图像和 10,000 个测试图像的标准分割。我们在常见的 OOD 数据集上评估这些方法：Textures (Cimpoi 等人, 2014), SVHN (Netzer 等人, 2011) , Places365 （周等人，2017）,LSUN-C （于等人，2015） t7>、iSUN （徐等人，2015）。所有图像的大小均为 $32\times 32$ 。

实验详情

我们使用 ResNet-18 作为 CIFAR-10 的骨干网。按照Khosla等人中的原始设置，具有SupCon损失的模型训练500个epoch，批量大小为 $1024$ 。温度 $\tau$ 为 $0.1$ 。我们执行最近邻搜索的倒数第二个特征的维度是 512。投影头尺寸为128。我们使用余弦退火学习率（Loshchilov & Hutter，2016），从 0.5 开始。我们对 CIFAR-10 使用 $k=50$ ，对 CIFAR-100 使用 $k=200$ ，它是使用中的验证方法从 $k=\{1,10,20,50,100,200,500,1000,3000,5000\}$ 中选择的（Hendrycks 等人， 2019）。我们使用动量为 0.9 的随机梯度下降和权重衰减 $10^{-4}$ 来训练模型。没有对比学习的模型训练了 100 个 epoch。起始学习率为 0.1，并在第 50、75 和 90 时期分别衰减 10 倍。

表2：对硬 OOD 检测任务的评估 (FPR95)。模型在 CIFAR-10 上通过 SupCon 损失进行训练。

	LSUN-FIX	ImageNet-FIX	ImageNet-R	C-100
SSD+	29.86	32.26	45.62	45.50
KNN+ (Ours)	21.52	25.92	29.92	38.83

最近邻距离实现卓越性能

我们在表 1 中展示了结果，其中非参数 KNN 方法显示出良好的性能。我们的比较涵盖了文献中大量的竞争方法。为了清楚起见，我们将基线方法分为两类：有对比损失和没有对比损失的训练。多个基线从使用常见的 softmax 交叉熵 (CE) 损失训练的模型中得出 OOD 分数，包括 MSP (Hendrycks & Gimpel, 2017)、ODIN (Liang 等人, 2018)、Mahalanobis (Lee 等人, 2018)、能源（刘等人，2020）。 GODIN (Hsu 等人, 2020) 使用 DeConf-C 损失进行训练，也不涉及对比损失。对于涉及对比损失的方法，我们使用相同的网络主干架构和嵌入维度，而仅改变训练目标。这些方法包括CSI（Tack等人，2020）和SSD+（Sehwag等人，2021）。为了术语清楚起见，KNN 指的是我们用 CE 损失训练的方法，KNN+ 指的是用 SupCon 损失训练的变体。我们重点介绍两组比较：

•

KNN 与 Mahalanobis（没有对比学习）：在使用交叉熵 (CE) 损失训练的相同模型下，我们的方法实现了 29.15% 的平均 FPR95，相比之下马哈拉诺比斯距离为 37.94%。性能增益精确地证明了 KNN 相对于参数方法马哈拉诺比斯距离的优势。
•

KNN+ 与 SSD+（具有对比损失）：KNN+ 和 SSD+ 在 OOD 检测机制上有根本的不同，尽管两者都受益于对比学习的表示。 SSD+将每个类别的特征嵌入空间建模为多元高斯分布，并使用马哈拉诺比斯距离（Lee等人，2018）进行OOD检测。在使用监督对比学习（SupCon）损失训练的相同模型下，我们使用最近邻距离的方法将平均FPR95降低了 ${5.45}\%$ ，相对32.99% 错误减少。它进一步表明了使用最近邻居而不对特征嵌入空间做出任何分布假设的优点。

上述比较表明，最近邻方法与使用和不使用对比学习训练的模型兼容。此外，KNN 也比 CSI 使用和实现更简单，CSI 依赖于复杂的数据增强和测试中的集成。最后，由于嵌入质量的提高，与训练相比，使用 SupCon 损失训练的模型的 ID 准确率在 CIFAR-10 上提高了 ${0.86}\%$ ，在 ImageNet 上提高了 2.45%与CE损失。由于篇幅限制，我们在附录C中提供了DenseNet（Huang等人，2017）的结果。

对比学习的表征有帮助

虽然对比学习在最近的文献中得到了广泛的研究，但当与用于 OOD 检测的非参数方法（例如最近邻）结合使用时，其作用仍未得到开发。我们研究了使用监督对比损失进行基于 KNN 的 OOD 检测的效果。我们提供定性和定量证据，强调相对于标准 softmax 交叉熵 (CE) 损失的优势。 (1) 我们使用 UMAP (McInnes 等人, 2018) 可视化图 1 中学习到的特征嵌入，其中颜色编码不同的类标签。一个显着的观察结果是，使用 SupCon 表示比从 CE 损失中获得的表示更具可区分性和紧凑性。高质量的嵌入空间确实为基于 KNN 的 OOD 检测带来了好处。 (2) 除了可视化之外，我们还定量比较了使用 SupCon 与 CE 训练的嵌入的基于 KNN 的 OOD 检测的性能。如表 1 所示，与使用经过 CE 训练的模型的嵌入相比，具有对比学习表示的 KNN+ 降低了所有测试 OOD 数据集上的 FPR95。

与其他非参数方法的比较

在表3中，我们将最近邻方法与其他非参数方法进行了比较。为了公平比较，我们使用使用 SupCon 损失训练的相同嵌入。我们的比较涵盖了文献中广泛的异常值检测方法，包括：IForest (Liu 等人, 2008)、OCSVM (Schölkopf等人, 2001), LODA (Pevnỳ, 2016), PCA (Shyu 等人, 2003) 和 LOF (Breunig 等人, 2000)。这些方法的参数设置可在附录B中找到。我们证明 KNN+ 大大优于其他非参数方法。

表3：与其他非参数方法的比较。结果是所有测试 OOD 数据集的平均值。模型在 CIFAR-10 上进行训练。

	FPR95 $\downarrow$	AUROC $\uparrow$
IForest (Liu et al., 2008)	65.49	76.98
OCSVM (Schölkopf et al., 2001)	52.27	65.16
LODA (Pevnỳ, 2016)	76.38	62.59
PCA (Shyu et al., 2003)	37.26	83.13
LOF (Breunig et al., 2000)	40.06	93.47
KNN+ (ours)	11.07	97.93

表 4： ImageNet 上的结果。所有方法均基于仅在 ID 数据上训练的模型 (ImageNet-1k (Deng 等人, 2009))。我们报告 OOD 检测性能以及每张图像的推理时间。

Methods	Inference time (ms)	OOD Datasets								Average		ID ACC
		iNaturalist		SUN		Places		Textures		Average
		FPR95	AUROC	FPR95	AUROC	FPR95	AUROC	FPR95	AUROC	FPR95	AUROC
		$\downarrow$	$\uparrow$	$\downarrow$	$\uparrow$	$\downarrow$	$\uparrow$	$\downarrow$	$\uparrow$	$\downarrow$	$\uparrow$
	Without Contrastive Learning
MSP	7.04	54.99	87.74	70.83	80.86	73.99	79.76	68.00	79.61	66.95	81.99	75.08
ODIN	7.05	47.66	89.66	60.15	84.59	67.89	81.78	50.23	85.62	56.48	85.41	75.08
Energy	7.04	55.72	89.95	59.26	85.89	64.92	82.86	53.72	85.99	58.41	86.17	75.08
GODIN	7.04	61.91	85.40	60.83	85.60	63.70	83.81	77.85	73.27	66.07	82.02	70.43
Mahalanobis	35.83	97.00	52.65	98.50	42.41	98.40	41.79	55.80	85.01	87.43	55.47	75.08
KNN ( $\alpha=100\%$ )	10.31	59.77	85.89	68.88	80.08	78.15	74.10	10.90	97.42	54.68	84.37	75.08
KNN ( $\alpha=1\%$ )	7.04	59.08	86.20	69.53	80.10	77.09	74.87	11.56	97.18	54.32	84.59	75.08
	With Contrastive Learning
SSD+	28.31	57.16	87.77	78.23	73.10	81.19	70.97	36.37	88.52	63.24	80.09	79.10
KNN+ ( $\alpha=100\%$ )	10.47	30.18	94.89	48.99	88.63	59.15	84.71	15.55	95.40	38.47	90.91	79.10
KNN+ ( $\alpha=1\%$ )	7.04	30.83	94.72	48.91	88.40	60.02	84.62	16.97	94.45	39.18	90.55	79.10

OOD 硬任务评估

硬 OOD 样本的检测尤其困难。为了测试非参数 KNN 方法的极限，我们遵循 CSI (Tack 等人, 2020) 并在几个硬 OOD 数据集上进行评估：LSUN-FIX、ImageNet-FIX、ImageNet-R 和CIFAR-100。结果总结在表2中。在相同模型下，KNN+ 始终优于 SSD+。

4.2大规模ImageNet任务评估

我们对基于 ImageNet （Deng 等人，2009）的大规模 OOD 检测任务进行了评估。与上面的 CIFAR 基准相比，由于大量的训练数据，ImageNet 任务更具挑战性。我们的目标是验证 KNN 的性能优势以及它是否可以通过数百万个样本进行计算扩展。

设置

我们使用 ResNet-50 主干网络 (He 等人, 2016) 并在分辨率为 $224\times 224$ 的 ImageNet-1k (Deng 等人, 2009) 上进行训练。根据 Khosla 等人的实验，具有 SupCon 损失的模型训练了 700 个 epoch，批量大小为 $1024$ 。温度 $\tau$ 为 $0.1$ 。我们执行最近邻搜索的倒数第二个特征的维度是 2048。项目头部尺寸为128。我们使用从 0.5 开始的余弦学习率（Loshchilov & Hutter，2016）。我们使用动量为 0.9 的随机梯度下降和权重衰减 $10^{-4}$ 来训练模型。我们使用 $k=1000$ ，它遵循与之前相同的验证过程。当随机采样 $\alpha\%$ 训练数据进行最近邻搜索时， $k$ 会相应地缩放到 $1000\cdot\alpha\%$ 。

遵循 MOS （Huang & Li，2021）中基于 ImageNet 的 OOD 检测基准，我们对四个测试 OOD 数据集进行评估，这些数据集是以下子集：Places365 (Zhou等人, 2017), 纹理 (Cimpoi 等人, 2014), iNaturalist (Van Horn 等人, 2018) 和 SUN (Xiao 等人, 2010)，类别不重叠 w.r.t. 图像网。评估涵盖多个领域，包括细粒度图像、场景图像和纹理图像。

最近邻方法在不影响推理速度的情况下实现了卓越的性能

在表4中，我们将我们的方法与文献中具有竞争力的OOD检测方法进行了比较。基线与我们在第 4.1 节中描述的相同，除了 CSI²²2CSI的训练流程CSI 在 ImageNet 上计算量巨大，在 8 个 Nvidia 2080Ti 上需要三个月的时间。. 我们报告 OOD 检测性能和推理时间（以毫秒为单位）。我们强调三个趋势：(1) KNN+ 在 FPR95 中比最佳基线高出 18.01%。 (2) 与SSD+相比，KNN+在所有测试集上平均将FPR95大幅降低了 $\textbf{24.77}\%$ 。 SSD+ 的性能限制是由于标签空间大小和数据复杂性的增加，这使得类条件高斯假设不太可行。相比之下，我们的非参数方法不会遇到这个问题，并且可以更好地估计 OOD 检测的复杂分布的密度。 (3) KNN+ 以与基线相当的推理速度实现了强大的性能。特别是，我们表明仅使用 $1\%$ 随机采样的训练数据执行最近邻距离估计可以产生与使用完整数据集类似的性能。

最近邻方法在 ViT 上具有竞争力

除了卷积神经网络之外，我们在表 5 中表明，最近邻方法对于基于 Transformer 的 ViT 模型是有效的（Dosovitskiy 等人，2021）。我们采用使用交叉熵损失在 ImageNet-1k 数据集上进行微调的 ViT-B/16 架构。在相同的 ViT 模型下，我们的非参数 KNN 方法始终优于 Mahalanobis。

表 5：在 ImageNet-1k 上微调的 ViT-B/16 模型的性能比较 (FPR95)。

	iNaturalist	SUN	Places	Textures
Mahalanobis (parametric)	17.56	80.51	84.12	70.51
KNN (non-parametric)	7.30	48.40	56.46	39.91

5 仔细研究基于 KNN 的 OOD 检测

我们提供进一步的分析和消融，以了解基于 KNN 的 OOD 检测的行为。所有消融均基于使用 SupCon 损失训练的 ImageNet 模型（与 4.2 节中相同）。

$k$ 和采样率的影响

在图2和图3（a）中，我们系统地分析了 $k$ 和数据集采样比率 $\alpha$ 的效果。我们改变邻居的数量 $k=\{1,10,20,50,100,200,500,1000,3000,5000\}$ 和随机采样率 $\alpha=\{1\%,10\%,50\%,100\%\}$ 。我们注意到几个有趣的观察结果：（1）最佳 OOD 检测（由 FPR95 测量）在不同的随机采样率 $\alpha$ 下保持相似。 (2) 最优的 $k$ 与我们的验证策略选择的一致。例如，当 $\alpha=100\%$ 时，最佳 $k$ 为1,000；当 $\alpha=1\%$ 时，最优 $k$ 变为10。 (3) 当 $k$ 相对较小时(例如、 $k<1000$ )，改变 $k$ 不会显着影响推理速度，如下所示图3 (a)。

特征标准化至关重要

在此消融中，我们对比了有和没有特征归一化的基于 KNN 的 OOD 检测的性能。第 $k$ 个NN距离可以分别由 $r_{k}(\frac{\phi(\mathbf{x})}{\lVert(\phi(\mathbf{x})\rVert})$ 和 $r_{k}(\phi(\mathbf{x}))$ 导出。如图3（b）所示，与未进行归一化的情况相比，使用特征归一化将 FPR95 大幅提高了 61.05%。为了更好地理解这一点，我们研究两个向量 $u$ 和 $v$ 之间的欧几里德距离 $r=\lVert u-v\rVert_{2}$ 。特征向量 $u$ 和 $v$ 的范数可以显着影响欧氏距离的值。有趣的是，最近的研究分享了图4（a）中的观察结果，即ID数据具有比OOD数据更大的 $L_{2}$ 特征范数（Tack等人，2020；Huang等人，2021）。因此，ID特征之间的欧氏距离可以很大（图4（b））。这与 ID 数据具有比 OOD 数据更小的 $k$ -NN 距离的希望相矛盾。事实上，标准化有效地缓解了这个问题，如图 4 (c) 所示。根据经验，归一化对于最近邻方法在 OOD 检测中取得成功起着关键作用，如图 3 (b) 所示。

使用倒数第二层的特征比使用投影头更好

在本文中，我们遵循SSD+中的约定，它使用倒数第二层的特征而不是投影头。我们还在图3（c）中验证了在所有测试 OOD 数据集上使用倒数第二层的特征比使用投影头更好。这可能是因为倒数第二层比投影头保留了更多的信息，投影头的尺寸要小得多。

KNN 可以通过激活校正进一步增强

我们证明，通过最近的激活校正方法可以使 KNN+ 变得更强（Sun 等人，2021）。结果表明，OOD 数据在某些特征维度上可能具有过高的激活值，并且这种校正可以有效地抑制这些值。根据经验，我们通过使用激活校正来比较表6中的结果，并实现了改进的 OOD 检测性能。

表 6：有和没有激活截断的基于 KNN 的方法的比较。 ID数据是ImageNet-1k。该值是所有测试 OOD 数据集的平均值。

Method	FPR95 $\downarrow$	AUROC $\uparrow$
KNN+	38.47	90.91
KNN+ (w. ReAct (Sun et al., 2021))	26.45	93.76

使用 $k$ -th 和平均 $k$ 最近邻居距离具有类似的性能

我们比较 OOD 检测的两种变体： $k$ -th 最近邻距离与平均 $k$ ( $k$ -avg) 最近邻距离。比较结果如图 3 (d) 所示，其中平均性能（在四个数据集上）相当。报告的结果基于完整的 ID 数据集 ( $\alpha=100\%$ )，并为 $k$ -th NN 和 $k$ - 选择最佳 $k$ -分别为平均 NN。尽管性能相似，但使用 $k$ 个 NN 距离具有更强的理论解释，如下一节所示。

6 理论依据

在本节中，我们提供使用 KNN 进行 OOD 检测的理论分析。通过在特征空间中对 KNN 进行建模，我们的理论 (1) 直接连接到我们也在特征空间中运行的方法，并且 (2) 通过考虑 OOD 数据的普遍性来补充我们的实验。我们的目标是分析算法的平均性能，同时与 OOD 无关和训练无关。

设置

我们将 OOD 检测任务视为一种特殊的二元分类任务，其中负样本（OOD）仅在测试阶段可用。我们假设输入来自特征嵌入空间 $\mathcal{Z}$ 和标签集 $\mathcal{G}=\{0(\text{OOD}),1(\text{ID})\}$ 。在推理阶段，测试集 $\{(\mathbf{z}_{i},g_{i})\}$ 被绘制为i.i.d. 来自 $P_{\mathcal{Z}\mathcal{G}}$ 。

将 $\mathcal{Z}$ 上的边际分布表示为 $\mathcal{P}$ 。我们采用Huber污染模型（Huber，1964）来模拟我们在测试时可能同时遇到ID和OOD数据的事实：

\mathcal{P}=\varepsilon\mathcal{P}_{out}+(1-\varepsilon)\mathcal{P}_{in},

其中 $\mathcal{P}_{in}$ 和 $\mathcal{P}_{out}$ 分别是 ID 和 OOD 数据的特征嵌入的基础分布， $\varepsilon$ 是控制测试中 OOD 样本比例的常量。我们使用小写的 $p_{in}(\mathbf{z}_{i})$ 和 $p_{out}(\mathbf{z}_{i})$ 来表示概率密度函数，其中 $p_{in}(\mathbf{z}_{i})=p(\mathbf{z}_{i}|g_{i}=1)$ 和 $p_{out}(\mathbf{z}_{i})=p(\mathbf{z}_{i}|g_{i}=0)$ 。

OOD 检测（和理论分析）的一个关键挑战是缺乏对 OOD 分布的了解，这可能普遍出现在 ID 数据之外。因此，我们试图保持我们的分析具有一般性，并反映我们没有任何关于 OOD 的强有力的先验信息这一事实。因此，我们对 OOD 数据进行建模，使其有相同的机会出现在 ID 数据的高密度区域 $p_{out}(\mathbf{z})=c_{0}\mathbf{1}\{p_{in}(\mathbf{z})<c_{1}\}$ 之外³³3在实验中，由于很难模拟通用的 OOD，我们通过使用多样化但有限的数据集集合来近似它。因此，我们的理论是对我们的实验的补充，并体现了 OOD 数据的普遍性。. 贝叶斯分类器被称为由 $h_{Bay}(\mathbf{z}_{i})=\mathbf{1}\{p(g_{i}=1|\mathbf{z}_{i})\geq\beta\}$ 定义的最佳二元分类器⁴⁴4请注意， $\beta$ 不一定是 $\frac{1}{2}$ 才能使贝叶斯分类器达到最佳效果。当 $\epsilon c_{0}\geq(1-\epsilon)c_{1}$ 时， $\beta$ 可以是大于 $\frac{(1-\epsilon)c_{1}}{(1-\epsilon)c_{1}+\epsilon c_{0}}$ 的任何值。，假设给出了基础密度函数。

如果没有这样的预言信息，我们的方法应用 $k$ -NN 作为距离度量，充当概率密度估计，从而提供基于它的决策边界。具体来说，KNN 的假设类 $\mathcal{H}$ 由 $\{h:h_{\lambda,k,\mathbb{Z}_{n}}(\mathbf{z}_{i})=\mathbf{1}\{-r_{k}(\mathbf{z}_{i})\geq\lambda\}\}$ 给出，其中 $r_{k}(\mathbf{z}_{i})$ 是到第 $k$ 个最近邻的距离 (参见部分3)。

主要结果

我们表明，基于 KNN 的 OOD 检测器可以拒绝相当于估计的贝叶斯二元决策函数的输入。较小的 KNN 距离 $r_{k}(\mathbf{z}_{i})$ 直接转化为较高的 ID 概率，反之亦然。我们在下面的定理中描述了这一点。

Theorem 6.1.

通过上面指定的设置，如果 $\hat{p}_{out}(\mathbf{z}_{i})=\hat{c}_{0}\mathbf{1}\{\hat{p}_{in}(\mathbf{z}_{i};k,n)<\frac{\beta\varepsilon\hat{c}_{0}}{(1-\beta)(1-\varepsilon)}\}$ 和 $\lambda=-\sqrt[m-1]{\frac{(1-\beta)(1-\varepsilon)k}{\beta\varepsilon c_{b}n\hat{c}_{0}}}$ ，我们有

\mathbf{1}\{-r_{k}(\mathbf{z}_{i})\geq\lambda\}=\mathbf{1}\{\hat{p}(g_{i}=1|\mathbf{z}_{i})\geq\beta\},

其中 $\hat{p}(\cdot)$ 表示经验估计。证明在附录A中。

7相关工作

OOD检测

神经网络对分布外数据过度自信的现象首次在（Nguyen等人，2015）中被揭示，它在几个蓬勃发展的方向吸引了越来越多的研究关注：

（1）其中一项工作尝试通过设计评分函数来执行 OOD 检测，包括 OpenMax 评分（Bendale & Boult，2015）、最大 softmax 概率（Hendrycks & Gimpel，2017）、ODIN 评分 (Liang 等人, 2018)、深度集成 (Lakshminarayanan 等人, 2017)、Mahalanobis 基于距离的评分 (Lee 等人, 2018)，能量得分(Liu 等人, 2020; Lin 等人, 2021; Wang 等人, 2021; Morteza & Li, 2022)，激活校正(ReAct) （孙等人，2021），基于梯度的得分（黄等人，2021）和ViM得分（王等人，2022）。在 Huang & Li (2021) 中，作者透露，为 CIFAR 数据集开发的方法可能无法有效转化为大规模 ImageNet 基准，并强调需要在现实世界中评估 OOD 检测方法环境。迄今为止，没有先前的工作研究了用于 OOD 检测的非参数最近邻方法。我们的工作通过提出第一项探索使用最近邻距离进行 OOD 检测的功效的研究来弥补这一差距。我们在多个 OOD 检测基准上展示了卓越的性能，我们希望我们的工作能够引起人们对非参数方法的强大前景的关注。

(2) 另一项有希望的工作是通过训练时间正则化来解决 OOD 检测(Lee 等人, 2017; Bevandić 等人, 2018; Malinin & Gales, 2018; Hendrycks 等人, 2019; Geifman & El-Yaniv, 2019；Meinke 等人，2019；Mohseni 等人，2020；Van Amersfoort 等人，2021； ; 魏等人, 2022; 明等人, 2022a; Katz-Samuels 等人, 2022)。例如，鼓励模型给出均匀分布（Lee等人，2017；Hendrycks等人，2019）或更高能量（Liu等人，2020；Ming等人，2022a）的预测; Du 等人, 2022a; Katz-Samuels 等人, 2022) 对于异常数据。大多数正则化方法需要辅助 OOD 数据的可用性。最近，VOS (Du 等人, 2022b) 通过自动合成虚拟异常值来缓解这一需求，这些虚拟异常值可以在训练期间有效地规范模型的决策边界。

(3) 最近，一些工作探讨了表示学习在 OOD 检测中的作用。特别是，CSI (Tack 等人，2020) 研究了特别有利于 OOD 检测的数据增强类型。其他工作（Winkens等人，2020；Sehwag等人，2021）验证了应用现成的多视图对比损失（例如SimCLR）的有效性（Chen等人，2020） ) 和 SupCon (Khosla 等人, 2020) 用于 OOD 检测。这两篇作品都使用马哈拉诺比斯距离作为 OOD 分数，并通过将类条件特征空间建模为多元高斯分布来做出强分布假设。 Ming 等人 (2022b) 提出了一种基于原型的 OOD 检测对比学习框架，它比 SupCon 损失具有更强的 ID-OOD 可分离性。我们的方法和以前的工作在 OOD 检测方法上有根本的不同，尽管都受益于高质量的表示。特别是，KNN 是一种非参数方法，不会强加 ID 分布的先验。在性能方面，我们的方法明显优于 SSD，并且在实践中易于使用。

用于异常检测的 KNN

KNN 已被探索用于异常检测（Jing 等人，2014；Zhao & Lai，2020；Bergman 等人，2020），旨在检测某一类中的异常输入样本。我们专注于 OOD 检测，这需要额外对 ID 数据执行多类分类。最近的其他一些工作（Dang 等人，2015；Gu 等人，2019；Pires 等人，2020）探索了基于 KNN 的表格数据异常检测的有效性。目前，在深度神经网络中使用 KNN 进行 OOD 检测的潜力尚未得到充分开发。我们的工作提供了使用基于 KNN 的 OOD 检测方法的新的实证见解和理论分析。

8结论

本文提出了第一项探索和证明非参数最近邻距离在 OOD 检测中的有效性的研究。与之前的工作不同，非参数方法不对底层特征空间强加任何分布假设，因此提供了更强的灵活性和通用性。我们提供了重要的见解，即高质量的特征嵌入和合适的距离测量是 OOD 检测任务的两个不可或缺的组成部分。大量实验表明，基于 KNN 的方法可以显着提高多个 OOD 检测基准的性能，取得优异的结果。我们希望我们的工作能够启发未来使用非参数方法进行 OOD 检测的研究。

致谢

工作得到了美国家庭保险研究奖的支持。 Zhu 承认 NSF 拨款 1545481、1704117、1836978、2041428、2023239、ARO MURI W911NF2110317 和 MADLab AF CoE FA9550-18-1-0166。作者还要感谢 ICML 审稿人提供的有用建议和反馈。

参考

Bendale & Boult (2015) Bendale, A. and Boult, T. Towards open world recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1893–1902, 2015.
Bergman et al. (2020) Bergman, L., Cohen, N., and Hoshen, Y. Deep nearest neighbor anomaly detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
Bevandić et al. (2018) Bevandić, P., Krešo, I., Oršić, M., and Šegvić, S. Discriminative out-of-distribution detection for semantic segmentation. arXiv preprint arXiv:1808.07703, 2018.
Breunig et al. (2000) Breunig, M. M., Kriegel, H.-P., Ng, R. T., and Sander, J. Lof: identifying density-based local outliers. In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, pp. 93–104, 2000.
Chen et al. (2021) Chen, J., Li, Y., Wu, X., Liang, Y., and Jha, S. Atom: Robustifying out-of-distribution detection using outlier mining. Proceedings of European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2021.
Chen et al. (2020) Chen, T., Kornblith, S., Norouzi, M., and Hinton, G. A simple framework for contrastive learning of visual representations. In Proceedings of the International Conference on Machine Learning, pp. 1597–1607. PMLR, 2020.
Cimpoi et al. (2014) Cimpoi, M., Maji, S., Kokkinos, I., Mohamed, S., and Vedaldi, A. Describing textures in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3606–3613, 2014.
Dang et al. (2015) Dang, T. T., Ngan, H. Y., and Liu, W. Distance-based k-nearest neighbors outlier detection method in large-scale traffic data. In 2015 IEEE International Conference on Digital Signal Processing (DSP), pp. 507–510. IEEE, 2015.
Deng et al. (2009) Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image database. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 248–255, 2009.
Dosovitskiy et al. (2021) Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., and Houlsby, N. An image is worth 16x16 words: Transformers for image recognition at scale. In Proceedings of the International Conference on Learning Representations, 2021.
Du et al. (2022a) Du, X., Wang, X., Gozum, G., and Li, Y. Unknown-aware object detection: Learning what you don’t know from videos in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022a.
Du et al. (2022b) Du, X., Wang, Z., Cai, M., and Li, S. Towards unknown-aware learning with virtual outlier synthesis. In Proceedings of the International Conference on Learning Representations, 2022b.
Geifman & El-Yaniv (2019) Geifman, Y. and El-Yaniv, R. Selectivenet: A deep neural network with an integrated reject option. arXiv preprint arXiv:1901.09192, 2019.
Gu et al. (2019) Gu, X., Akoglu, L., and Rinaldo, A. Statistical analysis of nearest neighbor methods for anomaly detection. In Proceedings of the Advances in Neural Information Processing Systems, volume 32, 2019.
He et al. (2016) He, K., Zhang, X., Ren, S., and Sun, J. Identity mappings in deep residual networks. In Proceedings of the European Conference on Computer Vision, pp. 630–645. Springer, 2016.
Hein et al. (2019) Hein, M., Andriushchenko, M., and Bitterwolf, J. Why relu networks yield high-confidence predictions far away from the training data and how to mitigate the problem. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 41–50, 2019.
Hendrycks & Gimpel (2017) Hendrycks, D. and Gimpel, K. A baseline for detecting misclassified and out-of-distribution examples in neural networks. Proceedings of the International Conference on Learning Representations, 2017.
Hendrycks et al. (2019) Hendrycks, D., Mazeika, M., and Dietterich, T. Deep anomaly detection with outlier exposure. Proceedings of the International Conference on Learning Representations, 2019.
Henze & Zirkler (1990) Henze, N. and Zirkler, B. A class of invariant consistent tests for multivariate normality. Communications in statistics-Theory and Methods, 19(10):3595–3617, 1990.
Hsu et al. (2020) Hsu, Y.-C., Shen, Y., Jin, H., and Kira, Z. Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 10951–10960, 2020.
Huang et al. (2017) Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. Densely connected convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4700–4708, 2017.
Huang & Li (2021) Huang, R. and Li, Y. Mos: Towards scaling out-of-distribution detection for large semantic space. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8710–8719, June 2021.
Huang et al. (2021) Huang, R., Geng, A., and Li, Y. On the importance of gradients for detecting distributional shifts in the wild. In Proceedings of the Advances in Neural Information Processing Systems, 2021.
Huber (1964) Huber, P. J. Robust estimation of a location parameter. Annals of Mathematical Statistics, 35:73–101, March 1964.
Jeong & Kim (2020) Jeong, T. and Kim, H. Ood-maml: Meta-learning for few-shot out-of-distribution detection and classification. Proceedings of the Advances in Neural Information Processing Systems, 33:3907–3916, 2020.
Jing et al. (2014) Jing, T., Michael, A., and Pech, M. Anomaly detection using self-organizing maps-based k-nearest neighbor algorithm. In PHM Society European Conference, 2(1), 2014.
Johnson et al. (2019) Johnson, J., Douze, M., and Jégou, H. Billion-scale similarity search with gpus. IEEE Transactions on Big Data, 7(3):535–547, 2019.
Katz-Samuels et al. (2022) Katz-Samuels, J., Nakhleh, J., Nowak, R., and Li, Y. Training ood detectors in their natural habitats. In International Conference on Machine Learning (ICML). PMLR, 2022.
Khosla et al. (2020) Khosla, P., Teterwak, P., Wang, C., Sarna, A., Tian, Y., Isola, P., Maschinot, A., Liu, C., and Krishnan, D. Supervised contrastive learning. In Proceedings of the Advances in Neural Information Processing Systems, volume 33, pp. 18661–18673, 2020.
Lakshminarayanan et al. (2017) Lakshminarayanan, B., Pritzel, A., and Blundell, C. Simple and scalable predictive uncertainty estimation using deep ensembles. In Proceedings of the Advances in Neural Information Processing Systems, pp. 6402–6413, 2017.
Lee et al. (2017) Lee, K., Lee, H., Lee, K., and Shin, J. Training confidence-calibrated classifiers for detecting out-of-distribution samples. arXiv preprint arXiv:1711.09325, 2017.
Lee et al. (2018) Lee, K., Lee, K., Lee, H., and Shin, J. A simple unified framework for detecting out-of-distribution samples and adversarial attacks. In Proceedings of the Advances in Neural Information Processing Systems, pp. 7167–7177, 2018.
Liang et al. (2018) Liang, S., Li, Y., and Srikant, R. Enhancing the reliability of out-of-distribution image detection in neural networks. In Proceedings of the International Conference on Learning Representations, 2018.
Lin et al. (2021) Lin, Z., Roy, S. D., and Li, Y. Mood: Multi-level out-of-distribution detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 15313–15323, June 2021.
Liu et al. (2008) Liu, F. T., Ting, K. M., and Zhou, Z.-H. Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining, pp. 413–422, 2008. doi: 10.1109/ICDM.2008.17.
Liu et al. (2020) Liu, W., Wang, X., Owens, J., and Li, Y. Energy-based out-of-distribution detection. Proceedings of the Advances in Neural Information Processing Systems, 2020.
Loshchilov & Hutter (2016) Loshchilov, I. and Hutter, F. Stochastic gradient descent with warm restarts. In Proceedings of the International Conference on Learning Representations, pp. 1–16, 2016.
Mahalanobis (1936) Mahalanobis, P. C. On the generalized distance in statistics. National Institute of Science of India, 1936.
Malinin & Gales (2018) Malinin, A. and Gales, M. Predictive uncertainty estimation via prior networks. In Proceedings of the Advances in Neural Information Processing Systems, pp. 7047–7058, 2018.
McInnes et al. (2018) McInnes, L., Healy, J., Saul, N., and Grossberger, L. Umap: Uniform manifold approximation and projection. The Journal of Open Source Software, 3(29):861, 2018.
Meinke & Hein (2019) Meinke, A. and Hein, M. Towards neural networks that provably know when they don’t know. Proceedings of the International Conference on Learning Representations, 2019.
Ming et al. (2022a) Ming, Y., Fan, Y., and Li, Y. Poem: Out-of-distribution detection with posterior sampling. In Proceedings of the International Conference on Machine Learning. PMLR, 2022a.
Ming et al. (2022b) Ming, Y., Sun, Y., Dia, O., and Li, Y. Cider: Exploiting hyperspherical embeddings for out-of-distribution detection. arXiv preprint arXiv:2203.04450, 2022b.
Mohseni et al. (2020) Mohseni, S., Pitale, M., Yadawa, J., and Wang, Z. Self-supervised learning for generalizable out-of-distribution detection. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pp. 5216–5223, 2020.
Morteza & Li (2022) Morteza, P. and Li, Y. Provable guarantees for understanding out-of-distribution detection. Proceedings of the AAAI Conference on Artificial Intelligence, 2022.
Netzer et al. (2011) Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B., and Ng, A. Y. Reading digits in natural images with unsupervised feature learning. 2011.
Nguyen et al. (2015) Nguyen, A., Yosinski, J., and Clune, J. Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 427–436, 2015.
Paszke et al. (2019) Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Kopf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., and Chintala, S. Pytorch: An imperative style, high-performance deep learning library. In Proceedings of the Advances in Neural Information Processing Systems 32, pp. 8024–8035. 2019.
Pevnỳ (2016) Pevnỳ, T. Loda: Lightweight on-line detector of anomalies. Machine Learning, 102(2):275–304, 2016.
Pires et al. (2020) Pires, C., Barandas, M., Fernandes, L., Folgado, D., and Gamboa, H. Towards knowledge uncertainty estimation for open set recognition. Machine Learning Knowledge, 2:505–532, 2020.
Schölkopf et al. (2001) Schölkopf, B., Platt, J. C., Shawe-Taylor, J., Smola, A. J., and Williamson, R. C. Estimating the Support of a High-Dimensional Distribution. Neural Computation, 13(7):1443–1471, 07 2001. ISSN 0899-7667.
Sehwag et al. (2021) Sehwag, V., Chiang, M., and Mittal, P. Ssd: A unified framework for self-supervised outlier detection. In Proceedings of the International Conference on Learning Representations, 2021.
Shyu et al. (2003) Shyu, M.-L., Chen, S.-C., Sarinnapakorn, K., and Chang, L. A novel anomaly detection scheme based on principal component classifier. Technical report, Miami Univ Coral Gables Fl Dept of Electrical and Computer Engineering, 2003.
Sun et al. (2021) Sun, Y., Guo, C., and Li, Y. React: Out-of-distribution detection with rectified activations. In Proceedings of the Advances in Neural Information Processing Systems, 2021.
Tack et al. (2020) Tack, J., Mo, S., Jeong, J., and Shin, J. Csi: Novelty detection via contrastive learning on distributionally shifted instances. In Proceedings of the Advances in Neural Information Processing Systems, 2020.
Van Amersfoort et al. (2020) Van Amersfoort, J., Smith, L., Teh, Y. W., and Gal, Y. Uncertainty estimation using a single deep deterministic neural network. In Proceedings of the International Conference on Machine Learning, 2020.
Van Horn et al. (2018) Van Horn, G., Mac Aodha, O., Song, Y., Cui, Y., Sun, C., Shepard, A., Adam, H., Perona, P., and Belongie, S. The inaturalist species classification and detection dataset. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8769–8778, 2018.
Wang et al. (2021) Wang, H., Liu, W., Bocchieri, A., and Li, Y. Can multi-label classification networks know what they don’t know? Proceedings of the Advances in Neural Information Processing Systems, 2021.
Wang et al. (2022) Wang, H., Li, Z., Feng, L., and Zhang, W. Vim: Out-of-distribution with virtual-logit matching. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2022.
Wei et al. (2022) Wei, H., Xie, R., Cheng, H., Feng, L., An, B., and Li, Y. Mitigating neural network overconfidence with logit normalization. Proceedings of the International Conference on Machine Learning, 2022.
Winkens et al. (2020) Winkens, J., Bunel, R., Roy, A. G., Stanforth, R., Natarajan, V., Ledsam, J. R., MacWilliams, P., Kohli, P., Karthikesalingam, A., Kohl, S., et al. Contrastive training for improved out-of-distribution detection. arXiv preprint arXiv:2007.05566, 2020.
Xiao et al. (2010) Xiao, J., Hays, J., Ehinger, K. A., Oliva, A., and Torralba, A. Sun database: Large-scale scene recognition from abbey to zoo. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3485–3492, 2010.
Xu et al. (2015) Xu, P., Ehinger, K. A., Zhang, Y., Finkelstein, A., Kulkarni, S. R., and Xiao, J. Turkergaze: Crowdsourcing saliency with webcam based eye tracking. arXiv preprint arXiv:1504.06755, 2015.
Yang et al. (2021) Yang, J., Wang, H., Feng, L., Yan, X., Zheng, H., Zhang, W., and Liu, Z. Semantically coherent out-of-distribution detection. In Proceedings of the IEEE International Conference on Computer Vision, pp. 8301–8309, October 2021.
Yu et al. (2015) Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015.
Zhao & Lai (2020) Zhao, P. and Lai, L. Analysis of knn density estimation. arXiv preprint arXiv:2010.00438, 2020.
Zhou et al. (2017) Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., and Torralba, A. Places: A 10 million image database for scene recognition. Proceedings of the IEEE transactions on pattern analysis and machine intelligence, 40(6):1452–1464, 2017.

附录A理论分析

定理证明6.1

我们现在提供证明草图，供读者理解关键思想，该思想围绕着对概率 $\hat{p}(g_{i}=1|\mathbf{z}_{i})$ 进行经验估计。根据贝叶斯规则， $\mathbf{z}$ 为ID数据的概率为：

	$\displaystyle p(g_{i}=1\|\mathbf{z}_{i})$	$\displaystyle=\frac{p(\mathbf{z}_{i}\|g_{i}=1)\cdot p(g_{i}=1)}{p(\mathbf{z}_{i})}$
		$\displaystyle=\frac{p_{in}(\mathbf{z}_{i})\cdot p(g_{i}=1)}{p_{in}(\mathbf{z}_{i})\cdot p(g_{i}=1)+p_{out}(\mathbf{z}_{i})\cdot p(g_{i}=0)}$
	$\displaystyle\hat{p}(g_{i}=1\|\mathbf{z}_{i})$	$\displaystyle=\frac{(1-\varepsilon)\hat{p}_{in}(\mathbf{z}_{i})}{(1-\varepsilon){\hat{p}_{in}(\mathbf{z}_{i})+\varepsilon\hat{p}_{out}(\mathbf{z}_{i})}}.$

因此，估计 $\hat{p}(g_{i}=1|\mathbf{z}_{i})$ 归结为推导 $\hat{p}_{in}(\mathbf{z}_{i})$ 和 $\hat{p}_{out}(\mathbf{z}_{i})$ 的经验估计，我们分别在下面展示。

$\hat{p}_{in}(\mathbf{z}_{i})$ 的估计

回想一下， $\mathbf{z}$ 是 $\mathbb{R}^{m}$ 中的归一化特征向量。因此 $\mathbf{z}$ 位于 $m$ 维单位球面的表面上。我们表示 $B(\mathbf{z},r)=\{\mathbf{z}^{\prime}:\lVert\mathbf{z}^{\prime}-\mathbf{z}\rVert_{2}\leq r\}\cap\{\lVert\mathbf{z}^{\prime}\rVert_{2}=1\}$ ，它是单位超球面上的一组数据点，距中心 $\mathbf{z}$ 至多为 $r$ 欧几里得距离。请注意， $B(\mathbf{z},r)$ 的局部维度是 $m-1$ 。

假设密度满足勒贝格微分定理，则概率密度函数可以通过以下方式获得：

p_{in}(\mathbf{z}_{i})=\lim_{r\rightarrow 0}\frac{p(\mathbf{z}\in B(\mathbf{z}_{i},r)|g_{i}=1)}{|B(\mathbf{z}_{i},r)|}.

在训练时，我们凭经验观察 $n$ 分布样本 $\mathbb{Z}_{n}=\{\mathbf{z}^{\prime}_{1},\mathbf{z}^{\prime}_{2},...,\mathbf{z}^{\prime}_{n}\}$ 。我们假设每个样本 $\mathbf{z}^{\prime}_{j}$ 都是i.i.d，概率质量为 $\frac{1}{n}$ 。 ID 数据的经验点密度可以通过 $k$ -NN 距离来估计：

	$\displaystyle\hat{p}_{in}(\mathbf{z}_{i};k,n)$	$\displaystyle=\frac{p(\mathbf{z}^{\prime}_{j}\in B(\mathbf{z}_{i},r_{k}(\mathbf{z}_{i}))\|\mathbf{z}^{\prime}_{j}\in\mathbb{Z}_{n})}{\|B(\mathbf{z}_{i},r_{k}(\mathbf{z}_{i}))\|}$
		$\displaystyle=\frac{k}{c_{b}n(r_{k}(\mathbf{z}_{i}))^{m-1}},$

其中 $c_{b}$ 是一个常数。下面的引理A.1建立了估计器的收敛速度。

Lemma A.1.

\lim_{\frac{k}{n}\rightarrow 0}\hat{p}_{in}(\mathbf{z}_{i};k,n)=p_{in}(\mathbf{z}_{i})

具体来说，

\mathbb{E}[|\hat{p}_{in}(\mathbf{z}_{i};k,n)-p_{in}(\mathbf{z}_{i})|]=o(\sqrt[m-1]{\frac{k}{n}}+\sqrt{\frac{1}{k}})

证明在（Zhao & Lai，2020）中给出。

$\hat{p}_{out}(\mathbf{z}_{i})$ 的估计

OOD 检测的一个关键挑战是缺乏对 OOD 分布的了解，这可能普遍出现在 ID 数据之外。因此，我们试图保持我们的分析具有一般性，并反映我们没有任何关于 OOD 的强有力的先验信息这一事实。因此，我们对 OOD 数据进行建模时，出现在 ID 数据高密度区域之外的机会均等。因此，我们的理论是对我们的实验的补充，并体现了 OOD 数据的普遍性。具体来说，我们表示

\hat{p}_{out}(\mathbf{z}_{i})=\hat{c}_{0}\mathbf{1}\{\hat{p}_{in}(\mathbf{z}_{i};k,n)<\frac{\beta\varepsilon\hat{c}_{0}}{(1-\beta)(1-\varepsilon)}\}

其中选择阈值以满足定理。

最后，通过插入 $\hat{p}_{in}(\mathbf{z}_{i})$ 和 $\hat{p}_{out}(\mathbf{z}_{i})$ 的经验估计，我们的定理成立。

证明。

	$\displaystyle\mathbf{1}\{-r_{k}(\mathbf{z}_{i})\geq\lambda\}$	$\displaystyle=\mathbf{1}\{\varepsilon c_{b}n\hat{c}_{0}(r_{k}(\mathbf{z}_{i}))^{m-1}\leq\frac{1-\beta}{\beta}(1-\varepsilon)k\}$
		$\displaystyle=\mathbf{1}\{\varepsilon c_{b}n\hat{c}_{0}\mathbf{1}\{\varepsilon c_{b}n\hat{c}_{0}(r_{k}(\mathbf{z}_{i}))^{m-1}>\frac{1-\beta}{\beta}(1-\varepsilon)k\}(r_{k}(\mathbf{z}_{i}))^{m-1}\leq\frac{1-\beta}{\beta}(1-\varepsilon)k\}$
		$\displaystyle=\mathbf{1}\{\varepsilon c_{b}n\hat{c}_{0}\mathbf{1}\{\hat{p}_{in}(\mathbf{z}_{i};k,n)<\frac{\beta\varepsilon\hat{c}_{0}}{(1-\beta)(1-\varepsilon)}\}(r_{k}(\mathbf{z}_{i}))^{m-1}\leq\frac{1-\beta}{\beta}(1-\varepsilon)k\}$
		$\displaystyle=\mathbf{1}\{\varepsilon c_{b}n\hat{p}_{out}(\mathbf{z}_{i})(r_{k}(\mathbf{z}_{i}))^{m-1}\leq\frac{1-\beta}{\beta}(1-\varepsilon)k\}$
		$\displaystyle=\mathbf{1}\{\frac{k(1-\varepsilon)}{k(1-\varepsilon)+\varepsilon c_{b}n\hat{p}_{out}(\mathbf{z}_{i})(r_{k}(\mathbf{z}_{i}))^{m-1}}\geq\beta\}$
		$\displaystyle=\mathbf{1}\{\hat{p}(g_{i}=1\|\mathbf{z}_{i})\geq\beta\}$

∎

表 7：与 DenseNet-101 的比较结果。与竞争性分布外检测方法的比较。所有方法都基于仅在 ID 数据上训练的模型。所有值均为百分比，并且是所有 OOD 测试数据集的平均值。

Method	CIFAR-10			CIFAR-100
Method	FPR95 $\downarrow$	AUROC $\uparrow$	ID ACC $\uparrow$	FPR95 $\downarrow$	AUROC $\uparrow$	ID ACC $\uparrow$
MSP	49.95	92.05	94.38	79.10	75.39	75.08
Energy	30.16	92.44	94.38	68.03	81.40	75.08
ODIN	30.02	93.86	94.38	55.96	85.16	75.08
Mahalanobis	35.88	87.56	94.38	74.57	66.03	75.08
GODIN	28.98	92.48	94.22	55.38	83.76	74.50
CSI	70.97	78.42	93.49	79.13	60.41	68.48
SSD+	16.21	96.96	94.45	43.44	88.97	75.21
KNN+ (ours)	12.16	97.58	94.45	37.27	89.63	75.21

附录B配置

异常检测的非参数方法我们在本节中提供非参数方法的实现细节。具体来说，

IForest (Liu 等人, 2008) 假设可以通过更少的步骤隔离测试异常，从而生成随机森林。我们在集合中使用 100 个基本估计器，每个估计器随机抽取 256 个样本进行训练。用于训练每个基本估计器的特征数量设置为 512。

LOF (Breunig 等人, 2000) 根据样本的 $k$ -NN 距离定义异常值分数。我们设置 $k=50$ 。

LODA (Pevnỳ, 2016) 是结合多个较弱二元分类器的集成解决方案。直方图的箱数设置为 10。

PCA (Shyu 等人, 2003)在映射到特征值较小的方向时检测出值较大的异常样本。我们使用 50 个分量来计算异常值分数。

OCSVM (Schölkopf 等人, 2001) 通过核函数学习与所需密度水平集相对应的决策边界。我们将 RBF 内核与 $\gamma=\frac{1}{512}$ 一起使用。训练误差分数的上限设置为 0.5。

其中一些方法（Schölkopf等人，2001；Shyu等人，2003）是专门为假设ID数据来自一个类别的异常检测场景而设计的。我们表明，具有类感知嵌入的 $k$ -NN 距离可以实现 OOD 检测和多类分类任务。

附录 C不同架构的结果

在主论文中，我们证明了最近邻方法在 ResNet 上具有竞争力。在本节中，我们在表 7 中显示，KNN 在不同的网络架构 DenseNet-101 （Huang 等人，2017）上都具有出色的性能。报告的所有数字都是对 4.1 节中描述的 OOD 测试数据集进行平均。

	$\displaystyle p(g_{i}=1\|\mathbf{z}_{i})$	$\displaystyle=\frac{p(\mathbf{z}_{i}\|g_{i}=1)\cdot p(g_{i}=1)}{p(\mathbf{z}_{i})}$
		$\displaystyle=\frac{p_{in}(\mathbf{z}_{i})\cdot p(g_{i}=1)}{p_{in}(\mathbf{z}_{i})\cdot p(g_{i}=1)+p_{out}(\mathbf{z}_{i})\cdot p(g_{i}=0)}$
	$\displaystyle\hat{p}(g_{i}=1\|\mathbf{z}_{i})$	$\displaystyle=\frac{(1-\varepsilon)\hat{p}_{in}(\mathbf{z}_{i})}{(1-\varepsilon){\hat{p}_{in}(\mathbf{z}_{i})+\varepsilon\hat{p}_{out}(\mathbf{z}_{i})}}.$