使用神经

激活先验进行分布外检测

Weilin Wan, Weizhong Zhang, Quan Zhou, Fan Yi, Cheng Jin
School of Computer Science, Fudan University

wlwan23@m.fudan.edu.cn, weizhongzhang@fudan.edu.cn
qzhou21@m.fudan.edu.cn, fyi21@m.fudan.edu.cn, jc@fudan.edu.cn

Corresponding author.
摘要

分布外检测(OOD)是在现实世界中部署机器学习模型以处理未见过的场景的关键技术。 在本文中,我们首先提出了一种用于 OOD 检测的简单而有效的Neural A激活Prior (NAP)。 我们的神经激活先验基于一个关键观察,即对于经过充分训练的神经网络的全局池化层之前的通道,少数神经元被分布内 (ID) 样本的大响应激活的概率是显着的高于 OOD 样本。 直观的解释是,对于在 ID 数据集上完全训练的模型,每个通道将在检测 ID 数据集中的某种模式中发挥作用,并且当在输入样本中检测到该模式时,可以激活一些神经元并产生较大的响应。 然后,提出了一种基于此先验的新评分函数,以突出这些强烈激活的神经元在 OOD 检测中的作用。 我们的方法是即插即用的,不会导致 ID 数据分类的任何性能下降,并且不需要来自训练或外部数据集的额外训练或统计数据。 请注意,以前的方法主要依赖于神经网络的后全局池化特征,而我们利用的通道内分布信息将被全局池化算子丢弃。 因此,我们的方法与现有方法正交,并且可以在各种应用中与它们有效地结合。 实验结果表明,我们的方法在 CIFAR 基准和 ImageNet 数据集上实现了最先进的性能,这证明了所提出的先验的强大功能。 最后,我们将我们的方法扩展到 Transformers,实验结果表明 NAP 还可以显着提高 Transformers 上 OOD 检测的性能,从而证明了该先验知识的广泛适用性。

1简介

深度学习在过去十年中发展迅速,成为各个领域的关键技术。 然而,当神经网络遇到与自己的数据相差很大的数据时,在推理训练中经常会做出错误的判断,这就是所谓的分布外(OOD)数据。 这一挑战变得越来越普遍,在自动驾驶[11, 20]和医疗诊断[33]等安全关键领域尤为重要,这促使了有效的OOD检测方法。

在实践中,OOD数据表现出很大的多样性并且难以识别[49] 现有研究通常利用先验知识将 OOD 检测制定为一类分类任务。 他们[14,27,51]提出了各种先验,并在此基础上进一步设计了评分函数来区分 OOD 样本和 ID 样本。 例如,Hendrycks等人[14]观察到OOD样本总是表现出较低的最大softmax概率,因此提出使用神经网络输出的最大softmax概率作为OOD指标。 刘等人[27]发现OOD样本通常具有较低的logits值,并基于此提出了用于OOD检测的能量函数。 从这些先例来看,很明显现有的方法在很大程度上依赖于某些先验的引入。 虽然一些有希望的结果强调了这些启发式方法的有效性,但在满足实际应用的实际要求方面仍然存在差距。 重要的是,我们注意到这些先验的焦点主要集中在全局池化之后的特征和权重上,而池化层之前的特征始终被忽略。 因此,我们认为,找到并纳入可以补充这些现有焦点的先验至关重要,这将构成我们工作的主要贡献。

在这项研究中,我们提出了一种新颖的先验,称为Neural A激活Prior(NAP),用于 OOD 检测。 NAP 表征了我们的关键观察结果,即对于经过充分训练的神经网络中全局池化层之前的通道(如图 3(a) 所示),少数神经元在以下情况下有显着较高的概率显示更大的响应:与 OOD 样本相比,由分布内 (ID) 样本激活。 NAP 的一个直观解释是,在 ID 数据集上完全训练的模型中的通道在检测 ID 数据集输入样本中的某些模式方面发挥着作用。 当检测到此类模式时,可以激活一些神经元[16],从而产生更大的反应。 当输入样本是 ID 数据时,通常会出现这些大的响应,但是当输入是 OOD 数据时,很少观察到这样的响应。 这是因为神经元关注的模式不太可能出现在 OOD 数据中。 为了验证我们之前提出的建议,我们在 CIFAR-10 [23] 和纹理 [5] 数据集上采用 DenseNet 架构 [18],分析平均值以及倒数第二层全局池化之前的最大通道内激活。 1清楚地表明,在相同的平均激活水平下,ID 样本的最大激活值明显高于 OOD 样本。 因此,一系列基于池化激活值的方法,例如[14,40,27,26,25,39,8,2,38]中的方法无法有效区分这些OOD样本,考虑到它们的平均激活值的非歧视性。

Refer to caption
(a) Activation Maps of ID and OOD samples.
Refer to caption
(b) Activation distribution difference between ID data and OOD data.
图1 全局池化导致忽略通道内激活值的分布特征,从而难以区分ID和OOD样本。 (a) 显示了同一通道内分布内 (ID) 样本(左)和分布外 (OOD) 样本(右)的倒数第二层的激活值映射。 在这一层中,不同的通道通常关注不同的语义特征。 当图像中出现特定特征时,例如左图像的中心区域,该位置将具有非常高的激活值。 尽管 OOD 样本缺乏这些特定特征,但模型对 OOD 数据的不熟悉会导致不可预测的激活,可能导致弱噪声激活(右图)。 [38]对此进行了详细说明。 现有方法通常依赖于合并激活值来进行 OOD 检测。 因此,在 (a) 中,ID 和 OOD 样本的平均通道激活值为 1.15,这使得现有方法无法区分它们。 然而,本文提出的NAP评分可以有效地区分它们。 附录J中提供了更多类似(a)的示例。 (b) 显示了通道内 ID 和 OOD 数据之间的激活分布差异。 横轴表示平均激活值,纵轴表示最大激活值。 有趣的是,在相同的平均激活水平下,ID 数据 (CIFAR-10) 显示出比 OOD 数据(纹理)显着更高的最大激活值。 这个图案是 不独特 333rd 通道,但在大多数通道中都可以观察到,证实了 (a) 中的现象。

值得注意的是,我们提出的先验与当前 OOD 检测方法中使用的先验是正交的。 在OOD检测领域,如图3(a)所示,现有方法[14,40,27,26,25,39,8,2,38]主要关注全局池化后神经网络的输出和权重,并用它们来设计OOD检测的评分函数。 相比之下,我们提出的先验是在全局池化之前关注倒数第二层的通道。 由于先验中携带的信息在全局池化过程中很容易丢失,这表明我们的 NAP 本质上是对当前 OOD 检测研究中使用的先验的补充。 为此,我们要强调的是,本文的贡献在于,通过将我们的方法与现有方法相结合,我们可以实现多少改进,而不是与该领域现有方法进行直接比较。

此外,在本文中,我们基于之前的 NAP 提出了一种简单而有效的 OOD 检测评分函数。 准确地说,我们的评分函数基于通道内最大激活值与平均激活值的比率。 评分函数背后的基本原理可以从两个主要角度来理解:来自信噪比 (SNR) 的概念灵感和经验验证。 在概念方面,受信噪比概念的启发,我们可以将最大激活值视为信号强度,而平均激活值代表噪声强度。 因此,最大值与平均值的比值可以用来衡量信道中包含的信息的质量。 在实证方面,如图1所示,ID样本的最大值与平均值的比率明显高于OOD数据。 关于实际部署,如前所述,我们的评分函数补充了现有指标,并在与现有指标相乘时改进了 OOD 检测,如图 2 所示。 此外,值得注意的是,这种评分功能是一种即插即用的方法,不需要额外的训练、额外的数据,也不需要依赖训练集中预先计算的统计数据,这使得它具有广泛的适用性。

Refer to caption
(a) Energy Score
Refer to caption
(b) NAP Score
Refer to caption
(c) Energy × NAP Score
图2 在 CIFAR-10 (ID) 和 iSun (OOD) 上使用 DenseNet 进行分数分布可视化 (a) 能量得分和 (b) NAP 得分通过乘法进行整合,得到 (c) 能量 × NAP 得分,证明了 ID 和 OOD 数据集之间的卓越区分。 这种方法的有效性归因于所提出的 NAP 相对于以能量得分为例的传统 OOD 检测方法的正交性。 这说明与 NAP 的简单乘法组合增强了检测能力。 重要的是,目标不仅仅是超越能源评分本身的性能,而是强调 NAP 作为能源评分和类似方法的补充增强的协同潜力。

实验结果表明,我们的方法在 CIFAR-10 [23]、CIFAR-100 [23] 和 ImageNet 数据集上实现了最先进的性能。 具体来说,我们的方法在 CIFAR-10 数据集[23]上显着降低了 48.23% 的误报率(从 15.05 到 7.79),在 CIFAR 上降低了 37.89%(从 41.40 到 25.71) -100 数据集[23],在 ImageNet 数据集上减少了 16.26%(从 35.66 到 29.86)。 FPR95 的大幅下降凸显了我们的方法在不同环境中的有效性。 上述实验结果证明了我们提出的先验的力量。 我们相信这些发现将为其他研究人员提供启发,从而促进 OOD 检测领域的进步。

此外,虽然卷积神经网络 (CNN) 主要用于 OOD 检测任务,但 Transformer 架构[46]及其变体的出现在各种应用中展现了巨大的功效。 受此启发,我们扩展了我们的方法以确保与 Transformer 模型的兼容性。 从我们的实验中获得的经验证据证实了我们方法的稳健性,证明了其对各种架构范式的适应性。

总之,我们的贡献如下:

  • 我们引入了神经激活先验(NAP),这是对 OOD 检测的一个新贡献。 独特的是,NAP 与现有方法中使用的先验正交,提供了独特且互补的视角,为先进的 OOD 检测研究铺平了道路。

  • 基于所提出的先验,我们开发了一个简单而有效的 OOD 检测评分函数。 它可以轻松地与许多现有的 OOD 检测技术集成,增强其平衡 OOD 检测与 ID 准确性的能力。

  • 我们通过在各种数据集上进行的广泛实验展示了我们方法的最先进性能,包括 FPR95 降低高达 48.23%。 这些结果强调了该方法的运行效率、部署的简单性和整体功效。

  • 我们扩展了该方法以适应 Transformer 架构。 实验结果令人鼓舞,验证了该方法在各种架构设计中的有效性。

2相关工作

2.1 OOD检测

OOD 检测社区探索了多种技术来强调 ID 和 OOD 样本之间的区别。 这些方法包括基于分类的 [19, 26, 3, 7, 15, 36, 42, 10],基于密度的 [55, 1, 30, 54, 21, 32, 22, 34] 和基于距离的方法 [41, 25, 29, 4, 52, 44, 43, 28, 40],基于分类的技术通常优于其他技术类型[49] 在基于分类的方法中,OOD检测的基础工作从一个简单有效的基线开始:使用最大Softmax概率(MSP)[15]来衡量某个样本是ID样本的概率。 在此基础上,早期方法[26,17,27]侧重于开发源自神经网络输出的增强型 OOD 指标。 此外,一些研究人员提出了涉及 OOD 样本生成[24, 10]和基于梯度的[26]技术的策略。 其中,某些事后方法[14, 26, 27, 38, 39, 8, 51, 10]因其简单性而引人注目,因为它们不需要改变训练过程或目标。 此功能对于在实际生产环境中实施 OOD 检测特别有价值,因为在实际生产环境中,与再培训相关的额外成本和复杂性是不可接受的。

MSP 方法最初由 Hendrycks 等人[14]提出,是事后 OOD 检测的一个形成步骤,使用神经网络的 softmax 输出作为启发式来区分 ID 和 OOD 样本。 其简单的应用促进了 OOD 研究的早期采用。 尽管 MSP 具有影响力,但其局限性促使进一步创新,从而产生了能量方法。 该方法由刘等人[27]提出,通过为网络输出分配能量分数来改进该方法,在理论和实证支持下显示出相对于MSP的定量改进。 事后 OOD 检测的进步导致了源于 MSP [15] 和 Energy [27] 范式的多种方法分支。 LINE [2] 通过计算 Shapley 值来减少神经元诱发的噪声。 Yu等人[51]通过根据其特征规范识别具有最佳区分度的神经网络块来区分ID和OOD数据。 DICE [39] 根据分类过程中单元的贡献,通过修剪全连接层中的权重来提高区分度。 另一方面,完全无需计算的事后方法(例如 ReAct [38] 和 ASH [8])已显示出前景。 ReAct [38] 研究全连接层之前的激活,应用校正来抑制 OOD 数据容易触发的极端激活,从而实现精细的检测结果。 类似地,ASH [8] 修剪输入到全连接层的激活,但通过其选择性修剪策略,与 DICE [39] 相比,它获得了更多增强的结果。 在本文中,我们的比较主要集中在事后方法,因为我们的方法也属于此类。

3 神经激活先验

我们的 NAP 基于以下 OOD 检测观察:对于位于经过充分训练的神经网络中的全局池化层之前的通道,其少数神经元对 ID 样本有更强响应而激活的可能性明显高于到 OOD 样本。 对于神经网络其他层的行为,请参考5.4节中图4的讨论。

为了正式描述这一观察结果,我们首先定义神经激活的概念。 考虑一个经过训练的分类神经网络f,假设它接收D维输入x并输出K维logits。 f:DK 我们关注激活张量 𝐀 ,它位于全局池化操作之前的倒数第二层,如图 3(a) 所示。 𝐀的维度为C×H×W,其中C是通道数,HW是空间维度。

Refer to caption
(a) NAP in CNN
Refer to caption
(b) NAP in Transformer
图3 插图识别分类神经网络中神经激活先验 (NAP) 的焦点区域。 图中突出显示了NAP在网络中的具体位置:(a)对于基于CNN的模型,绿色部分的激活值是本文提出的NAP的位置,即在全局池化之前。 (b) 对于 Transformer 模型,NAP 在最后一个 Transformer 块中的 cls 词符的注意力权重中突出显示,说明了一种有针对性的方法,与大多数现有的专注于全局池化后的区域的方法形成鲜明对比。

𝐀j 表示第 j 个通道的激活张量。 我们定义𝐀j的两个关键统计指标如下:

  • 最大激活值:

    Max(𝐀j)=maxk,l𝐀jkl, (1)

    其中Max(𝐀j)是激活向量𝐀j中所有元素中的最大值。 这里,kl分别索引激活图的空间维度(高度和宽度)。 请注意,𝐀jkl 由 ReLU 处理(如图 3(a) 所示),因此为 𝐀jkl0

  • 平均激活值:

    Mean(𝐀j)=1h×wk=1hl=1w𝐀jkl, (2)

    其中 Mean(𝐀j) 是第 j 通道中所有激活值的平均值。

受信噪比概念的启发,我们将Max(𝐀j)解释为信号强度,将Mean(𝐀j)解释为噪声强度。 这些值的比率可以被视为激活向量𝐀j质量的指标。 请注意,我们为网络中的每个通道单独计算此指标,因为不同的通道通常用于检测不同的模式。 在 OOD 检测的背景下,这种质量度量可用于评估神经网络是否识别输入样本——换句话说,该度量可用于判断样本是否在训练集分布内。 如图1所示,这种现象被称为神经激活先验。

值得注意的是,我们提出的先验与现有的 OOD 检测方法是正交的。 如图3(a)所示,现有方法主要关注全局池化后倒数第二层的网络输出和权重,并利用它们设计各种用于OOD检测的评分函数。 相比之下,我们提出的先验侧重于全局池化之前倒数第二层的通道。 由于这些渠道内的分布信息在全球汇集过程中不可避免地会丢失,因此我们提出的先验是对现有工作的补充。

扩展到 Transformer 主干。 我们观察到,Transformers 最后一块中的分类(cls)词符可以有效地用作我们方法中 CNN 中使用的池化激活的模拟。 因此,如图 3(b) 所示,我们通过使用与最终 Transformer 块中的 cls 词符相关的注意力向量来计算 NAP 分数。 这种方法反映了我们在 CNN 中的方法框架,促进了跨两种架构的一致扩展。 适用于 CNN 和 Transformer 的 NAP 评分函数的具体细节将在 4.2 节中进一步阐明。

4 使用 NAP 进行 OOD 检测

4.1基础知识

首先,我们将简要概述图像分类网络中 OOD 检测的典型设置。 通常,分类网络使用 ID 数据(即已知的训练数据集)来构建分类模型。 训练完成后,模型的参数就被固定,使其能够有效地对训练数据集中的类别进行分类。 在测试阶段,为了识别OOD样本,研究人员通常会在模型中引入评分函数。 在推理过程中,与 OOD 数据混合的样本被输入到这个经过训练的模型中。 该模型不仅对每个样本进行分类,还使用评分函数为每个样本生成分数。 该分数用于预测样本是否属于训练集中的 ID 类,或者未知的 OOD 类。

4.2评分函数设计

基于我们之前在第 3 节中提出的建议,我们提出了一个类似 SNR 的评分函数。 在我们的公式中,平均激活值被解释为噪声强度,而最大激活值被视为信号强度。 这个概念框架得出以下评分函数:

SNAP(x;f)=1Cj=1C(Max(𝐀j)Mean(𝐀j)+ϵ)2, (3)

其中C表示全局池化之前的通道数。 请注意,添加了一个小常数ϵ>0以确保计算的数值稳定性。

变形金刚的评分功能。 与 CNN 中使用的 NAP 分数一致,我们计算 cls 词符对所有其他标记的注意力的平均值和最大值。 注意力向量表示为A,维度为(l+1),其中l表示序列长度。 为了与 CNN 网络中使用的 NAP 分数计算方法保持一致,我们通常会将最大值除以平均值。 然而,我们注意到注意力向量的平均值总是1/(l+1),使得分母变得多余。 因此,为了简单起见,我们将 Transformers 的 NAP 评分函数设计为 SNAPFormer=Max(A)

OOD 检测。 本文中评分函数SNAP(x;f)的用法与能量评分E(x;f)类似。 能量评分函数E(x;f)将分类网络f的logits输出转换为标量E(x;f)=logi=1Kefi(x),其中fi(x)是类别i 在OOD检测中,OOD检测所采用的分数是负能量分数E(x;f) 因此,ID数据被赋予较高的分数,而OOD数据被赋予较低的分数。

我们可以将这两个评分函数结合起来。 本文采用加权几何平均法将它们结合起来:

SNAP-E(x;f,w)=E(x;f)wSNAP(x;f)1w. (4)

而当使用SNAP(x;f)来增强其他基于能量得分的OOD方法时,我们只需将上式中的函数f替换为相应方法的具体函数,例如fDICEfReActfASH

如何找到最优参数w 当NAP与不同的OOD检测方法结合时,最佳权重参数w有所不同。 为了获得最佳参数,我们利用了一组数据转换技术(例如高斯噪声、玻璃模糊、运动模糊等,更多详细信息参见附录H)来生成基于ID数据集,作为伪OOD数据。 对于转换类型的选择,我们参考了[13] 利用这组OOD数据,我们采用二分搜索方法来找到最佳的w。通过对各种数据集和方法的实验,我们发现这种搜索方法可以快速识别最佳的 w,它可以很好地推广到真实的 OOD 数据集。 有关此过程的更多详细信息,请参阅附录H

讨论。

  • 即插即用的简单性: 我们提出的评分函数是一种即插即用的方法,可以轻松集成到现有的神经网络架构中。 它不需要额外的训练或外部数据,并保留模型固有的分类功能。 这些特性使其实用并适合各种应用。

  • 与现有方法正交: 根据我们提出的先验,我们设计的评分函数与现有方法正交。 如图1所示,ID样本和OOD样本的通道内激活平均值的值范围重叠。 这使得现有方法在区分均值接近的 ID 和 OOD 样本时遇到了麻烦。 基于我们提出的先验,这种困境可以自然地解决,这说明了我们提出的先验为识别 OOD 数据提供新视角的力量。

5实验

在本节中,我们对各种现实数据集进行实验。 在我们的实验中,我们使用 NAP-[initial] 来表示 NAP 与另一种方法的组合,其中 [initial] 表示方法名称的首字母(例如, NAP-A 与 ASH 组合)。 具体来说,我们将NAP与一系列常见的OOD检测方法相结合,包括ASH、DICE、Energy、KNN、MSP和ReAct,记为NAP-A、NAP-D、NAP-E、NAP-K、NAP-M,和NAP-R,分别。 CIFAR-10、CIFAR-100 和 ImageNet 用作 ID 数据集。 对于NAP与其他方法的每种组合,我们使用4.2节中描述的方法来确定最佳组合参数w。不同实验设置的详细最佳w值可以在附录H中找到。值得注意的是,为了数值稳定性,我们的评分函数中 ϵ 的值始终设置为 1.0 所有实验均在 NVIDIA GeForce RTX 3090 GPU 上进行。

5.1 CIFAR 基准评估

实施细节。 在我们的实验中,与最近的研究[38,39,8]一致,我们使用了来自 CIFAR-10 [23] 和 CIFAR-100 的 10,000 张测试图像[23] 作为 ID 数据。 为了衡量模型的性能,采用了六个广泛使用的 OOD 数据集作为基准。 这些数据集包括 SVHN [31]、Textures [5]、iSUN [48]、LSUN-Crop [50]、LSUN 调整大小 [50] 和 Places365 [53] 对于预训练模型,我们使用DenseNet [18],并遵循[39]中介绍的DenseNet的训练设置。

表1 与 CIFAR 基准上竞争性事后 OOD 检测方法进行比较。 所有值均为百分比,并且是 6 个 OOD 测试数据集的平均值。 注:A. = ROC 曲线下的面积; F. = 真阳性率为 95% 时的假阳性率。 方法包括 ASH [8]、DICE [39]、Energy [27]、KNN [40]、 MSP [14] 和 ReAct [38]
Method ASH NAP-A DICE NAP-D Energy NAP-E KNN NAP-K MSP NAP-M ReAct NAP-R
F. 15.05 11.14 20.83 11.66 26.55 9.02 16.12 7.79 48.69 19.09 26.45 9.18
CIFAR-10 A. 96.91 97.48 95.24 97.47 94.67 98.15 96.79 98.38 92.52 95.11 94.67 98.02
F. 41.40 35.40 49.72 32.34 68.45 32.61 44.91 33.63 80.13 48.20 62.27 25.71
CIFAR-100 A. 90.02 91.21 87.23 92.23 81.19 92.84 86.58 91.54 74.36 88.45 84.47 93.18

实验结果。 1展示了NAP与其他事后OOD检测方法在CIFAR-10和CIFAR-100基准上的比较。 如表所示,我们的方法显着增强了所有方法在 CIFAR-10 和 CIFAR-100 数据集上的性能。 值得注意的是,CIFAR-10 和 CIFAR-100 上的 FPR95 最大降低分别为 66.03% (NAP-E) 和 58.71% (NAP-R)。 请注意,该表显示了六个 OOD 数据集的平均性能;有关完整的性能详细信息,请参阅附录G

表2 ImageNet-1k [6] 上的 OOD 检测结果。 所有值均为百分比。 方法包括 ASH [8]、DICE [39]、Energy [27]、KNN [40]、 MSP [14] 和 ReAct [38]
Method OOD Datasets Average
iNaturalist [45] SUN [47] Places [53] Textures [5]
FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC
ASH [8] 31.46 94.28 38.45 91.61 51.80 87.56 20.92 95.07 35.66 92.13
NAP-A 26.26 95.10 32.89 92.77 48.69 87.92 11.60 97.32 29.86 93.28
DICE [39] 43.09 90.83 38.69 90.46 53.11 85.81 32.80 91.30 41.92 89.60
NAP-D 27.48 94.13 36.14 90.66 51.84 85.03 9.02 97.92 31.12 91.94
Energy [27] 59.50 88.91 62.65 84.50 69.37 81.19 58.05 85.03 62.39 84.91
NAP-E 29.90 94.47 39.69 90.46 55.17 85.15 11.74 97.28 34.12 91.84
KNN [40] 85.91 72.67 90.49 65.39 93.18 60.08 14.08 96.98 70.92 73.78
NAP-K 38.23 89.80 56.55 80.01 70.89 71.35 7.02 98.39 43.17 84.89
MSP [14] 64.29 85.32 77.02 77.10 79.23 76.27 73.51 77.30 73.51 79.00
NAP-M 35.47 92.53 51.19 86.51 63.77 80.61 15.14 97.09 41.39 89.19
ReAct [38] 42.40 91.53 47.69 88.16 51.56 86.64 38.42 91.53 45.02 89.47
NAP-R 24.58 95.55 38.47 91.12 53.32 86.24 9.57 97.60 31.49 92.63

5.2ImageNet 评估

实施细节。 在现实应用中,模型面临着涵盖各种场景和特征的高分辨率图像。 对大规模数据集的评估可以深入了解模型在实际部署中的性能。 因此,根据最近的研究[38,39,8],我们在本研究中的扩展 ImageNet-1k [6] 数据集上使用 NAP 进行实验。 四个数据集子集(消除了 ImageNet-1k 的所有重叠类别)被用作 OOD 基准。 这些 OOD 数据集包括纹理 [5]、Places365 [53]、iNaturalist [45] 和 SUN [47]. 我们使用 MobileNetV2 [35] 架构,该架构在 ImageNet-1k [6] 上进行预训练。 OOD检测阶段的架构和参数保持不变。

实验结果。 2显示了NAP与其他事后OOD检测方法在ImageNet-1k [6]基准上的比较结果。 如表所示,我们的方法显着增强了所有方法在 ImageNet-1k 数据集[6]上的性能。 我们观察到,我们的方法在 iNaturalist 和 Textures 数据集上带来了显着的性能改进,这一点尤其值得注意。 直观上,Textures[5]数据集中的大部分图片都具有纹理性质,因此获得较大响应值的概率较小。 而iNaturalist中的样本背景相对简单,且前景中的动植物与ImageNet-1k中的样本有一定的语义差异,因此iNaturalist中的样本[45]不太可能触发大响应值。 现有方法在此数据集上表现不佳的原因可能是由于它们关注全局池化后的激活值。 我们推测,虽然纹理图片不能引起大的激活值,但它们可以在整个特征图上激发小幅度的噪声。 由于大的响应值往往只出现在特征图上的小区域中,因此在全局池化之后,ID样本和纹理类样本很可能获得相似的平均激活值。 这可能会损害两种类型样本的可分离性,导致现有工作在此类样本上表现不佳。

5.3 Transformer 评估

按照5.2节中描述的实验设置,我们使用 ImageNet-1k 作为 ID 数据集在 Vision Transformer [9] (ViT-B/16) 上进行实验。 选择 Energy [27] 和 MSP [14] 作为本次分析的基线方法。 该研究进一步探索了通过整合 NAP 来增强这些基线方法,从而产生了两种变体:NAP-E 和 NAP-M。 3 中详细的比较结果表明,NAP 方法大大提高了 Transformer 架构的性能,使其超出了基线,证实了 NAP 在此类环境中的实用性和多功能性。

表3 使用 ImageNet-1k 作为 ID 数据在 ViT-B/16 上进行 OOD 检测结果。 所有值均为百分比。
Method OOD Datasets Average
iNaturalist [45] SUN [47] Places [53] Textures [5]
FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC
Energy [27] 64.08 79.24 72.77 70.25 74.30 68.44 58.46 79.30 67.40 74.31
NAP-E 60.97 80.77 64.05 77.34 69.34 73.30 45.04 86.93 59.85 79.58
MSP [14] 51.47 88.16 66.53 80.93 68.65 80.38 60.21 82.99 61.72 83.12
NAP-M 47.09 88.23 59.45 82.78 63.38 80.48 47.70 87.93 54.40 84.85

讨论。 我们仅与 MSP [14] 和 Energy [27] 进行比较,因为 ASH [8] 和 ReAct [38] 等方法 专门为 CNN 设计,应用于 ViT 时完全失败。 为了公平起见,我们没有将这些方法纳入我们的比较中。

5.4 NAP 是否适用于所有网络层?

为了评估 NAP 在 DenseNet 架构中各个层的有效性,我们利用 CIFAR-10 [23] 和 Places365 数据集 [53] 对激活分布进行了详细检查>。 分析集中在网络内的四个关键点:第一个卷积层之后、第一个和第二个过渡块中的预池化以及紧邻最终全局池化层之前。 从我们的测试中选择的示例如图4所示,附录C中提供了更详细的视觉效果。从这些图中可以明显看出,层越深,就越容易根据最大和平均激活值区分 ID 和 OOD 样本。 在网络的早期层中,神经元获取 ID 和 OOD 样本共有的基本特征,这解释了为什么图 4(a)4(b) 中的线交叉。 进入更深的层,神经元开始捕捉更复杂、更有意义的特征。 如图4(c)4(d)所示,具有特定含义的ID样本会触发更大的响应。 这表明 NAP 在靠近网络末端的地方效果最佳,尤其是在全局池化层之前,凸显了其在使模型对于 OOD 检测更可靠方面的价值。

Refer to caption
(a) After conv layer 1
Refer to caption
(b) In Trans Block 1
Refer to caption
(c) In Trans Block 2
Refer to caption
(d) Before Pooling
图4 DenseNet 架构 [18] 内不同位置的激活分布应用于 CIFAR-10 [23] 和 Places365 数据集 [53] 对于此分析,选择了网络内的四个特定位置:(a) 在第一个卷积层之后,(b) 在第一个转换块中的池化操作之前,(c) 在第二个转换块中的池化操作之前, (d) 就在最终全局池化层之前。 据观察,随着深度的增加,ID 和 OOD 样本之间的可分离性在由最大和平均激活值定义的二维空间中变得更加明显。

6结论

本文提出了一种新颖的神经激活先验(NAP),用于机器学习模型中的 OOD 检测。 我们提出的先验基于这样的观察:在经过充分训练的神经网络中,与 OOD 样本相比,ID 样本通常会在通道的某些神经元中引起更强的激活反应。 这一发现催生了我们基于渠道内分布的新颖评分函数。 它的主要优点在于其简单性和易于集成。 它既不需要额外的训练,也不需要外部数据,并且不会影响 ID 数据的分类性能。 各种数据集和架构的实验结果表明,我们的方法在 OOD 检测中实现了最先进的性能。 这不仅验证了神经激活先验的有效性,而且展示了重新思考神经网络特征在 OOD 场景中使用方式的潜力。

参考

  • [1] D. Abati, A. Porrello, S. Calderara, and R. Cucchiara. Latent space autoregression for novelty detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 481–490, 2019.
  • [2] Y. H. Ahn, G.-M. Park, and S. T. Kim. Line: Out-of-distribution detection by leveraging important neurons. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 19852–19862, 2023.
  • [3] A. Bendale and T. E. Boult. Towards open set deep networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1563–1572, 2016.
  • [4] X. Chen, X. Lan, F. Sun, and N. Zheng. A boundary based out-of-distribution classifier for generalized zero-shot learning. In European conference on computer vision, pages 572–588. Springer, 2020.
  • [5] M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, and A. Vedaldi. Describing textures in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3606–3613, 2014.
  • [6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.
  • [7] T. DeVries and G. W. Taylor. Learning confidence for out-of-distribution detection in neural networks. stat, 1050:13, 2018.
  • [8] A. Djurisic, N. Bozanic, A. Ashok, and R. Liu. Extremely simple activation shaping for out-of-distribution detection. In The Eleventh International Conference on Learning Representations, 2022.
  • [9] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
  • [10] X. Du, Z. Wang, M. Cai, and Y. Li. Vos: Learning what you don’t know by virtual outlier synthesis. arXiv preprint arXiv:2202.01197, 2022.
  • [11] A. Filos, P. Tigkas, R. McAllister, N. Rhinehart, S. Levine, and Y. Gal. Can autonomous vehicles identify, recover from, and adapt to distribution shifts? In International Conference on Machine Learning, pages 3145–3153. PMLR, 2020.
  • [12] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.
  • [13] D. Hendrycks and T. Dietterich. Benchmarking neural network robustness to common corruptions and perturbations. In International Conference on Learning Representations, 2018.
  • [14] D. Hendrycks and K. Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In International Conference on Learning Representations, 2016.
  • [15] D. Hendrycks and K. Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In International Conference on Learning Representations, 2016.
  • [16] T. Hoefler, D. Alistarh, T. Ben-Nun, N. Dryden, and A. Peste. Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks. The Journal of Machine Learning Research, 22(1):10882–11005, 2021.
  • [17] Y.-C. Hsu, Y. Shen, H. Jin, and Z. Kira. Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10951–10960, 2020.
  • [18] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4700–4708, 2017.
  • [19] R. Huang and Y. Li. Mos: Towards scaling out-of-distribution detection for large semantic space. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8710–8719, 2021.
  • [20] J. Janai, F. Güney, A. Behl, A. Geiger, et al. Computer vision for autonomous vehicles: Problems, datasets and state of the art. Foundations and Trends® in Computer Graphics and Vision, 12(1–3):1–308, 2020.
  • [21] D. Jiang, S. Sun, and Y. Yu. Revisiting flow generative models for out-of-distribution detection. In International Conference on Learning Representations, 2021.
  • [22] P. Kirichenko, P. Izmailov, and A. G. Wilson. Why normalizing flows fail to detect out-of-distribution data. Advances in neural information processing systems, 33:20578–20589, 2020.
  • [23] A. Krizhevsky, G. Hinton, et al. Learning multiple layers of features from tiny images. 2009.
  • [24] K. Lee, H. Lee, K. Lee, and J. Shin. Training confidence-calibrated classifiers for detecting out-of-distribution samples. In International Conference on Learning Representations, 2018.
  • [25] K. Lee, K. Lee, H. Lee, and J. Shin. A simple unified framework for detecting out-of-distribution samples and adversarial attacks. Advances in neural information processing systems, 31, 2018.
  • [26] S. Liang, Y. Li, and R. Srikant. Enhancing the reliability of out-of-distribution image detection in neural networks. In International Conference on Learning Representations, 2018.
  • [27] W. Liu, X. Wang, J. Owens, and Y. Li. Energy-based out-of-distribution detection. Advances in neural information processing systems, 33:21464–21475, 2020.
  • [28] F. Lu, K. Zhu, W. Zhai, K. Zheng, and Y. Cao. Uncertainty-aware optimal transport for semantically coherent out-of-distribution detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3282–3291, 2023.
  • [29] Y. Ming, Y. Sun, O. Dia, and Y. Li. Cider: Exploiting hyperspherical embeddings for out-of-distribution detection. arXiv preprint arXiv:2203.04450, 7(10), 2022.
  • [30] E. Nalisnick, A. Matsukawa, Y. W. Teh, D. Gorur, and B. Lakshminarayanan. Do deep generative models know what they don’t know? In International Conference on Learning Representations, 2018.
  • [31] Y. Netzer, T. Wang, A. Coates, A. Bissacco, B. Wu, and A. Y. Ng. Reading digits in natural images with unsupervised feature learning. 2011.
  • [32] S. Pidhorskyi, R. Almohsen, and G. Doretto. Generative probabilistic novelty detection with adversarial autoencoders. Advances in neural information processing systems, 31, 2018.
  • [33] E. H. Pooch, P. Ballester, and R. C. Barros. Can we trust deep learning based diagnosis? the impact of domain shift in chest radiograph classification. In Thoracic Image Analysis: Second International Workshop, TIA 2020, Held in Conjunction with MICCAI 2020, Lima, Peru, October 8, 2020, Proceedings 2, pages 74–83. Springer, 2020.
  • [34] M. Sabokrou, M. Khalooei, M. Fathy, and E. Adeli. Adversarially learned one-class classifier for novelty detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3379–3388, 2018.
  • [35] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4510–4520, 2018.
  • [36] C. S. Sastry and S. Oore. Detecting out-of-distribution examples with gram matrices. In International Conference on Machine Learning, pages 8491–8501. PMLR, 2020.
  • [37] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In 3rd International Conference on Learning Representations (ICLR 2015). Computational and Biological Learning Society, 2015.
  • [38] Y. Sun, C. Guo, and Y. Li. React: Out-of-distribution detection with rectified activations. Advances in Neural Information Processing Systems, 34:144–157, 2021.
  • [39] Y. Sun and Y. Li. Dice: Leveraging sparsification for out-of-distribution detection. In European Conference on Computer Vision, pages 691–708. Springer, 2022.
  • [40] Y. Sun, Y. Ming, X. Zhu, and Y. Li. Out-of-distribution detection with deep nearest neighbors. In International Conference on Machine Learning, pages 20827–20840. PMLR, 2022.
  • [41] Y. Sun, Y. Ming, X. Zhu, and Y. Li. Out-of-distribution detection with deep nearest neighbors. In International Conference on Machine Learning, pages 20827–20840. PMLR, 2022.
  • [42] J. Tack, S. Mo, J. Jeong, and J. Shin. Csi: Novelty detection via contrastive learning on distributionally shifted instances. Advances in neural information processing systems, 33:11839–11852, 2020.
  • [43] E. Techapanurak, M. Suganuma, and T. Okatani. Hyperparameter-free out-of-distribution detection using cosine similarity. In Proceedings of the Asian conference on computer vision, 2020.
  • [44] J. Van Amersfoort, L. Smith, Y. W. Teh, and Y. Gal. Uncertainty estimation using a single deep deterministic neural network. In International conference on machine learning, pages 9690–9700. PMLR, 2020.
  • [45] G. Van Horn, O. Mac Aodha, Y. Song, Y. Cui, C. Sun, A. Shepard, H. Adam, P. Perona, and S. Belongie. The inaturalist species classification and detection dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8769–8778, 2018.
  • [46] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
  • [47] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba. Sun database: Large-scale scene recognition from abbey to zoo. In 2010 IEEE computer society conference on computer vision and pattern recognition, pages 3485–3492. IEEE, 2010.
  • [48] P. Xu, K. A. Ehinger, Y. Zhang, A. Finkelstein, S. R. Kulkarni, and J. Xiao. Turkergaze: Crowdsourcing saliency with webcam based eye tracking. arXiv preprint arXiv:1504.06755, 2015.
  • [49] J. Yang, K. Zhou, Y. Li, and Z. Liu. Generalized out-of-distribution detection: A survey. arXiv preprint arXiv:2110.11334, 2021.
  • [50] F. Yu, A. Seff, Y. Zhang, S. Song, T. Funkhouser, and J. Xiao. Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015.
  • [51] Y. Yu, S. Shin, S. Lee, C. Jun, and K. Lee. Block selection method for using feature norm in out-of-distribution detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 15701–15711, 2023.
  • [52] A. Zaeemzadeh, N. Bisagno, Z. Sambugaro, N. Conci, N. Rahnavard, and M. Shah. Out-of-distribution detection using union of 1-dimensional subspaces. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition, pages 9452–9461, 2021.
  • [53] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva, and A. Torralba. Places: A 10 million image database for scene recognition. IEEE transactions on pattern analysis and machine intelligence, 40(6):1452–1464, 2017.
  • [54] E. Zisselman and A. Tamar. Deep residual flow for out of distribution detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13994–14003, 2020.
  • [55] B. Zong, Q. Song, M. R. Min, W. Cheng, C. Lumezanu, D. Cho, and H. Chen. Deep autoencoding gaussian mixture model for unsupervised anomaly detection. In International conference on learning representations, 2018.

附录

在本附录中,我们提供了全面的附加材料来补充正文。 内容包括:

  • 更广泛的影响(A 节): 关于我们研究的更广泛影响的讨论。

  • NAP 的伪代码(B 节): 神经激活先验 (NAP) 方法的算法表示。

  • 为什么倒数第二层对于 NAP 更有效? (C 节): 探索 NAP 背景下倒数第二层卓越有效性背后的原因。

  • 评估与 NAP 的多层集成以进行 OOD 检测(D 节): 研究集成多层与 NAP 在检测 OOD 数据中的效果。

  • 关于向其他架构的可转移性(E 节): 为了确定 NAP 在不同 CNN 架构中的多功能性和鲁棒性,我们在各种主干网络上进行了广泛的实验,包括 VGG、DenseNet 和 ResNet。

  • ID 准确率和 OOD 检测性能的 Pareto 前沿(F 节):ID 精度和 OOD 检测性能的 Pareto 前沿评估。

  • 完整的 CIFAR 基准测试结果:使用 NAP 增强方法(G 节): 对 NAP 在增强现有模型方面的有效性进行全面评估,如 CIFAR 基准的详细结果所示。

  • 如何找到最优参数w (H 节): 确定 NAP 最佳参数 w 的指南。

  • 近 OOD 检测的性能(第 I 节): 研究 NAP 区分密切相关的数据集的能力可以深入了解其在细致入微的 OOD 检测场景中的实用性。

  • 激活图可视化的更多示例。 (J 节): 展示激活图的其他视觉示例。

  • 限制(K 节): 对我们方法的局限性进行批判性分析。

  • 讨论(L 节): 结论部分总结了主要发现并概述了基于我们工作的未来研究方向。

  • 现有资产的许可证(M 节): 本研究中使用的所有现有资产的积分和许可证。

附录 A 布罗德影响

所提出的用于 OOD 检测的神经激活先验对于在现实场景中部署机器学习模型具有重要意义。 通过增强检测 OOD 样本的能力,我们的方法有助于提高人工智能系统的可靠性和安全性,特别是在自动驾驶、医疗保健和安全等关键应用中,在这些应用中,遇到意外输入可能会产生严重后果。

附录BNAP的伪代码

如算法1所示,我们提出了我们提出的 OOD 检测方法的详细伪代码表示,该方法已集成到 DenseNet 架构中。 关键修改涉及在 DenseNet 处理流程中计算 NAP 分数𝒮(在算法中以绿色字体突出显示),然后使用模型的 OOD 分数计算 OOD 分数logits 与 𝒮 一起。 这些计算不会改变模型输出的 logits,从而确保 ID 数据集的分类精度不会降低。

算法1 在 DenseNet 上使用神经激活先验进行 OOD 检测
0: Image x, Weight w (for OOD score calculation)
0: Output logits, OOD Score
1: Apply initial layers of DenseNet on x to obtain intermediate output:
2: outconv1(x)
3: outtrans1(block1(out))
4: outtrans2(block2(out))
5: outblock3(out)
6: outrelu(bn1(out))
7: Let 𝒜 denote this intermediate output.
8: Compute NAP score 𝒮 from 𝒜:
9: Flatten 𝒜 across dimensions 2 and 3.
10: Compute Max of 𝒜 across flattened dimensions.
11: Compute Mean of 𝒜 over dims 2, 3.
12: Calculate 𝒮 as (Max of 𝒜/(Mean of 𝒜+1))2.
13: Compute the mean of 𝒮 across dimension 1.
14: Continue with DenseNet forward pass:
15: Apply average pooling and reshape on 𝒜.
16: Get logits from fully connected layer.
17: Calculate OOD Score:
18: Compute log-sum-exp of the logits.
19: Calculate OOD Score as (log-sum-expw)(𝒮1w).
20: return Output logits, OOD Score
Refer to caption
Refer to caption
Refer to caption
Refer to caption
(a) After first convolution layer
Refer to caption
Refer to caption
Refer to caption
Refer to caption
(b) In Transaction Block 1
Refer to caption
Refer to caption
Refer to caption
Refer to caption
(c) In Transaction Block 2
Refer to caption
Refer to caption
Refer to caption
Refer to caption
(d) Before Global Pooling
图5 应用于 CIFAR-10 和 Places365 数据集的 DenseNet 架构 [18] 内不同位置的激活分布。 对于此分析,选择了网络内的四个特定位置:(a) 在第一个卷积层之后,(b) 在第一个转换块中的池化操作之前,(c) 在第二个转换块中的池化操作之前, (d) 就在最终全局池化层之前。 请注意,我们仅包含平均激活值超过 0.1 的数据点。 如图所示,前三个选定层显示 ID 和 OOD 样本之间的区别不太明显,而位于最终全局池化层之前的第四层则表现出更清晰的可分离性和增强的稳定性。 因此,第四个选定层(倒数第二层)更适合开发用于 OOD 检测的评分函数。

附录C为什么倒数第二层对于NAP更有效?

我们提供了广泛的可视化集合,展示了应用于 CIFAR-10 (ID) 数据集和 Places365 (OOD) 数据集时 DenseNet 架构内的激活情况。 这些可视化对于理解网络如何处理 ID 和 OOD 数据、揭示网络各层神经激活的不同模式至关重要。 我们的分析重点关注 DenseNet 中的四个关键层:(1) 第一个卷积层之后,(2) 第一个转换块中的池化操作之前,(3) 第二个转换块中的池化之前,以及 (4) 最终层之前全局池化层。 每层提供四种可视化效果,提供网络对不同数据集响应的全面视图。

这些详细的可视化增强了正文中的讨论,为 NAP 如何有效区分网络中的 ID 和 OOD 样本提供了更深入的见解。 如图5所示,前三个选定层主要关注低级特征,ID 和 OOD 样本之间的区别不太明显。 这可能是因为低级特征(例如边缘和纹理)对于 ID 和 OOD 数据集来说很常见,从而使它们的独特性降低。 然而,ID 和 OOD 样本之间的对比在位于最终全局池化层之前的第四个选定层中变得更加明显和稳定。 该层专注于高级语义信息,捕获 ID 数据集更独特的特征,与早期层相比,可实现更清晰的可分离性并增强激活值的稳定性。 该层专注于独特的语义特征,使其特别适合开发 OOD 检测的评分函数。 因此,由于倒数第二层是神经网络中信息最丰富的层,因此我们在我们的方法中利用这一层来开发我们的评分函数。

表4 DenseNet [18]中不同层使用 NAP 在 CIFAR-10 和 CIFAR-100 数据集上进行 OOD 检测的实验结果。 NAP(x)表示在“x”层计算OOD分数,其中“c1”对应于第一个卷积层之后,“t1”对应于第一个转换块中的池化操作之前,“t2”对应于第二个卷积层中的池化之前过渡块,以及最终全局池化层之前的“p”。 层的组合(在 NAP(..) 中用逗号表示)表示各个层的 OOD 分数的乘积。 这些选定的图层与本文前面描述的用于可视化的图层一致。 值得注意的是,NAP(p) 是我们论文中实际使用的方法。
Method CIFAR-10 CIFAR-100
FPR95 AUROC FPR95 AUROC
NAP(c1) 83.22 51.99 84.13 50.34
NAP(t1) 69.10 50.47 86.82 54.92
NAP(t2) 56.53 78.44 88.85 53.08
NAP(c1,t1,t2,p) 68.33 58.99 82.66 56.96
NAP(t1,t2,p) 56.84 64.26 83.35 57.97
NAP(t2,p) 34.41 87.81 82.74 58.31
NAP(p) 26.57 92.45 54.91 85.86

附录 D 评估与 NAP 的多层集成以进行 OOD 检测

在附录中提出的额外探索中,我们研究了合并倒数第二层和前面层的值对 OOD 检测的影响。 我们的实验(如表 4 所示)表明,早期层与主要应用 NAP 的倒数第二层的集成不会对 OOD 检测产生显着改进。 这种现象可能部分源于早期层在区分 ID 和 OOD 数据方面的固有局限性。 此外,专门针对倒数第二层优化的评分函数可能无法与前面层的特征表示特性最佳对齐。 考虑到篇幅的限制,本文没有对使用NAP的多层集成进行全面的分析。 尽管如此,在 OOD 检测中结合多层的潜力,特别是在 NAP 的背景下,仍然是未来研究的一个有趣的方面。 我们预计进一步的研究,可能涉及创建适合更广泛层的新评分函数,可以为该领域做出重大贡献。 因此,我们建议将此作为未来工作的途径,旨在刺激研究界的进一步进步。

附录E关于向其他架构的可转移性

在图 8910 中,我们展示了三种不同架构中激活模式的详细可视化:MobileNetV2 [35] 、ResNet50 [12] 和 VGG16 [37] 这些可视化结果清楚地表明了 ID 样本(用蓝线表示)和 OOD 样本(用橙色线表示)之间存在显着差距。 这种区别在所有三种架构中都很明显,强调了所提议的 NAP 的多功能性和有效性。 在这些不同的架构中观察到的一致的可分离性证实了 NAP 在不同神经网络模型中广泛应用的适应性和潜力。

为了验证 NAP 在不同卷积神经网络 (CNN) 架构上的有效性,我们在各种 CNN 主干上进行了实验。 如表5所示,我们提出的 NAP 方法显着增强了各种 CNN 结构的 OOD 检测性能。 这些结果强调了 NAP 对各种 CNN 模型的适应性,展示了其作为增强神经网络应用中 OOD 检测的可靠性和准确性的多功能工具的潜力。

表5 具有各种主干网的 ImageNet 上的结果。

Energy NAP NAP-E
FPR95 AUROC FPR95 AUROC FPR95 AUROC
VGG 54.34 88.17 29.23 93.46 23.23 95.00
DenseNet 50.40 87.66 49.89 88.40 32.95 91.68
ResNet 57.47 87.05 48.77 82.76 32.12 92.02

附录FID准确率和OOD检测性能的Pareto前沿

Refer to caption
(a) CIFAR-10
Refer to caption
(b) CIFAR-100
图6 在 CIFAR 基准[23]上跨各种方法研究 ID 分类精度和 OOD 检测 AUROC 之间的权衡。 所有方法和实验均由我们实施。 以“NAP”为前缀的方法在视觉上有所区别,在图中以各种红色阴影突出显示。

一些现有方法会对 ID 准确性产生负面影响;然而,我们发现将这些方法与 NAP 方法相结合可以减轻或减少这种影响,实现更佳的平衡。 NAP 方法在 ID 分类精度和 OOD 检测功效(以 AUROC 测量)之间建立了理想的平衡,从而将其定位在 Pareto 前沿以实现卓越的性能。 这表明我们的方法能够在不增加成本的情况下增强 OOD 检测,同时保持模型的分类性能,如图 6(a)6(b) 使用 CIFAR 基准测试所示[23]

附录 G完整的 CIFAR 基准测试结果:使用 NAP 增强方法

本节重点介绍神经激活先验 (NAP) 在 CIFAR-10(表 6)和 CIFAR-100(表 7)数据集的背景下对现有分布外检测方法的显著增强。 将 NAP 纳入已建立的方法中,例如 Energy [27]、ASH [8]、DICE [39]、KNN [40 ]、MSP [14] 和 ReAct [38],产生 NAP-ENAP-ANAP-DNAP-KNAP-M0>和NAP-R1>分别展示国家行动方案在增强现有方法方面的潜力。 我们的实验结果表明,基于 NAP 的变体在所有六个 OOD 数据集上始终优于相应的传统方法。 值得注意的是,我们的实验结果显示 FPR95 值出现了一些极其大幅度的下降,表明 NAP 整合的深远影响。 例如,在 CIFAR-100 数据集上,NAP-R 的 FPR95 值与 ReAct 相比下降了 83.06%(从 83.81 降至 14.19),突显了误报显着减少,同时保持了高检测精度,并肯定了增强的能力这些方法可以区分分布内样本和 OOD 样本。

表6 基于NAP提出的评分函数与CIFAR-10数据集上的现有方法兼容并改进。 所有方法和实验均由我们实施。 该表中的所有值均为百分比。 还报告了六个 OOD 测试数据集的平均值。 带有前缀“NAP-”的方法(例如,NAP-E、NAP-A、NAP-R)代表 NAP 与各种现有方法的集成(Energy [27]、ASH-S [8],分别反应[38])。
Method OOD Datasets Average
SVHN Textures iSUN LSUN LSUN-Crop Places365
FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC
ASH 6.51 98.65 24.34 95.09 5.17 98.90 4.96 98.92 0.90 99.73 48.45 88.34 15.05 96.91
NAP-A 5.55 98.86 10.51 97.90 3.04 99.32 2.68 99.40 0.80 99.80 44.28 89.59 11.14 97.48
DICE 29.62 94.66 0.38 99.90 4.43 99.03 5.14 98.97 45.87 86.97 45.32 90.29 21.79 94.97
NAP-D 10.60 97.75 0.41 99.88 2.03 99.48 2.69 99.41 13.85 96.98 40.40 91.31 11.66 97.47
Energy 40.57 93.99 56.29 86.42 10.07 98.07 9.28 98.12 3.81 99.15 39.50 92.01 26.59 94.63
NAP-E 8.32 98.36 11.65 97.72 1.77 99.57 1.50 99.60 0.99 99.76 29.89 93.91 9.02 98.15
KNN 4.31 99.20 7.71 98.62 9.45 98.22 10.08 98.15 19.31 96.46 45.83 90.09 16.12 96.79
NAP-K 2.39 99.56 2.29 99.55 1.76 99.57 2.45 99.47 3.58 99.34 34.27 92.80 7.79 98.38
MSP 47.34 93.48 33.66 95.54 42.21 94.51 42.42 94.52 64.52 88.14 61.98 88.95 48.69 92.52
NAP-M 14.09 96.05 7.33 98.35 10.91 97.72 11.20 97.55 16.42 96.23 54.61 84.76 19.09 95.11
ReAct 41.64 93.87 43.58 92.47 12.72 97.72 11.46 97.87 5.96 98.84 43.31 91.03 26.45 94.67
NAP-R 8.07 98.31 8.10 98.17 2.81 99.35 2.35 99.43 3.04 99.33 30.70 93.50 9.18 98.02
表7 基于NAP提出的评分函数与CIFAR-100数据集上的现有方法兼容并改进。 所有方法和实验均由我们实施。 该表中的所有值均为百分比。 还报告了六个 OOD 测试数据集的平均值。 带有前缀“NAP-”的方法(例如,NAP-E、NAP-A、NAP-R)代表 NAP 与各种现有方法的集成(Energy [27]、ASH-S [8],分别反应[38])。
Method OOD Datasets Average
SVHN Textures iSUN LSUN LSUN-Crop Places365
FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC FPR95 AUROC
ASH 25.02 95.76 34.02 92.35 46.67 91.30 51.33 90.12 5.52 98.84 85.86 71.62 41.40 90.02
NAP-A 17.41 96.72 22.70 94.99 38.22 93.34 43.05 92.17 5.25 98.94 85.76 72.08 35.40 91.32
DICE 59.25 88.57 0.91 99.74 51.63 89.32 49.48 89.51 61.42 77.12 80.29 77.08 50.50 86.89
NAP-D 23.63 95.28 1.22 99.68 33.86 94.25 28.56 95.02 24.59 92.04 82.12 77.13 32.34 92.23
Energy 87.46 81.85 84.15 71.03 74.54 78.95 70.65 80.14 14.72 97.43 79.20 77.72 68.45 81.19
NAP-E 19.03 96.40 21.72 95.47 33.24 94.15 43.38 92.11 2.60 99.38 75.70 79.54 32.61 92.84
KNN 16.27 96.65 28.06 92.69 58.74 82.09 52.77 84.55 26.01 93.53 87.59 69.94 44.91 86.58
NAP-K 10.26 97.84 12.24 97.76 45.56 91.57 36.45 93.22 9.84 98.04 87.42 70.83 33.63 91.54
MSP 81.70 75.40 60.49 85.60 85.24 69.18 85.99 70.17 84.79 71.48 82.55 74.31 80.13 74.36
NAP-M 35.58 93.32 15.29 96.94 66.86 86.62 57.64 88.98 27.85 93.93 86.00 70.89 48.20 88.45
ReAct 83.81 81.41 77.78 78.95 65.27 86.55 60.08 87.88 25.55 94.92 82.65 74.04 62.27 84.47
NAP-R 14.19 96.52 17.22 96.16 16.72 96.54 17.16 96.64 5.73 98.76 82.54 74.46 25.71 93.18

附录H如何找到最优参数w

当NAP与不同的OOD检测方法结合时,最佳权重参数w有所不同。 为了获得最佳参数,我们利用了一组数据变换技术(包括高斯噪声、散粒噪声、脉冲噪声、散焦模糊、玻璃模糊、运动模糊、变焦模糊、雪、霜、雾、亮度、对比度、弹性变换、像素化、jpeg 压缩),根据 ID 数据集生成损坏的数据集,作为伪 OOD 数据。 利用这组OOD数据,我们采用二分搜索方法来找到最佳的w。通过对各种数据集和方法的实验,我们发现这种搜索方法可以快速识别最佳的 w,它可以很好地推广到真实的 OOD 数据集。 我们实验中使用的w值总结在表8中。

表8 不同数据集上不同 OOD 检测方法的最佳权重参数 w

Method CIFAR-10 CIFAR-100 ImageNet-1k
ASH 0.5 0.6 0.8
DICE 0.5 0.6 0.6
Energy 0.4 0.4 0.6
KNN 0.8 0.8 0.6
MSP 0.5 0.3 0.3
ReAct 0.4 0.5 0.8

附录一Near-OOD检测的性能

考虑到现有研究的背景,ID数据集通常使用CIFAR-10,OOD数据集使用SVHN和Texture等数据集,由于数据来源的不同,数据分布的差异非常明显。 然而,这种传统的设置并不能充分挑战具有密切相关分布的模型。 因此,我们开始分别利用 CIFAR-10 和 CIFAR-100 作为 ID 和 OOD 数据集进行实验,以探索 NAP 在数据分布更紧密对齐的场景中的性能。 该方法旨在评估 NAP 在区分分布细微差异但语义特征不同的数据集方面的鲁棒性。

结论:我们的研究结果证实,NAP 能够在 ID 和 OOD 数据分布密切相关的场景中有效发挥作用,展示了其在近 OOD 检测任务中的实用性。 9 展示了 NAP 变体(NAP-E、NAP-R 和 NAP-A)与基线方法(Energy、ReAct 和 ASH)相比在近 OOD 检测任务中的有效性CIFAR-10 和 CIFAR-100 数据集之间。

表9 CIFAR-10 与 CIFAR-100 的结果

FPR95 AUROC FPR95 AUROC FPR95 AUROC
Energy 50.74 89.76 ReAct 48.77 90.55 ASH 48.74 89.93
NAP-E 44.38 90.69 NAP-R 42.94 90.66 NAP-A 44.92 90.07

为了理解 NAP 实现这一点的机制,有必要深入研究神经网络如何处理和区分不同类型的数据。 神经网络分类器擅长通过倒数第二层的不同通道检测各种语义特征。 NAP 正是利用这种功能来区分 ID 和 OOD 数据。 NAP 基于神经网络对 ID 数据特定语义特征的高响应来区分 ID 和 OOD 数据。 因此,原则上,NAP 非常适合语义 OOD 检测,能够有效地区分密切相关但具有不同语义的分布的样本(例如,CIFAR-10 与 CIFAR-100,如下表所示)。 然而,值得注意的是,NAP 不适用于更细粒度的任务,例如像素级工业表面缺陷检测。

附录 J更多激活图可视化示例

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图7 全局池化忽略通道内激活值的分布,这使得区分 ID 和 OOD 样本变得困难。 该图中的每对图像说明了同一通道内分布内 (ID) 样本(左)和分布外 (OOD) 样本(右)的倒数第二层的激活图。 在这一层中,不同的通道通常关注不同的语义特征。 当图像中存在特定特征时,例如每对左侧图像中的某些区域,这些区域表现出非常高的激活值。 尽管 OOD 样本缺乏这些特定特征,但模型对 OOD 数据的不熟悉可能会导致不可预测的激活,从而可能导致弱噪声激活(右图)。 [38]对此现象进行了详细讨论。 现有方法通常依赖于聚合激活值来进行 OOD 检测。 因此,ID 和 OOD 样本的平均通道激活没有区别,使得现有方法很难区分它们。 然而,本文提出的 NAP 分数有效地区分了它们。

在本节中,我们将介绍激活图可视化的其他示例,以进一步说明我们工作中讨论的挑战和现象。 具体来说,我们检查分布内(ID)和分布外(OOD)样本的倒数第二层的激活图。 可视化提供了关于全局池化方法如何通过平均通道内激活值的空间分布来模糊 ID 和 OOD 样本之间的重要区别的见解。

如图7所示,每对图像显示给定通道的激活图。 每对中的左图像对应于 ID 样本,而右图像对应于 OOD 样本。 通常调整倒数第二层中的不同通道来捕获数据中存在的特定语义特征。 对于 ID 样本,这些特征通常会导致激活图的特定区域产生高激活值。 例如,当 ID 样本中存在相应的语义特征时,每对左侧图像中的某些区域表现出非常高的激活值。

相比之下,不包含这些特定语义特征的 OOD 样本仍可能由于模型不熟悉此类数据而产生激活响应。 正如在每对右侧图像中观察到的那样,这可能会导致弱噪声激活。 正如[38]所讨论的,这种现象凸显了依赖聚合激活值的传统 OOD 检测方法所面临的困难。 这些方法通常无法区分 ID 和 OOD 样本,因为平均通道激活不能提供足够的区分能力。

然而,本文提出的 NAP 分数通过基于对激活模式的更细致的分析有效区分 ID 和 OOD 样本来解决这个问题。 以下可视化举例说明了所描述的行为,并强调了考虑通道内激活值分布以实现稳健的 OOD 检测的重要性。

附录 K限制

该方法依赖于神经网络有效学习倒数第二层ID数据集特定语义特征的能力,以及OOD样本不具备这些特征的假设。 如果 OOD 样本表现出相似的语义特征或者神经网络没有经过良好的训练,则所提出方法的有效性可能会受到影响。

Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图8 MobileNetV2 架构 [35] 中全局池化操作之前倒数第二层的激活分布应用于 ImageNet-1k 和 iNaturalist 数据集 [45] 我们仅包含平均激活超过 0.1 的数据点。 图中显示我们的神经激活先验(NAP)方法在MobileNetV2中也有效,证明NAP可以应用于不同的架构。
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图9 应用于 ImageNet-1k 和 iNaturalist 数据集 [45] 的 ResNet50 [12] 架构中全局池化操作之前倒数第二层的激活分布。 我们仅包含平均激活超过 0.1 的数据点。 图中显示我们的神经激活先验(NAP)方法在ResNet50中也有效,证明NAP可以应用于不同的架构。
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
Refer to caption
图10 应用于 ImageNet-1k 和 iNaturalist 数据集 [45] 的 VGG16 [37] 架构中全局池化操作之前倒数第二层的激活分布。 我们仅包含平均激活超过 0.1 的数据点。 图中显示我们的神经激活先验(NAP)方法在VGG16中也有效,证明NAP可以应用于不同的架构。

附录L讨论

基于我们之前的超有效性,如图 1 正文和图 8910 所示的可视化结果所示> 在本附录中,我们相信存在更有效的评分函数。 由于篇幅限制,本文的主要重点和贡献是介绍这个先验,并通过提出一个新的评分函数来验证其有效性。 我们将基于之前的最佳评分函数的开发留给未来的工作,旨在进一步为社区做出贡献。 我们还希望本文能够鼓励该社区的研究人员在我们的工作基础上继续发展并推进该领域的发展。

附录M现有资产的许可

我们在研究中使用多个数据集和外部代码库。 为了保持匿名,提交的代码中不包含明确的引用和详细的许可信息。 然而,这些资产的所有创建者和原始所有者都得到了适当的认可,并且他们的许可和使用条款受到尊重。 使用的数据集包括CIFAR-10 [23]、CIFAR-100 [23]、ImageNet-1k [6]、CIFAR-10- C [13]、CIFAR-100-C [13]、ImageNet-1k-C [13]、SVHN [31 ]、iSUN [48]、LSUN [50]、LSUN-crop [50]、iNaturalist [45 ]0>、SUN [47]1>、地点 [53]2>、纹理 [5]3> 和 Places365 [53] 4>。 我们还利用 DenseNet [18]、ResNet [12]、VGG [37] 和 ViT [9] 我们实验中的架构。 我们的神经激活先验 (NAP) 代码库包括 MIT 许可证下的原始代码以及来自其他来源的附加组件。 外部代码源包括 MIT 许可证下的 ASH [8]、DICE [39][40]

NeurIPS 论文清单

  1. 1.

    索赔

  2. 问题:摘要和引言中提出的主要主张是否准确反映了论文的贡献和范围?

  3. 答案:[是]

  4. 理由:摘要和引言清楚地说明了论文的主要贡献和范围,并得到了理论和实验结果的支持。

  5. 指南:

    • 答案 NA 意味着摘要和引言不包括论文中提出的权利要求。

    • 摘要和/或引言应清楚地说明所提出的主张,包括论文中所做的贡献以及重要的假设和限制。 审稿人不会很好地理解这个问题的“否”或“不适用”答案。

    • 所提出的主张应与理论和实验结果相匹配,并反映结果可以在多大程度上推广到其他设置。

    • 只要论文明确没有实现这些目标,就可以将理想目标作为动机。

  6. 2.

    局限性

  7. 问题:本文是否讨论了作者所做工作的局限性?

  8. 答案:[是]

  9. 理由:这项工作的局限性在附录K中详细讨论

  10. 指南:

    • 答案 NA 表示该论文没有限制,而答案 No 则表示该论文有限制,但这些限制并未在论文中讨论。

    • 鼓励作者在论文中创建一个单独的“局限性”部分。

    • 论文应指出任何强有力的假设以及结果对违反这些假设的鲁棒性如何(例如,独立假设、无噪声设置、模型良好规范、仅在局部保持的渐近近似)。 作者应该反思这些假设在实践中可能如何被违反以及会产生什么影响。

    • 作者应该反思所提出的主张的范围,例如,如果该方法仅在几个数据集或几次运行中进行了测试。 一般来说,实证结果通常取决于隐含的假设,这些假设应该被阐明。

    • 作者应该反思影响该方法性能的因素。 例如,当图像分辨率较低或在低光照条件下拍摄图像时,面部识别算法可能表现不佳。 或者,语音转文本系统可能无法可靠地用于为在线讲座提供隐藏式字幕,因为它无法处理技术术语。

    • 作者应该讨论所提出算法的计算效率以及它们如何随着数据集大小进行扩展。

    • 如果适用,作者应该讨论他们解决隐私和公平问题的方法可能存在的局限性。

    • 虽然作者可能担心审稿人可能会利用对限制的完全诚实作为拒绝的理由,但更糟糕的结果可能是审稿人发现论文中未承认的限制。 作者应该运用他们的最佳判断,并认识到有利于透明度的个人行动在制定维护社区完整性的规范方面发挥着重要作用。 将特别指示审稿人不要惩罚有关限制的诚实行为。

  11. 3.

    理论假设和证明

  12. 问题:对于每个理论结果,论文是否提供了全套假设和完整(且正确)的证明?

  13. 答案:[不适用]

  14. 理由:我们的论文不包括理论结果。

  15. 指南:

    • 答案 NA 意味着该论文不包含理论结果。

    • 论文中的所有定理、公式和证明都应编号并交叉引用。

    • 所有假设都应在任何定理的陈述中清楚地陈述或引用。

    • 证明可以出现在主论文或补充材料中,但如果它们出现在补充材料中,则鼓励作者提供简短的证明草图以提供直觉。

    • 相反,论文核心中提供的任何非正式证明都应由附录或补充材料中提供的正式证明进行补充。

    • 应正确引用证明所依赖的定理和引理。

  16. 4.

    实验结果再现性

  17. 问:论文是否充分披露了重现论文主要实验结果所需的所有信息,并达到影响论文主要主张和/或结论的程度(无论是否提供代码和数据)?

  18. 答案:[是]

  19. 理由:彻底描述了实验设置、使用的数据集和评估指标,确保可以重现主要实验结果。

  20. 指南:

    • 答案 NA 意味着该论文不包含实验。

    • 如果论文包含实验,则审稿人不会很好地理解此问题的“否”答案:无论是否提供代码和数据,使论文可重现都很重要。

    • 如果贡献的是数据集和/或模型,作者应描述为使其结果可重现或可验证而采取的步骤。

    • 根据贡献,可以通过多种方式实现可重复性。 例如,如果贡献是一种新颖的架构,充分描述该架构可能就足够了,或者如果贡献是一个特定的模型和经验评估,则可能有必要使其他人能够使用相同的数据集复制该模型,或提供对模型的访问。 一般来说。 发布代码和数据通常是实现这一目标的一种好方法,但是也可以通过如何复制结果、访问托管模型(例如,在大型语言模型的情况下)、发布模型检查点或其他适合所进行的研究的方法。

    • 虽然 NeurIPS 不要求发布代码,但会议确实要求所有提交内容提供一些合理的可重复性途径,这可能取决于贡献的性质。 例如

      1. (A)

        如果贡献主要是一个新算法,论文应该明确如何重现该算法。

      2. (二)

        如果贡献主要是一个新的模型架构,那么论文应该清晰、完整地描述该架构。

      3. (C)

        如果贡献的是一个新模型(例如,一个大型语言模型),那么应该有一种方法来访问该模型以重现结果,或者一种重现模型的方法(例如,使用开源数据集或指令)如何构建数据集)。

      4. (四)

        我们认识到,在某些情况下,再现性可能很棘手,在这种情况下,欢迎作者描述他们提供再现性的特定方式。 在闭源模型的情况下,对模型的访问可能会受到某种方式的限制(例如,注册用户),但其他研究人员应该有可能有某种途径来复制或验证结果。

  21. 5.

    开放数据和代码的访问

  22. 问题:论文是否提供对数据和代码的开放访问,并提供足够的说明来忠实地再现主要实验结果,如补充材料中所述?

  23. 答案:[是]

  24. 理由:本文在第5节和附录H中提供了实验设置的详细描述。此外,补充材料中还提交了重现实验所需的代码以及全面的说明。

  25. 指南:

    • 答案 NA 意味着论文不包含需要代码的实验。

    • 请参阅 NeurIPS 代码和数据提交指南 (https://nips.cc/public/guides/CodeSubmissionPolicy) 了解更多详细信息。

    • 虽然我们鼓励发布代码和数据,但我们知道这可能是不可能的,因此“否”是一个可以接受的答案。 论文不能仅仅因为不包含代码而被拒绝,除非这是贡献的核心(例如,对于新的开源基准)。

    • 说明应包含运行以重现结果所需的确切命令和环境。 有关更多详细信息,请参阅 NeurIPS 代码和数据提交指南 (https://nips.cc/public/guides/CodeSubmissionPolicy)。

    • 作者应提供数据访问和准备的说明,包括如何访问原始数据、预处理数据、中间数据和生成数据等。

    • 作者应提供脚本来重现新提出的方法和基线的所有实验结果。 如果只有一部分实验是可重复的,他们应该说明脚本中省略了哪些实验以及原因。

    • 在提交时,为了保持匿名,作者应发布匿名版本(如果适用)。

    • 建议在补充材料(附加到论文中)中提供尽可能多的信息,但允许包含数据和代码的 URL。

  26. 6.

    实验设置/细节

  27. 问题:论文是否指定了理解结果所需的所有训练和测试细节(例如,数据分割、超参数、如何选择它们、优化器类型等)?

  28. 答案:[是]

  29. 理由:本文在第5节和附录H中提供了实验设置的详细描述。

  30. 指南:

    • 答案 NA 意味着该论文不包含实验。

    • 实验设置应在论文的核心部分详细介绍,以便欣赏结果并理解结果。

    • 完整的详细信息可以在代码中、附录中或作为补充材料提供。

  31. 7.

    实验统计意义

  32. 问题:论文是否报告了适当且正确定义的误差线或有关实验统计显着性的其他适当信息?

  33. 答案:[否]

  34. 理由:所提出的方法是确定性的,不涉及任何需要误差线或统计显着性测试的随机成分或随机初始化。 因此,误差线不适用于这种情况。

  35. 指南:

    • 答案 NA 意味着该论文不包含实验。

    • 如果结果附有误差线、置信区间或统计显着性检验,至少对于支持论文主要主张的实验,作者应该回答“是”。

    • 应明确说明误差线捕获的变异因素(例如,训练/测试分割、初始化、某些参数的随机绘制或给定实验条件下的总体运行)。

    • 应解释计算误差线的方法(封闭式公式、调用库函数、引导程序等)

    • 应给出所做的假设(例如,正态分布误差)。

    • 应明确误差条是标准差还是平均值的标准误差。

    • 报告 1-sigma 误差线是可以的,但应该说明这一点。 如果误差正态性假设未得到验证,作者最好报告 2-sigma 误差线,而不是声明其 CI 为 96%。

    • 对于不对称分布,作者应注意不要在表格或图中显示对称误差条,否则会产生超出范围的结果(例如负误差率)。

    • 如果在表格或图中报告了误差线,作者应在文本中解释它们是如何计算的,并在文本中引用相应的图形或表格。

  36. 8.

    实验计算资源

  37. 问题:对于每个实验,论文是否提供了重现实验所需的计算机资源(计算工作者类型、内存、执行时间)的足够信息?

  38. 答案:[是]

  39. 理由:本文的 5 部分提供了有关实验所用计算资源的详细信息。

  40. 指南:

    • 答案 NA 意味着该论文不包含实验。

    • 论文应指出计算工作人员 CPU 或 GPU、内部集群或云提供商的类型,包括相关内存和存储。

    • 论文应提供每次实验运行所需的计算量并估计总计算量。

    • 论文应披露整个研究项目是否需要比论文中报告的实验更多的计算(例如,基本知识或未纳入论文的失败实验)。

  41. 9.

    道德准则

  42. 问题:论文中进行的研究在各个方面都符合 NeurIPS 道德准则 https://neurips.cc/public/EthicsGuidelines 吗?

  43. 答案:[是]

  44. 理由:本文提出的研究遵守 NeurIPS 道德准则。 所有实验均以诚信和透明的方式进行,确保公平、问责和包容。

  45. 指南:

    • 答案 NA 意味着作者尚未审查 NeurIPS 道德准则。

    • 如果作者回答“否”,他们应该解释需要偏离《道德准则》的特殊情况。

    • 作者应确保保持匿名(例如,如果由于其管辖范围内的法律或法规而有特殊考虑)。

  46. 10.

    更广泛的影响

  47. 问题:本文是否讨论了所开展工作的潜在积极社会影响和消极社会影响?

  48. 答案:[是]

  49. 理由:附录 A 中讨论了这项工作的更广泛影响。

  50. 指南:

    • 答案 NA 意味着所做的工作没有社会影响。

    • 如果作者回答“不适用”或“否”,他们应该解释为什么他们的工作没有社会影响,或者为什么论文没有解决社会影响。

    • 负面社会影响的例子包括潜在的恶意或非预期用途(例如,虚假信息、生成虚假个人资料、监视)、公平性考虑(例如,部署可能做出不公平地影响特定群体的决策的技术)、隐私考虑和安全考虑。

    • 会议预计许多论文将是基础研究,不与特定应用程序相关,更不用说部署了。 然而,如果存在任何负面应用的直接路径,作者应该指出。 例如,可以合理地指出,生成模型质量的改进可用于生成虚假信息的深度伪造品。 另一方面,无需指出优化神经网络的通用算法可以使人们训练模型来更快地生成 Deepfakes。

    • 作者应考虑当技术按预期使用并正常运行时可能出现的危害、当技术按预期使用但给出不正确的结果时可能出现的危害、以及(有意或无意)滥用技术而造成的危害。技术。

    • 如果存在负面社会影响,作者还可以讨论可能的缓解策略(例如,模型的门控发布、除了攻击之外还提供防御、监控滥用的机制、监控系统如何随着时间的推移从反馈中学习的机制、提高效率)和机器学习的可访问性)。

  51. 11.

    保障措施

  52. 问题:本文是否描述了为负责任地发布滥用风险较高的数据或模型(例如,预训练语言模型、图像生成器或抓取的数据集)而采取的保障措施?

  53. 答案:[不适用]

  54. 理由:本文不存在此类风险。

  55. 指南:

    • 答案 NA 意味着该论文不存在此类风险。

    • 已发布的具有高误用或双重用途风险的模型应在发布时采取必要的保障措施,以允许模型的受控使用,例如要求用户遵守使用指南或访问模型的限制或实施安全过滤器。

    • 从互联网上抓取的数据集可能会带来安全风险。 作者应该描述他们如何避免发布不安全的图像。

    • 我们认识到提供有效的保障措施具有挑战性,许多论文并不要求这样做,但我们鼓励作者考虑到这一点并尽最大努力。

  56. 12.

    现有资产的许可证

  57. 问题:论文中使用的资产(例如代码、数据、模型)的创建者或原始所有者是否得到了适当的认可,许可和使用条款是否明确提及并得到适当尊重?

  58. 答案:[是]

  59. 理由:本文正确地注明了所使用资产的所有创建者和原始所有者,包括附录M中的数据集和代码。此外,还明确提及并遵守这些数据集的许可和使用条款。 对于代码和模型,包含适当的参考和致谢,并遵守发布它们所依据的许可证,确保遵守其使用条款。

  60. 指南:

    • 答案 NA 意味着该论文不使用现有资产。

    • 作者应该引用生成代码包或数据集的原始论文。

    • 作者应说明使用的是哪个版本的资产,如果可能,还应包含 URL。

    • 每项资产均应包含许可证名称(例如 CC-BY 4.0)。

    • 对于从特定来源(例如网站)抓取的数据,应提供该来源的版权和服务条款。

    • 如果发布资产,则应提供包中的许可证、版权信息和使用条款。 对于流行的数据集,paperswithcode.com/datasets 已为某些数据集策划了许可证。 他们的许可指南可以帮助确定数据集的许可。

    • 对于重新打包的现有数据集,应提供原始许可证和派生资产的许可证(如果已更改)。

    • 如果无法在线获取此信息,我们鼓励作者联系该资产的创建者。

  61. 13.

    新资产

  62. 问题:本文中引入的新资产是否有详细记录,并且文档是否与资产一起提供?

  63. 答案:[不适用]

  64. 理由:本文不发布新资产。

  65. 指南:

    • 答案NA意味着该论文不发布新资产。

    • 研究人员应通过结构化模板将数据集/代码/模型的详细信息作为其提交内容的一部分进行交流。 这包括有关训练、许可证、限制等的详细信息。

    • 文件应讨论是否以及如何获得资产被使用者的同意。

    • 提交时,请记住对您的资产进行匿名化(如果适用)。 您可以创建匿名 URL 或包含匿名 zip 文件。

  66. 14.

    众包和人类受试者研究

  67. 问题:对于以人类为对象的众包实验和研究,论文是否包含向参与者提供的说明全文和屏幕截图(如果适用)以及有关补偿的详细信息(如果有)?

  68. 答案:[不适用]

  69. 理由:本文不涉及众包或人类受试者研究。

  70. 指南:

    • 答案 NA 意味着该论文不涉及众包,也不涉及人类受试者的研究。

    • 在补充材料中包含这些信息很好,但如果论文的主要贡献涉及人类受试者,那么主论文中应包含尽可能多的细节。

    • 根据 NeurIPS 道德准则,参与数据收集、管理或其他劳动的工人应至少获得数据收集者所在国家/地区的最低工资。

  71. 15.

    人体受试者研究的机构审查委员会 (IRB) 批准或同等批准

  72. 问题:论文是否描述了研究参与者产生的潜在风险,是否向受试者披露了这些风险,以及是否获得了机构审查委员会 (IRB) 批准(或根据您所在国家或机构的要求进行的同等批准/审查) ?

  73. 答案:[不适用]

  74. 理由:本文不涉及众包或人类受试者研究。

  75. 指南:

    • 答案 NA 意味着该论文不涉及众包,也不涉及人类受试者的研究。

    • 根据进行研究的国家/地区,任何人类受试者研究可能需要 IRB 批准(或同等文件)。 如果您获得了 IRB 批准,您应该在文件中明确说明这一点。

    • 我们认识到,不同机构和地点的程序可能存在很大差异,我们希望作者遵守 NeurIPS 道德准则及其机构指南。

    • 对于初次提交的内容,请勿包含任何会破坏匿名性的信息(如果适用),例如进行审查的机构。