使用输入扰动和子集扫描进行皮肤病学中的分布外检测

Hannah Kim
Duke University
Durham, NC, USA
&Girmaw Abebe Tadesse
IBM Research
Nairobi, Kenya
&Celia Cintas
IBM Research
Nairobi, Kenya
&Skyler Speakman
IBM Research
Nairobi, Kenya
Kush Varshney
IBM Research
Yorktown Heights, NY, USA

摘要

深度学习的最新进展导致自动化皮肤病分类的发展取得突破。随着我们观察到皮肤病学领域对这些模型的兴趣日益浓厚，解决输入数据分布变化的稳健性等问题至关重要。当前的皮肤病模型可能会对来自不同硬件设备和临床环境的测试样本或未知疾病样本做出错误的推断，这些样本与训练样本的分布不均匀（OOD）。为此，我们提出了一种简单而有效的方法，在做出任何决定之前检测这些 OOD 样本。通过扫描潜在空间表示（例如，任何预先训练的皮肤疾病分类器的内层的激活）来执行检测。输入样本也可能受到扰动以最大化 OOD 样本的分歧。我们在两个用例中验证了我们的 ODD 检测方法：1）识别从不同协议收集的样本，2）检测来自未知疾病类别的样本。此外，我们评估了所提出方法的性能，并将其与其他最先进的方法进行比较。此外，数据驱动的皮肤病学应用可能会加深不同种族和族裔群体之间临床护理的差异，因为据报道大多数数据集都存在肤色分布偏差。因此，我们还评估了这些 OOD 检测方法在不同肤色上的公平性。我们的实验在检测 OOD 样本方面在多个数据集上取得了具有竞争力的性能，这可以（将来）用于在推断这些样本之前设计更有效的迁移学习技术。

关键词皮肤疾病分类 $\cdot$ 分布外样本检测 $\cdot$ 算法公平性

1简介

皮肤病仍然是全球健康挑战，其中皮肤癌是全球最常见的癌症（Codella 等人，2017）。随着深度学习 (DL) 最近在各种计算机视觉问题上取得成功（部分归功于其自动特征编码能力），卷积神经网络 (CNN) （Huang 等人，2016）已被用于皮肤病分类任务。随着我们观察到人们对深度学习在皮肤病学应用中的兴趣日益浓厚（Esteva 等人，2017；Gomolin 等人，2020），必须解决这些解决方案的透明度、稳健性和公平性(Adamson和史密斯，2018；Qayyum 等人，2020）。虽然许多现有的深度学习技术（Mahbod 等人，2020；Gessert 等人，2018；Ahmed 等人，2019）在公开数据集上实现了高性能（Codella 等人，2017；Tschandl等人, 2018; Combalia 等人, 2019; Sun 等人, 2016)，他们利用多个模型的集合来最大化性能，同时有限地考虑输入数据的变化(Ahmed 等人, 2019) ；Gessert 等人，2019；Zhang 等人，2019），这可能会导致将新样本错误地分类为训练类别之一（置信度很高），尽管这些样本可能来自以前未知的类别或新类别。

因此，有必要在做出决策之前检测分布外（OOD）样本，以实现从分布内训练样本到OOD测试样本的知识原则性转移，从而将模型的可用性扩展到以前未见过的场景。此外，OOD 检测器和其他深度学习解决方案需要保证跨子群体的等效检测能力。特别是在皮肤科领域，学术材料 (Mcf, ) 和临床护理 (rab, ) 中肤色表示的偏差正在成为主要问题。例如，《纽约时报》报道称，在治疗（rab，）颜色的皮肤时，皮肤病学存在重大差异，因为常见病症在深色皮肤上的表现通常有所不同，而医生主要接受过培训以在浅色皮肤上诊断它们。 STAT (Mcf, ) 还报告说，皮肤病学学术材料中缺乏深色肤色会对有色人种患者的护理质量产生不利影响。令人担忧的是，由于机器学习算法是用这种不平衡的数据集进行训练的，越来越多地使用人工智能来辅助皮肤病的诊断，这将进一步加深患者护理方面的分歧（Codella等人，2019，2017； Tschandl 等人, 2018; Combalia 等人, 2019; Sun 等人, 2016)（绝大多数样本为浅肤色）。 Kinyanjui 等人的工作支持了这一点。（Kinyanjui 等人，2019），他们使用个体类型学角度（ITA）来近似各种公开皮肤中的肤色疾病数据集（Codella 等人，2017；Tschandl 等人，2018；Combalia 等人，2019；Sun 等人，2016）并表明这些数据集严重低估了较深的肤色。结果，我们还验证了性能

为此，我们提出了一种简单而有效的方法，可以扫描任何预先训练的皮肤疾病分类器的内层的激活来检测 OOD 样本。我们还使用我们提出的 ODIN_low 预先扰动输入数据，这是 ODIN （Liang 等人，2017）的修改，它提高了网络早期层的 OOD 检测性能。在我们的框架中，我们定义了两种不同的 OOD 用例：协议变化（例如，不同的硬件设备、照明设置以及不符合临床协议）；未知疾病类型（例如，训练期间未观察到的新疾病类型的样本）。在不需要任何 OOD 样本先验知识的情况下，所提出的方法优于现有的 OOD 检测器，softmax 得分（Hendrycks 和 Gimpel，2016）和 ODIN （Liang 等人，2017），对于具有不同验证方案的OOD样品，在检测具有未知疾病类型的样品方面取得了有竞争力的性能。我们进一步探索我们提出的和现有的 OOD 检测器如何在肤色上执行以评估公平性。我们表明，当前的 OOD 检测器在检测深色肤色作为 OOD 样本方面表现出比浅肤色更高的性能，这可能受到严重缺乏深色肤色样本的不平衡训练皮肤数据集的影响。

一般来说，我们的主要贡献如下：1）我们提出了一种基于对预训练皮肤疾病分类器内层激活的子集扫描的弱监督方法，以检测两个用例中的 OOD 样本：OOD 检测来自不同采集方案的样本和来自未知疾病类别的样本； 2) 我们建议使用 ODIN_low 噪声扰乱输入图像，以提高 OOD 检测性能；3) 我们针对现有 OOD 检测器评估我们的方法：Softmax Score （Hendrycks 和 Gimpel，2016）和 ODIN (Liang 等人, 2017);此外，我们评估了所提出的方法和现有方法在肤色检测性能方面的公平性。

Ensemble

Test Data

Augmentation

OOD Detection

Post-Training

New Protocol

Detection

New Disease

Detection

Algorithmic

Fairness

(Ahmed et al., 2019)

✓

✗

✓

✗

(Zhang et al., 2019)

✓

✗

✓

✗

(Gessert et al., 2019)

✓

✗

✓

✗

(Bagchi et al., 2020)

✗

✓

✗

(Pacheco et al., 2019)

✓

✗

✓

✗

✓

✗

(Combalia et al., In Press)

✗

✓

✗

✓

✗

(Pacheco et al., 2020)

✗

✓

✗

Ours

✗

✓

表1：皮肤病分类任务中最先进的 OOD 样本检测总结，以及我们提出的方法的区别。

2相关工作

我们对现有 OOD 检测方法的回顾分为预训练（Ahmed 等人，2019；Bagchi 等人，2020；Gessert 等人，2019；Zhang 等人，2019）和训练后（Combalia 等人，正在出版；Pacheco 等人，2019, 2020），基于检测步骤的应用位置。

预训练 OOD 检测方法具有 OOD 样本的先验知识，并在训练阶段将其纳入其中。其中许多方法利用现有 CNN（及其变体）的集合来检测 OOD 样本（Ahmed 等人，2019；Gessert 等人，2019；Zhang 等人，2019）。 Ahmed et al. （Ahmed 等人，2019）使用深度神经网络特征应用一类学习，其中一类样本被迭代地丢弃为一类 OOD 样本。 vs-all交叉验证策略，通过取所有模型的预测平均值来检测OOD样本。 Gessert 等人 (Gessert 等人, 2019) 利用额外的皮肤病变数据集作为 OOD 样本来训练他们的 CNN 集合来检测 OOD。张等人（Zhang 等人，2019）采用基于 DenseNet 的集成 CNN（由多类和二元分类器组成）来检测 OOD 样本。 Bagchi 等人（Bagchi 等人，2020）提出特定类别 - 已知与未知模拟未知检测 OOD 样本。

训练后 OOD 检测方法不需要在训练期间对 OOD 样本有任何先验知识（Combalia 等人，In Press；Pacheco 等人，2019，2020）。 Pacheco 等人（Pacheco 等人，2019）使用香农熵检测OOD样本（Shannon，1948）以及 CNN 概率输出的余弦相似度指标。相反，Combalia 等人。（Combalia 等人，新闻中）使用 Monte-Carlo Dropout （Gal 和 Ghahramani）检测 OOD 样本，2016）并测试数据增强以估计网络预测中的不确定性，例如熵和方差。 Pacheco et al. （Pacheco 等人，2020）扩展了 Gram-OOD （Sastry 和 Oore，2019），具有针对 Gram 的层特定标准化用于检测 OOD 样本的矩阵值。

表 1 总结了皮肤病学领域著名的 OOD 检测研究。这些研究大多数采用 CNN 集成的预训练方法，由于需要 OOD 样本的先验知识，导致模型复杂且不切实际。对于领域专家来说，测试数据增强也不太合理，因为它可能会部分重新合成样本。在这项工作中，我们提出了一种简单的训练后 OOD 检测器，它可以应用于任何单个预训练网络，而无需任何测试数据增强或 OOD 样本的先验知识。

Refer to caption — 图1：所提出方法的框图。 $C$ ：在上述数据集( $\mathcal{D}_{1}$ 、 $\mathcal{D}_{2}$ )上进行皮肤病分类的训练模型； $T$ ：肤色提取器。

3 提议的框架

我们提出了一种弱监督的 OOD 检测方法，基于子集扫描（Cintas 等人，2020）和 ODIN （梁等人, 2017). 子集扫描将 OOD 检测问题视为在任何预训练分类器的激活空间中搜索最异常观测值子集。通过利用我们的异常度量的数学特性（Neill，2012），可以有效地探索这个指数级的大搜索空间。我们的解决方案可以应用于任何现成的皮肤病分类器。此外，我们还评估了提议的和现有的 OOD 检测器在肤色上的算法公平性。该方法的概述如图1所示。给定一组皮肤数据集 $D$ 和预训练的皮肤疾病分类器 $C$ 作为输入；首先，我们通过肤色分布提取器 $T$ 对每个数据集进行分层以进行评估。然后，我们在分类器的每一层 $C$ 上应用子集扫描，并计算未知疾病用例的子集得分。为了检测协议变化，我们首先扰乱输入数据以获得最佳性能结果。在以下各节中，我们将描述所提议方法的细节。

3.1 用于分布外样本检测的子集扫描

给定用于皮肤疾病分类的预训练网络 $C$ ，我们对网络中间层的激活应用子集扫描（Cintas等人，2020） $C$ 检测 OOD 样本的子集 ( $S$ )（请参阅算法 1)。子集扫描在每一层中搜索最异常的子集 $S^{*}=\arg\max_{S}F(S)$ ，其中异常性通过评分函数 $F(\cdot)$ （例如对数似然比统计量）进行量化。当搜索该子集时，对所有可能的子集进行穷举搜索在计算上是不可行的，因为子集的数量 ( $2^{N}$ ) 随着层中节点数量 ( $N$ ) 呈指数增长。相反，我们利用满足线性时间子集扫描 (LTSS) （Neill，2012）属性的评分函数，这可以实现所有数据子集的高效最大化。此 LTSS 属性保证在 $N$ 搜索而不是 $2^{N}$ 搜索中识别层中得分最高的节点子集。遵循模式检测的文献（McFowland等人，2013），我们利用非参数扫描统计（NPSS）（McFowland等人，2013）作为我们的评分函数：它满足 LTSS 属性并对节点激活的底层分布做出最小的假设。

我们对预训练网络 $C$ 的层 $C_{Y}$ 层应用子集扫描。对于每一层 $C_{y}\in C_{Y}$ ，我们使用已知的分布内（ID）样本 $X_{z}$ 形成每个节点的预期激活分布，这些样本在训练期间使用，也可以称为背景图像。将这一预期分布与每个测试或评估样本 $X_{i}$ 的节点激活进行比较，我们可以得到每个 $i^{th}$ 测试样本和层 $C_{y}$ 的 $j^{th}$ 节点的 p 值 $p_{ij}$ 。然后，我们可以通过找到使测试样本激活与预期的差异最大化的节点子集来量化 p 值的异常性。这会为每个测试样本生成 $|C_{Y}|$ 异常分数 $S^{\ast}_{(C_{y})}$ 。我们期望 OOD 样本比 ID 样本产生更高的异常分数 $S$ ，并且我们通过简单的阈值检测 OOD 样本。请注意，OOD 检测是以无监督的方式执行的，无需事先了解 OOD 样本。

input : Background Image:

X_{z}\in D^{H_{0}}

, Evaluation Image:

X_{i}

, training dataset:

D_{train}

\alpha_{\text{max}}

output :

A ​ U ​ R ​ O ​ C

F_{1}

AUROC^{t}

, and

F_{1}^{t}

for

X_{i}

C\leftarrow

TrainSkinDiseaseClassifier (

D_{train}

);

C_{Y}\leftarrow

Set of layers in

C

;

X_{i}^{t}\leftarrow

PredictITASkinTone (

X_{i}

);

\hat{X}_{z}\leftarrow

AddODINNoise (

X_{z}

);

\hat{X}_{i}\leftarrow

AddODINNoise (

X_{i}

) ;

8 for $C_{y}$ in $C_{Y}$ do

9 for $j\leftarrow 0$ to $|C_{y}|$ do

A^{H_{0}}_{zj}\leftarrow

ExtractActivation (

C_{y}

\hat{X}_{z}

);

A_{ij}\leftarrow

ExtractActivation (

C_{y}

\hat{X}_{i}

);

p_{ij}=\frac{\sum_{X_{z}\in D^{H_{0}}}I(A_{zj}>=A_{ij})+1}{M+1}

;

p^{\ast}_{ij}=\{y<\alpha_{\text{max}}\>\forall\>y\subseteq p_{ij}\}

;

p^{s}_{ij}\leftarrow

SortAscending (

p^{\ast}_{ij}

);

17 for $k\leftarrow 1$ to $|C_{y}|$ do

S_{(k)}=\{p_{y}\subseteq p^{s}_{ij}\forall y\in\{1,\ldots,k\}\}

;

\alpha_{k}=max(S_{(k)})

;

F(S_{(k)})\leftarrow

NPSS (

\alpha_{k}

, k, k);

k^{\ast}_{(C_{y})}\leftarrow\arg\max F(S_{(k)})

;

\alpha^{\ast}_{(C_{y})}=\alpha_{k^{\ast}_{(C_{y})}}

;

S^{\ast}_{(C_{y})}=S_{(k^{\ast}_{(C_{y})})}

;

A ​ U ​ R ​ O ​ C

F_{1}

= ComputeDetectionPerformance (

\sum_{C_{y}}{S^{\ast}_{(C_{y})}}

);

AUROC^{t}

F_{1}^{t}

= StratifyPerSkinTone( $X_{i}^{t}$ , $A U R O C$ , $F_{1}$ );

return

A ​ U ​ R ​ O ​ C

F_{1}

AUROC^{t}

, and

F_{1}^{t}

Algorithm 1 Pseudo-code for the proposed new protocol (OOD) detection.

3.2 ODIN 和 ODIN_low扰动

我们还评估了在子集扫描之前向遵循 ODIN （Liang 等人，2017）的每个测试样本添加小扰动以增强 OOD 的影响。 ODIN 涉及两个步骤：输入预处理和温度缩放。在第一步中，通过添加一个小扰动来扰动 $X_{i}$ ，该小扰动是通过反向传播训练损失相对于 $X_{i}$ 的梯度计算出来的，并由参数 $\epsilon$ 加权>。然后将经过预处理的 $X_{i}$ 输入神经网络，并在最终的 softmax 层 $C_{s}$ 中应用参数 $\tau$ 的温度缩放。选择两个超参数 $\epsilon$ 和 $\tau$ ，以便 Softmax 得分（Hendrycks 和 Gimpel，2016）的 OOD 检测性能，最大值softmax 层的输出被优化。我们进一步修改了 ODIN，并提出带有参数 $\tau_{low}$ 和 $\epsilon_{low}$ 的 ODIN_low，这会导致最低的 softmax 得分性能。由于子集扫描不仅应用于 softmax 层，还应用于网络的内层，我们表明 ODIN_low 有助于改进网络早期层的 OOD 检测。

3.3 OOD 检测器跨肤色的算法公平性

我们进一步评估了我们提出的 OOD 检测器在肤色上的算法公平性，通过采用现有框架（Kinyanjui 等人，2019）进行估计。为此，使用Mask R-CNN （He等人，2017）对给定皮肤图像的非患病区域进行分割，并将个体类型学角度（ITA）值计算为 $ITA=\arctan\left(\frac{L_{\mu}-50}{b_{\mu}}\right)\times\frac{180^{\circ}}{\pi}$ ，其中 $L_{\mu}$ 和 $b_{\mu}$ 是CIELab空间中非病变像素的亮度和黄色值的平均值。 ITA 值用于将样本分为三个 Fitzpatrick 肤色类别：浅色、中色和深色，如表 2 所示。

ITA Range	Skin Tone Category
$ITA>41^{\circ}$	Light
$28^{\circ}<ITA\leq 41^{\circ}$	Intermediate
$ITA\leq 28^{\circ}$	Dark

表2：计算的

I ​ T ​ A

值的 Fitzpatrick 肤色分类摘要。

4 数据集

我们使用两个数据集验证了所提出的框架：ISIC 2019（Codella等人，2017；Tschandl等人，2018；Combalia等人，2019）用于未知疾病的样本；和 SD-198 (Sun 等人, 2016) 用于来自未知收集协议的样本。我们根据肤色对两个数据集中的样本进行分层，以观察各种 OOD 方法对整个人群的影响（见图2)。

4.1ISIC 2019

ISIC 2019 (Codella 等人, 2017; Tschandl 等人, 2018; Combalia 等人, 2019)数据集是 ISIC 2018 的扩展，并合并了 HAM10000 (Tschandl 等人, 2018)数据集t1>、BCN20000 (Combalia 等人, 2019) 和 MSK (Codella 等人, 2017) 数据集。它由八个诊断类别的 $25,331$ 皮肤镜图像组成：黑色素瘤、黑素细胞痣、基底细胞癌、光化性角化病、良性角化病、皮肤纤维瘤、血管病变和鳞状细胞癌。由于其测试集不公开，因此我们在训练期间预留了皮肤纤维瘤（DF）和血管病变（VASC）样本，并在测试期间将它们用作OOD样本未知的疾病。选择这两个类是因为它们在数据集中包含最少数量的样本。图 2 的第一行显示了我们在这项工作中考虑的三个肤色类别中每一个数据集的示例图像。

4.2SD-198

SD-198(Sun 等人, 2016)数据集包含 $198$ 种不同疾病，包括不同类型的湿疹、痤疮和各种癌症，总共 $6,584$ 张图像。这些图像是通过各种设备收集的，主要是数码相机和手机，噪声水平较高，光照也不同。我们将此数据集用于从未知协议收集的 OOD 样本。我们在图2的第二行中展示了数据集的一些示例图像，这些图像被分层为三个肤色类别：浅色、中度和深色。

5实验设置

5.1皮肤病模型建立

我们采用在 ImageNet (Deng 等人, 2009) 上预训练的 DenseNet-121 (Huang 等人, 2016) 来完成皮肤病分类任务，并在 ISIC 2019 上进行展示（Codella等人，2017）。为了适应皮肤疾病分类任务类别数量的变化，我们将 DenseNet 的最后四个全连接层的大小调整为 $512$ 、 $256$ 、 $128$ 和 $7$ 节点，后跟 SoftMax 和用于七个皮肤疾病类别的 $7$ 节点。我们使用 Adam （Kingma 和 Ba，2015）优化，学习率为 $1e^{-4}$ ，批量大小为 $40$ 。为了解决类别不平衡问题，我们采用加权交叉熵损失。使用 Python 3.6 (Harris 等人, 2020) 和 TensorFlow 1.14 (Abadi 等人, 2016) 完成实现。为了验证未知疾病样本的检测，我们使用 ISIC-2019 中的 DF 和 VASC 类，分别由 $253$ 和 $225$ 样本组成。同样，对于具有不同收集协议的样本，我们从 SD-198 中提取 $10$ 组 $260$ 样本并报告其总体性能。

5.2 子集扫描设置

我们在八个层 $C_{Y}$ 上应用子集扫描，其中包括六个卷积层 $(C_{conv_{1}},...,C_{conv_{6}})$ 、全局池化层 $(C_{gp})$ 和softmax层 $(C_{s})$ 。对于 ODIN (Liang 等人, 2017)，我们使用 SD-198 的温标参数 $\tau=10$ 和扰动幅度 $\epsilon=0$ （在 ISIC-2019 上优化） ISIC-2019 样本的 $\tau=5$ 和 $\epsilon=0.0002$ （在 SD-198 上优化）。对于 ODIN_low，我们使用 $\tau_{low}=2$ 和 $\epsilon_{low}=0.2$ ，这导致两个 OOD 用例的 Softmax Score 的 AUROC 等于 0.5。我们采用接收器操作特征曲线下面积 (AUROC) 和最大 $F_{1}$ 分数 ( $F_{1}$ ) 作为评估 OOD 检测性能的指标。

6结果

在本节中，我们展示了所提出的具有子集扫描和 ODIN 的 OOD 检测器的结果，如第 3 节中详述。我们首先将 OOD 检测结果与表 3 中的 Softmax Score （Hendrycks 和 Gimpel，2016）和 ODIN （Liang 等人，2017）进行比较> 适用于具有不同采集方案的 OOD 样本，4 适用于具有未知疾病类型的 OOD 样本。我们根据这些方法的肤色进一步对 OOD 样本进行分层，并在表 5 中报告其性能。我们在图 3 中显示了我们提出的方法在网络各个层上的检测性能，并在图 4 中进一步对肤色的这些性能进行了分层。

Methods	AUROC	$F_{1}$
Softmax Score (Hendrycks and Gimpel, 2016)	$74.4\pm 1.7$	${71.0\pm 1.1}$
ODIN (Liang et al., 2017)	${74.5\pm 1.6}$	$70.8\pm 1.1$
SS ( $C_{s}$ )	$68.2\pm 1.4$	$71.3\pm 0.5$
SS ( $C_{gp}$ )	$62.7\pm 1.2$	${72.5\pm 0.6}$
SS ( $C_{conv_{1}}$ )	$41.6\pm 1.8$	$68.1\pm 0.2$
SS ( $C_{s}$ )+ODIN	$51.2\pm 1.9$	$67.9\pm 0.3$
SS ( $C_{conv_{1}}$ )+ODIN_low	$85.4\pm 0.6$	$81.9\pm 0.6$
SS (Sum All Layers)+ODIN_low	$\mathbf{{91.0\pm 0.8}}$	$\mathbf{{86.9\pm 1.1}}$

表3：使用 SD-198 验证的未知采集方案 OOD 样本的检测性能（Sun 等人，2016）。粗体值是每列中表现最好的值。

6.1 来自不同协议或设备的 OOD 样本

我们首先展示使用不同协议或设备收集的 OOD 样本的检测结果。表3总结了所提出的方法的结果 - 有噪声和无噪声的子集扫描（SS），并与现有基线进行了比较（Hendrycks和Gimpel，2016；Liang等人，2017）. 在顶部面板中，我们看到 ODIN (Liang 等人, 2017) 将 Softmax Score 的 AUROC 性能平均提高了 0.1 左右。对于具有 ODIN 噪声的样本，我们展示了在 softmax 层 $C_{s}$ 上进行子集扫描的性能，因为 ODIN 在 Softmax Score 上进行了优化，对于具有 ODIN_low 噪声的样本，我们展示了第一个卷积层( $C_{conv_{1}}$ )上的子集扫描结果。使用所有八个子集得分 $S^{*}_{(C_{y})}$ 的总和，我们获得了最佳性能，AUROC 为 $91.0\pm 0.8$ ，最大 $F_{1}$ 得分为 $86.9\pm 1.1$ ODIN_low层（表3中的底行）。

Methods	AUROC		$F_{1}$
Methods	DF	VASC	DF	VASC
Softmax Score (Hendrycks and Gimpel, 2016)	80.9	73.2	76.5	70.5
ODIN (Liang et al., 2017)	72.3	65.3	70.3	67.4
SS ( $C_{s}$ )	80.8	70.8	75.7	72.3
SS ( $C_{gp}$ )	37.4	57.9	65.9	69.2
SS ( $C_{conv_{1}}$ )	50.9	62.5	65.8	68.7
SS ( $C_{s}$ )+ODIN	71.8	63.3	70.4	67.4
SS ( $C_{conv_{1}}$ )+ODIN_low	47.6	39.8	65.9	67.1
SS (Sum All Layers)+ODIN_low	47.6	40.4	65.9	67.2

表 4：检测未知疾病类型、DF 和 VASC 的 OOD 样本的性能。粗体值是每列中表现最好的值。

6.2未知疾病的OOD样本

表4显示了检测训练期间未见的未知疾病（DF和VASC）的OOD样本的性能。虽然 Softmax Score （Hendrycks 和 Gimpel，2016）产生最佳性能，但 Softmax 层 $C_{s}$ 上的子集扫描显示出相当的性能。我们发现 ODIN 的性能较差，因为这些 OOD 样本与 ID 样本来自同一数据集，并且添加噪声可能会模糊每个皮肤疾病类别中存在的独特特征。

Methods	Skin Tone	Unknown diseases				Collection protocol
		DF		VASC		SD-198
		R	AUROC	R	AUROC	R	AUROC
Softmax Score (Hendrycks and Gimpel, 2016)	Light	171	81.0	185	72.1	986	75.8
	Intermediate	52	80.7	58	75.8	1278	73.7
	Dark	10	74.9	9	77.0	326	73.2
ODIN (Liang et al., 2017)	Light	171	71.6	185	64.0	986	76.2
	Intermediate	52	69.9	58	64.9	1278	73.8
	Dark	10	86.3	9	89.4	326	72.1
SS ( $C_{s}$ )	Light	171	78.6	185	70.7	986	68.3
	Intermediate	52	87.0	58	71.3	1278	68.0
	Dark	10	87.6	9	69.5	326	68.6
SS ( $C_{s}$ )+ODIN	Light	171	69.7	185	62.7	986	52.1
	Intermediate	52	73.8	58	63.1	1278	50.6
	Dark	10	88.2	9	74.5	326	50.9
SS ( $C_{conv_{1}}$ ) + ODIN_low	Light	171	45.1	185	38.8	986	83.1
	Intermediate	52	49.9	58	37.8	1278	86.7
	Dark	10	63.6	9	68.4	326	87.2
SS (Sum All Layers) + ODIN_low	Light	171	45.1	185	38.4	986	89.3
	Intermediate	52	51.8	58	40.0	1278	92.0
	Dark	10	56.2	9	78.7	326	92.3

表 5：表 3 和 4 中方法的性能分为三个不同的肤色类别。

R

表示每个类别中OOD样本的数量。

6.3 按肤色划分表现

我们进一步将 OOD 样本分为三个肤色类别，并在表 5 中显示结果。在每组列中，我们包括每个肤色类别的测试样本数量 $R$ 及其相应的 AUROC 性能。深肤色样本仅构成 DF 和 VASC 样本的 $3.9\%$ 左右以及 SD-198 样本的 $13\%$ 左右。列出的大多数方法（18 种中的 13 种）都显示出对深色 OOD 样品具有更高的检测性能。这可能部分是因为网络是在 ISIC 2019 数据集上进行训练的，该数据集严重缺乏深色肤色样本，因此很容易检测到深色肤色的 OOD 样本不符合分布。总体而言，需要进一步研究才能清楚地了解这种表现是否揭示了这些数据集中缺乏深色样本或深色皮肤中皮肤疾病的变异表现。

6.4 跨各个层的 OOD 检测

图 3 显示了我们在 $C_{Y}$ 中预训练 CNN 的八层上提出的工作的 AUROC 方面的 OOD 检测性能。第一列显示没有添加任何噪声的子集扫描结果，其他列显示应用 ODIN (Liang 等人, 2017) 和 ODIN_low 扰动的结果，在应用子集扫描之前分别对我们的测试图像进行处理。在每个子图中，我们显示了两个用例的结果，即未知疾病样本（DF（黄色）、VASC（绿色））和来自不同协议的样本（SD-198（红色））的检测。总体而言，ISIC 2019 数据集的 DF 和 VASC 样本在我们考虑的八个层中具有相似的性能，而 SD-198 数据集的样本会根据层和 ODIN 参数产生不同的性能。部分原因是 DF 和 VASC 样本与训练集来自相同的分布，因为它们都来自相同的 ISIC 2019 数据集，而 SD-198 与具有不同收集协议的 ISIC 2019 训练集具有不同的分布。比较最后两张图，我们看到标准 ODIN 在网络末端附近带来更好的性能，而 ODIN_low 在网络的早期层带来更好的性能。这是符合预期的，因为 ODIN 参数( $\tau$ 和 $\epsilon$ )在 Softmax 分数上进行了优化，而 ODIN_low 参数、 $\tau_{low}$ 和 $\epsilon_{low}$ ，不是。

我们根据样本中代表的肤色进一步对各个层的性能进行分层，并在图 4 中显示 AUROC 随分层的变化。虽然浅色（蓝色）和中间（洋红色）肤色的样本在各个层中表现出一致的性能，但我们看到深色（青色）肤色的样本表现出不同的性能。深色肤色样本的性能不稳定可能部分是因为网络是在 ISIC 2019 数据集上训练的，而该数据集严重缺乏深色肤色样本。

7结论

我们提出了一种弱监督方法，使用输入扰动和扫描预先训练的中间层中的激活来检测分布外（OOD）皮肤图像（以不同协议或未知疾病类型收集）。货架分类器。激活的扫描被优化为一个搜索问题，以识别层中的节点，与从训练（分布内）样本导出的预期激活相比，这会导致测试样本子集的激活的最大分歧。我们利用子集扫描的线性时间子集扫描 (LTSS)（Neill，2012）属性来实现随层中节点数量线性扩展的高效搜索。我们提出的方法改进了 OOD 样本的最先进的检测，这些样本是从不同的协议或设备收集的，而不是用于训练分类器的分布样本，并且它实现了与现有技术相比的竞争性能。 -检测未知疾病样本的艺术。我们根据三种肤色类别（浅色、中度和深色）进一步对这些 OOD 样本进行分层。从我们的结果中，我们观察到不同肤色的检测性能不平衡，其中深色样本被检测为 OOD，具有更高的性能。因此，未来的工作旨在了解肤色之间这种检测差异的原因，例如缺乏代表性或皮肤疾病的不同表现。

参考

Codella et al. [2017] Noel C. F. Codella, David Gutman, M. Emre Celebi, Brian Helba, Michael A. Marchetti, Stephen W. Dusza, Aadi Kalloo, Konstantinos Liopyris, Nabin K. Mishra, Harald Kittler, and Allan Halpern. Skin lesion analysis toward melanoma detection: A challenge at the 2017 international symposium on biomedical imaging (isbi), hosted by the international skin imaging collaboration (ISIC). CoRR, abs/1710.05006, 2017. URL http://arxiv.org/abs/1710.05006.
Huang et al. [2016] Gao Huang, Zhuang Liu, and Kilian Q. Weinberger. Densely connected convolutional networks. CoRR, abs/1608.06993, 2016. URL http://arxiv.org/abs/1608.06993.
Esteva et al. [2017] Andre Esteva, Brett Kuprel, Roberto A Novoa, Justin Ko, Susan M Swetter, Helen M Blau, and Sebastian Thrun. Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639):115–118, 2017.
Gomolin et al. [2020] Arieh Gomolin, Elena Netchiporouk, Robert Gniadecki, and Ivan V Litvinov. Artificial intelligence applications in dermatology: where do we stand? Frontiers in medicine, 7, 2020.
Adamson and Smith [2018] Adewole S Adamson and Avery Smith. Machine learning and health care disparities in dermatology. JAMA dermatology, 154(11):1247–1248, 2018.
Qayyum et al. [2020] Adnan Qayyum, Junaid Qadir, Muhammad Bilal, and Ala Al-Fuqaha. Secure and robust machine learning for healthcare: A survey. arXiv preprint arXiv:2001.08103, 2020.
Mahbod et al. [2020] Amirreza Mahbod, Gerald Schaefer, Chunliang Wang, Georg Dorffner, Rupert Ecker, and Isabella Ellinger. Transfer learning using a multi-scale and multi-network ensemble for skin lesion classification. Computer Methods and Programs in Biomedicine, 193:105475, 03 2020.
Gessert et al. [2018] Nils Gessert, Thilo Sentker, Frederic Madesta, Rüdiger Schmitz, Helge Kniep, Ivo M. Baltruschat, René Werner, and Alexander Schlaefer. Skin lesion diagnosis using ensembles, unscaled multi-crop evaluation and loss weighting. CoRR, abs/1808.01694, 2018. URL http://arxiv.org/abs/1808.01694.
Ahmed et al. [2019] Sara Atito Ali Ahmed, Berrin Yanikoglu, Erchan Aptoula, and Ozgu Goksu. Skin lesion classification with deep learning ensembles in isic 2019. 2019.
Tschandl et al. [2018] Philipp Tschandl, Cliff Rosendahl, and Harald Kittler. The HAM10000 dataset: A large collection of multi-source dermatoscopic images of common pigmented skin lesions. CoRR, abs/1803.10417, 2018. URL http://arxiv.org/abs/1803.10417.
Combalia et al. [2019] Marc Combalia, Noel C. F. Codella, Veronica Rotemberg, Brian Helba, Veronica Vilaplana, Ofer Reiter, Cristina Carrera, Alicia Barreiro, Allan C. Halpern, Susana Puig, and Josep Malvehy. Bcn20000: Dermoscopic lesions in the wild. 2019.
Sun et al. [2016] Xiaoxiao Sun, Jufeng Yang, Ming Sun, and Kai Wang. A benchmark for automatic visual classification of clinical skin disease images. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 206–222, Cham, 2016. Springer International Publishing.
Gessert et al. [2019] Nils Gessert, Maximilian Nielsen, Mohsin Shaikh, René Werner, and Alexander Schlaefer. Skin lesion classification using loss balancing and ensembles of multi-resolution efficientnets. 2019.
Zhang et al. [2019] Pengyi Zhang, Yunxin Zhong, and Xiaoqiong Li. Melanet: A deep dense attention network for melanoma detection in dermoscopy images. 2019.
[15] Dermatology faces a reckoning: Lack of darker skin in textbooks and journals harms care for patients of color.
[16] Dermatology has a problem with skin color.
Codella et al. [2019] Noel C. F. Codella, Veronica Rotemberg, Philipp Tschandl, M. Emre Celebi, Stephen W. Dusza, David Gutman, Brian Helba, Aadi Kalloo, Konstantinos Liopyris, Michael A. Marchetti, Harald Kittler, and Allan Halpern. Skin lesion analysis toward melanoma detection 2018: A challenge hosted by the international skin imaging collaboration (ISIC). CoRR, abs/1902.03368, 2019. URL http://arxiv.org/abs/1902.03368.
Kinyanjui et al. [2019] Newton M. Kinyanjui, Timothy Odonga, Celia Cintas, Noel C. F. Codella, Rameswar Panda, Prasanna Sattigeri, and Kush R. Varshney. Estimating skin tone and effects on classification performance in dermatology datasets. 2019.
Liang et al. [2017] Shiyu Liang, Yixuan Li, and R. Srikant. Principled detection of out-of-distribution examples in neural networks. CoRR, abs/1706.02690, 2017. URL http://arxiv.org/abs/1706.02690.
Hendrycks and Gimpel [2016] Dan Hendrycks and Kevin Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. CoRR, abs/1610.02136, 2016. URL http://arxiv.org/abs/1610.02136.
Bagchi et al. [2020] Subhranil Bagchi, Anurag Banerjee, and Deepti R. Bathula. Learning a meta-ensemble technique for skin lesion classification and novel class detection. In CVPR Workshops, June 2020.
Pacheco et al. [2019] Andre G. C. Pacheco, Abder-Rahman Ali, and Thomas Trappenberg. Skin cancer detection based on deep learning and entropy to detect outlier samples, 2019.
Combalia et al. [In Press] Marc Combalia, Ferran Hueto, Susana Puig, Josep Malvehy, and Verónica Vilaplana. Uncertainty estimation in deep neural networks for dermoscopic image classification. In CVPR 2020, ISIC Skin Image Analysis Workshop, 2020 In Press.
Pacheco et al. [2020] Andre G. C. Pacheco, Chandramouli S. Sastry, Thomas Trappenberg, Sageev Oore, and Renato A. Krohling. On out-of-distribution detection algorithms with deep neural skin cancer classifiers. In CVPR Workshops, June 2020.
Shannon [1948] Claude E. Shannon. A mathematical theory of communication. Bell Syst. Tech. J., 27(3):379–423, 1948. URL http://dblp.uni-trier.de/db/journals/bstj/bstj27.html#Shannon48.
Gal and Ghahramani [2016] Yarin Gal and Zoubin Ghahramani. Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, page 1050–1059. JMLR.org, 2016.
Sastry and Oore [2019] Chandramouli Shama Sastry and Sageev Oore. Detecting out-of-distribution examples with in-distribution examples and gram matrices. 2019.
Cintas et al. [2020] Celia Cintas, Skyler Speakman, Victor Akinwande, William Ogallo, Komminist Weldemariam, Srihari Sridharan, and Edward McFowland. Detecting adversarial attacks via subset scanning of autoencoder activations and reconstruction error. In IJCAI 2020, 2020.
Neill [2012] Daniel B. Neill. Fast subset scan for spatial pattern detection, 2012.
McFowland et al. [2013] Edward McFowland, Skyler Speakman, and Daniel B. Neill. Fast generalized subset scan for anomalous pattern detection. J. Mach. Learn. Res., 14(1):1533–1561, January 2013. ISSN 1532-4435.
He et al. [2017] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross B. Girshick. Mask R-CNN. CoRR, abs/1703.06870, 2017. URL http://arxiv.org/abs/1703.06870.
Deng et al. [2009] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
Kingma and Ba [2015] Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, 2015. URL http://arxiv.org/abs/1412.6980.
Harris et al. [2020] Charles R Harris, K Jarrod Millman, Stéfan J van der Walt, Ralf Gommers, Pauli Virtanen, David Cournapeau, Eric Wieser, Julian Taylor, Sebastian Berg, Nathaniel J Smith, et al. Array programming with numpy. Nature, 585(7825):357–362, 2020.
Abadi et al. [2016] Martin Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, Manjunath Kudlur, Josh Levenberg, Rajat Monga, Sherry Moore, Derek G. Murray, Benoit Steiner, Paul Tucker, Vijay Vasudevan, Pete Warden, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. Tensorflow: A system for large-scale machine learning. In 12th USENIX Symposium on Operating Systems Design and Implementation, pages 265–283, 2016. URL https://www.usenix.org/system/files/conference/osdi16/osdi16-abadi.pdf.

SS	SS+ODIN	SS+ODIN_low