基于距离的 Covid-19 肺部病灶分割分布外静默故障检测

Camila González camila.gonzalez@gris.tu-darmstadt.de Karol Gotkowski Moritz Fuchs Andreas Bucher Armin Dadras Ricarda Fischbach Isabel Jasmin Kaltenborn Anirban Mukhopadhyay Darmstadt University of Technology, Karolinenplatz 5, 64289 Darmstadt, Germany Uniklinik Frankfurt, Theodor-Stern-Kai 7, 60590 Frankfurt am Main, Germany

摘要

在胸部计算机断层扫描 (CT) 扫描中自动分割毛玻璃混浊和实变可以潜在地减轻放射科医生在资源利用率高的时期的负担。然而，由于在分布外 (OOD) 数据上默默地失败，深度学习模型在临床常规中并不被信任。我们提出了一种轻量级 OOD 检测方法，该方法利用特征空间中的 Mahalanobis 距离并无缝集成到最先进的分割流程中。这种简单的方法甚至可以通过临床相关的不确定性量化来增强预先训练的模型。我们在四个胸部 CT 分布变化和两个磁共振成像应用（即海马体和前列腺的分割）中验证了我们的方法。我们的结果表明，所提出的方法可以有效地检测所有探索场景中的远距和近距 OOD 样本。

关键词：

MSC：

68T30、68T37、68T45 分布外检测、不确定性估计、分布偏移

^†^†journal: Medical Image Analysis

1简介

胸部计算机断层扫描 (CT) 扫描中肺部病变的自动分割可以标准化 Covid-19 等肺部疾病的量化和分期，并为更有效地利用医院资源开辟道路。毛玻璃样混浊 (GGO) 和实变是 SARS-CoV-2 病毒引起的肺部感染的特征[45]。自大流行早期阶段以来，许多机构都收集了重症监护室受影响患者的扫描结果，一些举措还公开发布了由胸部放射科医生专家提供的真实描述的病例[51,25,44] 。深度学习在分割这些模式方面显示出了有希望的结果。特别是全自动的 nnU-Net [24] 稳居榜首[18]（10 名中的 9 名，包括第一名） Covid-19 肺部 CT 病变分割挑战赛 [51] 排行榜。

不幸的是，使用公开队列训练的模型可能无法很好地推广到现实世界的临床数据，因此在没有广泛测试和/或质量保证（QA）协议的情况下部署时会带来安全问题。众所周知，深度学习模型对于偏离训练分布[41]的数据会失败；这种现象通常称为域转移。这阻碍了 Covid-19 大流行期间人工智能解决方案的部署[22]，因为大多数机构没有投入资源来注释内部数据集。领域转移的潜在原因有很多，从采集过程的变化到患者群体的自然变化。有些问题可能会在不知不觉中发生在同一机构内，随着时间的推移，甚至使用内部数据训练的模型也会变得不可靠[53]。

图 5 直观地显示了根据 COVID-19 肺部 CT 病变分割挑战赛 [51, 1, 9] 的数据训练的 nnU-Net 的性能恶化情况。该数据池包含 199 个病例，其中 160 个用于训练，考虑到肺部病变勾画过程的时间密集性，数据池比单个机构实际收集和注释的数据要大得多。数据也是多中心的并且在患者组和采集方案方面具有多样性，但该模型无法推广到不同的分布变化。肺部病变不会出现在大的连接组件中（参见图12)，因此对于新手放射科医生来说识别不正确的分割并非易事。

虽然到目前为止，我们对深度学习模型的临床应用描绘了一个黯淡的前景，但这些模型仍然可以在适当的质量保证机制的帮助下安全地使用。问题在于，人工执行的质量保证既耗时又昂贵，最终违背了人工智能在放射学领域的承诺。另一方面，自动方法可能是识别低质量案例的廉价且有效的第一步。特别是，可靠的分布外 (OOD) 检测可以在模型不适合患者时发出信号。

现有的 OOD 检测或不确定性量化方法 (a) 观察网络 logits，即使对于新输入，网络 logits 也经常默默地失败，表现出模仿分布 (ID) 情况的合理行为[17] 或 (b) 需要特殊的训练考虑因素，从而降低其可用性，例如自我监督损失项或异常值检测器。在实践中，使用的模型在目标任务中表现出最佳性能。广泛使用的分割框架在设计时并未考虑到 OOD 检测，因此需要一种能够在训练后可靠地识别 OOD 样本、同时需要最少干预的方法。

我们建议直接估计新样本与低维特征空间中的训练分布的相似度。较大的距离表明模型过去没有见过特定的激活模式，因此这些新特征产生的输出不可信。我们的方法[14]最初在 MICCAI 2021 上提出，是轻量级的，不需要改变训练过程的网络架构，使其能够无缝集成到复杂的分割管道中。此外，由于距离估计过程是在训练之后进行的，因此它可以为预训练模型提供临床相关的不确定性分数。

基于我们之前的工作，在本文中，我们为我们的方法提供了更多背景，对选择特征图进行了消融研究，并大大扩展了我们的评估。我们使用在挑战数据上训练的nnU-Net在四种场景中验证我们提出的方法。

1.

对于第一个设置，我们对公开可用的 Radiopedia 和 Mosmed 数据集进行推理。我们过去探索过的此设置模拟了数据集转移情况，其中用户不知道到底引入了哪些更改。
2.

其次，我们将仿射变换和合成伪影应用于 ID 测试数据，以便分别模拟受试者群体的几何变化和 CT 采集中的常见质量问题。
3.

我们还评估了由 50 名 Covid-19 患者和 50 名新发非 Covid 肺炎患者组成的内部数据队列的诊断转变场景。
4.

最后，我们进行远 OOD 评估，将来自医学分段十项全能 (MSD) 的结肠和脾 CT 检查输入模型。

此外，我们还探索了两个额外的分割任务来评估我们的方法到其他设置的可移植性，即分别从 T1 和 T2 加权磁共振图像 (MRI) 进行海马体和前列腺分割。我们还在 HighResNet [36] 架构上进行了实验，该架构不遵循经典的编码器-解码器结构。

我们的结果表明，我们提出的基于距离的方法可以可靠地检测其他方法无法在各种用例中识别的分布外样本。

2相关工作

多种策略在分类任务中表现出了可接受的 OOD 检测性能。 基于输出的方法通过估计 logits 与 one-hot 编码的距离来评估 logits 的置信度。 Hendrycks 和 Gimpel [19] 建议使用最大 softmax 输出作为 OOD 检测基线。 Guo 等人 [16] 发现用温度缩放变体替换常规 softmax 函数会产生更真实的估计，而 Liang 等人 [37] 通过向网络输入添加扰动来补充此方法。类似地，Liu 等人[40]使用能量评分以事后方式检测OOD样本。如果可以访问显式 OOD 样本，基于能量的损失训练可以进一步改进 OOD 检测。其他方法 [21, 33] 相反，查看来自均匀分布的 softmax 输出的 KL 散度。

基于样本受贝叶斯启发的技术[6]将不同条件下产生的多个输出之间的差异视为不确定性。常用的方法有蒙特卡洛Dropout（MC Dropout）[12]和Deep Ensembles[32]。后者通常表现更好，但需要训练多个模型，而 MC Dropout 可以评估使用 Dropout 层训练的任何模型的不确定性。 Ashukha 等人[3]表明测试时间增强（TTA）可以显着改善奇异模型和集成。基于样本的方法在医学图像分割领域显示出了有希望的结果[26,27,41]。

其他方法使用 OOD 数据显式训练异常值检测器[4,20,33]。然而，由于它们要求将 OOD 检测作为整个训练过程的主要目标，因此它们不能事后应用于预训练模型。

对架构或训练过程进行修改或做出某些假设的方法已显示出良好的性能[29,42,43,11]。例如，自我监督损失为新颖性[48,13,21,15]提供了有价值的评估。然而，它们对广泛使用的分割框架（通常不使用自我监督）的适用性是有限的。

Refer to caption — 图。1： OOD 检测所需的属性和相应的范例。理想情况下，方法应该 (1) 广泛适用 (2) 即使 OOD 检测不是训练期间的目标，也可以在事后基础上工作，并且 (3) 可靠地检测 OOD 样本。

在图1中，我们说明了现有范例如何根据不同的需求执行。我们对可直接用于任何模型的方法感兴趣，因此我们将分析限制在表 1 中概述的方法。

Method Type Parameters Mod. Level Inf. time Max. Softmax O t 0 ++ Temp. Scaling O t,T 1 ++ KL O t, $p(\theta)$ 2 + Energy Scoring O t,T 1 ++ MC Dropout S t, p 3 - TTA S t, $I_{Aug}$ 2 - - Ours D t, $\mu,\sigma$ 2 +

表格1：输出 (O)、样本 (S) 和基于距离 (D) 方法之间的比较。我们比较适用性的重要因素：参数、修改次数 (0-3) 以及从高 [- -] 到无 [++] 的额外推理时间。

与之前的工作不同，我们的方法在编码器末尾观察模型激活。我们将它们投影到低维特征空间，并用训练数据估计多元高斯。在推理过程中，我们检测到与该分布具有高 Mahalanobis 距离的样本，这适合量化潜在空间 [34, 8] 中的差异。

3材料和方法

我们提出的方法如图2所示，将不确定性评估为新样本与特征空间中训练分布的距离。首先，我们从训练后的模型中提取特征图，并将其投影到低维空间，以确保计算成本低廉。然后，我们根据 ID 训练样本估计多元高斯分布。在测试时，我们重复特征提取过程并计算马氏距离。

我们首先在 3.1 节中简要介绍基于补丁的 nnU-Net 架构，并概述我们的方法如何链接到它。在3.2节中，我们描述了我们提出的OOD检测方法，该方法遵循三步过程：（1）从训练特征中估计高斯分布（2）提取测试图像的不确定性掩模，最后 (3) 计算主题级不确定性分数。

3.1 基于补丁的nnU-Net

nnU-Net 是医学图像分割的标准化框架[24]，它报告了多个基准和挑战的最先进结果[18]。在不偏离传统U-Net结构[50]的情况下，它自动为训练数据选择最佳架构和学习配置。该框架还在训练和推理过程中执行预处理和后处理步骤，例如调整体素间距和标准化强度。

我们使用基于补丁的全分辨率变体，建议大多数应用使用该变体[24]。执行所有必要的预处理操作后，输入图像 $x$ 按照滑动窗口方法划分为重叠率为 50% 的块。这会产生 $N$ 补丁 $\left\{x_{i}\right\}^{N}_{i=1}$ 。对每个补丁进行前向传递，此时我们为我们的方法提取特征图。每个补丁的预测都会乘以更重地加权中心体素的过滤操作。最后，加权预测被聚合成具有原始图像维度的输出掩模。

我们还尝试了 3D HighResNet 模型[36]，我们将其集成到 nnU-Net 框架中，从而遵循相同的步骤进行图像准备并将输出组合成相干预测。

3.2 基于距离的OOD检测

我们感兴趣的是捕捉认知不确定性，这种不确定性是由于缺乏对数据生成过程的了解而产生的。虽然大多数不确定性估计方法都会量化预测边界的不确定性，但我们希望对整个区域进行量化，这对于 OOD 数据[28] 来说是一个挑战>。

直接评估认知不确定性的一种方法是计算训练和测试激活之间的距离。由于模型不太可能为训练期间所见的特征产生合理的输出，因此这是模型性能不佳的可靠信号[34]。

模型激活具有协方差，并且它们不一定类似于高维空间的模式[56]，因此欧几里德距离不适合识别不寻常的激活模式。相反，受到 Lee 等人 [34] 的工作的启发，我们利用 Mahalanobis 距离 $D_{\mathcal{M}}$ ，它将样本重新缩放到一个空间，而无需协方差。图3说明了马氏距离如何更好地捕捉分布内数据的行为，并正确地将单位圆之外的样本识别为OOD。

以下部分描述了我们如何在我们的方法中利用马哈拉诺比斯距离。请注意，每个补丁只需要一次前向传递，从而将计算开销保持在最低限度。

3.2.1 训练分布的估计

我们首先估计训练特征的多元高斯分布 $\mathcal{N}(\mu,\Sigma)$ 。对于所有训练补丁 $\left\{x_{i}\right\}^{N}_{i=1}$ ，特征 $\mathcal{F}(x_{i})=z_{i}$ 是从编码器 $\mathcal{F}$ 中提取的。

对于现代分割网络，提取的特征 $z_{i}$ 的维度太大，无法在可接受的时间范围内计算协方差 $\Sigma$ 。因此，我们通过应用内核大小为 $\left(2,2,2\right)$ 的平均池化操作并跨步 $\left(2,2,2\right)$ 直到维度低于 $1e4$ 元素，将潜在空间投影到较低的子空间中。最后，我们展平该子空间并估计经验平均值 $\mu$ 和协方差 $\Sigma$ 。

\mu=\frac{1}{N}\sum_{i=1}^{N}\hat{z_{i}},\quad\Sigma=\frac{1}{N}\sum_{i=1}^{N}(\hat{z_{i}}-\mu)(\hat{z_{i}}-\mu)^{T}

(1)

在表 2 中，我们演示了对于 $1e4$ 元素的维度，我们可以使用 Scikit Learn 在最多几分钟内估计协方差（第 3 行和第 4 行）在 AMD Ryzen 9 3900X CPU 上，而对于更高的维度，时间会突然增加（第 5 行）。

Nr. samples Dimensionality $\Sigma$ time (s) $D_{\mathcal{M}}$ time (s) 1e3 1e3 0.260 0.001 1e6 1e3 8.480 0.001 1e3 1e4 69.11 0.050 1e4 1e4 81.80 0.051 1e3 2e4 6555.13 0.194 .

表2：估计协方差

\Sigma

（第 3 列）和计算到一个样本的马哈拉诺比斯距离

D_{\mathcal{M}}

（第 4 列）所需的时间（以秒为单位）

3.2.2 不确定性掩模的提取

在推理过程中，我们按照图2（右）所示的过程估计主题的不确定性掩模。首先，我们执行与训练期间相同的预处理步骤，并将图像划分为补丁。接下来，我们提取每个补丁 $x_{i}$ 的特征图，并将它们投影到 $\hat{z_{i}}$ 上，就像训练期间所做的那样。然后，我们计算与上一步估计的高斯分布的马氏距离（方程2)。

D_{\mathcal{M}}(\hat{z_{i}};\mu,\Sigma)=(\hat{z_{i}}-\mu)^{T}\Sigma^{-1}(\hat{z_{i}}-\mu)

(2)

每个距离都是对应补丁的点估计。我们将此值复制到补丁的大小，并以与分割管道将补丁输出组合成连贯预测相同的方式组合所有补丁的距离。

按照基于补丁的 nnU-Net 的示例，我们首先用原始图像的维数初始化一个零填充张量。然后，我们对每个补丁应用过滤操作，以更重地权衡中心的体素，并将它们添加到图像级掩模中。

3.2.3 主体层面的不确定性

上一步会根据输入 CT 扫描的维度生成不确定性掩模。为了有效识别高度不确定的图像，我们对所有体素进行平均以获得一个值 $\mathcal{U}$ ，并对ID数据的最小和双倍最大不确定性之间的不确定性进行归一化以确保 $\mathcal{U}\in\left[0,1\right]$ 。

4实验设置

我们首先在 4.1 节中描述实验中使用的数据。然后，我们阐述了模型的相关细节（第 4.2 节）。然后，我们介绍所有基线（第4.3节）并定义我们的评估指标（第4.4节）。

4.1数据

我们使用来自 COVID-19 Lung CT Lesion Segmentation Challenge [51, 1, 9] 的数据训练我们的第一个模型，我们将其称为挑战或分布中 (ID)。该数据集包含来自不同中心和国家的确诊 SARS-CoV-2 感染患者的胸部 CT 扫描。这些数据在患者的年龄、性别和疾病严重程度方面也存在差异。我们使用可用于挑战的 199 个案例，并使用 nnU-Net 随机分割函数将其分为 160 个训练案例和 39 个测试案例。

我们包括四种类型的分布外样本的结果：(1) 数据集偏移，我们在另外两个数据集上评估模型，这些数据集的获取和总体模式存在差异 (2) 转换转变，我们对 ID 数据应用人工转换；(3) 诊断转变，我们将 Covid-19 与非 Covid 肺炎患者进行比较；(4) 远-OOD，其中我们使用医学分割十项全能 (MSD) [52, 2] 的 Spleen 和 Colon 任务。

此外，我们还对 MR 图像的海马体和前列腺分割进行了研究。我们使用 MSD 的相应任务来训练每个 nnU-Net 模型，并分别使用海马体和前列腺的两个和三个 OOD 数据集。

4.1.1 数据集移位

我们使用两个公开可用的数据集：Mosmed [44] 包含 50 个病例，Radiopedia 数据集 [25]，还有二十个。两者都包括已确诊感染和未确诊感染的患者。表3提供了数据特征的摘要。

Dataset name Nr. cases Mean image size Mean spacing Challenge 199 [512, 512, 69] [0.8, 0.8, 4.8] Mosmed 50 [512, 512, 41] [0.7, 0.7, 8.0] Radiopedia 20 [560, 571, 176] [1.0, 1.0, 1.0]

表3： Covid-19 肺部病变分割数据集的特征。

4.1.2 转型转变

我们使用 TorchIO [47] 库中的多个操作来转换 39 个分布内测试用例。

Shift Operation Weak Medium Strong Artefact Ghost intensity (0, 0.2) (0, 0.4) (0, 0.7) Spike intensity (0, 0.2) (0, 0.5) (0, 0.7) Blur STD (0, 0.3) (0, 0.3) (0, 0.3) Noise STD (0, 15) (0, 30) (0, 30) Affine Scales (0.9, 1.4) (0.7, 1.8) (0.6, 2) Rotation degrees 5 8 9 Translation range (-15, 15) (-20, 20) (-20, 20) Isotropic True True False

表 4：用于使用 TorchIO 库随机生成人工制品和仿射变换的参数。对于每种类型的转变，都会生成三个变换后的数据集，并且变换越来越强。

伪像变换包括重影、k空间尖峰、高斯模糊和高斯噪声。仿射变换包括缩放、旋转和平移。所有仿射操作可以是各向同性的或各向异性的。对于各向同性情况，我们为矢状、冠状和轴向尺寸部署相同的变换参数。对于各向异性情况，这些参数针对每个维度都会发生变化，从而导致更强的偏移。对于两组转换，我们生成三组(弱、中和强)，每组都具有越来越强的增强参数。表4中报告了所使用的参数。图 4 中显示了所执行转换的示例。

4.1.3诊断转变

我们利用包含一百个案例的内部数据集。 50 名患者经 RT PCR 检测证实患有 Covid-19 肺部感染，所有病例均出现可见的肺部 Covid-19 病变（3/2020 至 12/2020）。其余 50 例由各种 Covid 模仿者组成，表现出类似的肺部病变，但在 Covid 爆发之前获得或通过 RT PCR 检测 Covid-19 呈阴性（2017 年 3 月至 2020 年 2 月）。案例在 RACOON 项目[49]中收集并标注。新冠肺炎模拟包括病毒性非新冠肺炎、细菌性肺炎、真菌性肺炎、结核病、慢性阻塞性肺病、囊性纤维化、间质性肺纤维化、急性间质性肺炎、隐源性机化性肺炎、药物相关性肺毒性、放射性肺纤维化、急性肺病栓塞、慢性肺栓塞、胸膜病变、肺血管炎、支气管癌、肺转移，以及没有任何肺部病变的对照病例。

一位拥有 8 年胸部 CT 解读经验的临床放射科医生审查了所有扫描结果，发现它们的质量足以进行准确的视觉诊断。整个图像堆栈的手动注释由两名接受过 GGO 描绘和肺实变训练的独立阅读器逐片进行。中央血管结构和中央支气管结构被排除在所有注释之外。我们特别注意区分人工制品和 GGO。实变被定义为在软组织窗口中可见且尺寸至少为 5 毫米。一位放射科专家读者审阅了所有的描述。在表5中，我们报告了有关人口统计分布的一些详细信息。

Age Gender Voltage mAs Covid-19 57.17 [49/67] 16% 100 121.21 $\pm$ 55.91 Non-Covid 60.24 [47/73] 42% 120 114.77 $\pm$ 82.56

表 5：包含 50 个 Covid-19 病例和 50 个非 Covid 病例的内部数据队列。我们报告年龄（中位 Q1/Q3）、性别（f/m）、电压（中位 kV）和管电流时间乘积（mAs）。

4.1.4 MRI任务

对于海马体，我们考虑三个 T1 加权数据集：MSD 任务，我们表示为 MSD H，包含健康和精神分裂症患者，Dryad [31] 包含 50 名健康受试者的数据集和包含老年受试者的协调海马协议数据[7] (HarP)，其中一些患有阿尔茨海默病。

对于 T2 加权 MRI 中的前列腺分割，我们使用四个数据集的语料库，包括 MSD 数据 (MSD P) 和三个 OOD 集：NCI-ISBI 2013 中提供的病例挑战 [5] (ISBI) 和I2CVB [35] 和UCL [38] 数据集由Liu 等人[39]提供。为了对齐标签特征，我们统一了海马的head和body以及中央腺体和外围区域的标签> 对于前列腺。相关数据集特征的总结可以在表6中找到。

Dataset name Nr. cases Mean image size Mean spacing MSD H 260 [50, 35, 36] [1.0, 1.0, 1.0] Dryad 50 [64, 64, 48] [1.0, 1.0, 1.0] HarP 270 [64, 64, 48] [1.0, 1.0, 1.0] MSD P 32 [316, 316, 19] [1.0, 1.0, 1.0] ISBI 30 [384, 384, 19] [0.5, 0.5, 3.7] UCL 13 [384, 384, 24] [0.5, 0.5, 3.3] I2CVB 19 [384, 384, 64] [0.5, 0.4, 1.3]

表 6： MR 海马体（上）和前列腺（下）分割数据集的特征。模型根据医疗分割十项全能的相应任务进行训练。

4.2模型

我们在 Tesla T4 GPU 上训练了三个基于补丁的 nnU-Nets [24] 和一个 HighResNet [36]。我们的配置针对挑战、MSD H和 $\left[256,256,28\right]$ 、 $\left[56,40,40\right]$ 和 $\left[320,320,20\right]$ 的补丁大小分别是 MSD P 任务。在所有情况下，相邻补丁重叠 50%，并且我们使用 Dice 损失（平滑 1e-5）和同等加权的二元交叉熵进行训练，直到收敛后。训练以 0.01 的学习率和 3e-5 的权重衰减开始。没有应用测试时间增强来提取预测，因为这意味着 3D 数据的速度提高了 8 倍。

4.3基线

我们将我们的方法与基于输出和基于样本的技术进行比较，这些技术通过对训练模型进行推理来评估不确定性信息。 最大。 Softmax 包括获取最大 softmax 输出 [19]。 温度。在应用 softmax 操作 [16] 之前，缩放 对输出执行温度缩放。 KL from Uniform 根据均匀分布 [21] 计算 KL 散度。请注意，所有三种方法都会输出一个置信度分数（越高越确定），我们将其反转以获得不确定性估计（越低越确定）。 能量评分 [40] 将不确定性评估为 softmax 分母的对数和。

MC Dropout [12] 包括执行多次前向传递，同时激活在推理过程中通常处于休眠状态的 Dropout 层。我们执行 $10$ 向前传递。测试时增强 (TTA) 遵循类似的策略，在测试期间增强图像[55]。我们使用图像翻转作为增强，并通过为每个轴顺时针和逆时针翻转输入图像一次来生成八个预测。我们将输出之间的标准差报告为两种方法的不确定性得分。

对于所有基线和我们提出的方法，我们通过平均体素值来计算受试者级指标，并对 ID 训练数据中表示的最小和双倍最大不确定性之间的不确定性范围进行标准化。对于能量评分和温度。缩放，我们总是报告三种不同温度设置 $T\in\left\{1,10,100\right\}$ 中具有最低ESCE的结果。

4.4指标

对于 OOD 检测，我们计算 ID 数据上的 95% 真阳性率 (TPR) 边界，即覆盖至少 95% 训练样本的边界。不确定性大于此边界的样本被预测为 OOD。我们报告误报率，定义为

FPR=\frac{FP}{FP+TN},

(3)

其中误报 (FP) 是被错误地视为分布中的 OOD 样本，检测错误

Error=\frac{1}{2}(1-TPR)+\frac{1}{2}FPR

(4)

以及使用 Scikit Learn 库[46]计算的接收操作曲线下面积 (AUC)。

虽然 OOD 样本的检测是评估模型对新图像的适用性的第一步，但理想的不确定性度量将与模型性能成反比。为此，我们计算预期分段校准误差 (ESCE)。受Guo等人[16]的启发，我们将 $n$ 测试扫描分为 $M=10$ 间隔仓 $B_{m}$ 。对于每个箱，计算箱中样本的平均 Dice $(Dice(B_{m}))$ 和逆平均不确定性 $(1-\mathcal{U}(B_{m}))$ 之间的绝对差。报告加权平均值，通过其中的样本数量对每个箱的分数进行加权（等式5)。

ESCE=\sum^{M}_{m=1}\frac{\left|B_{m}\right|}{n}\left|Dice(B_{m})-(1-\mathcal{U}(B_{m}))\right|

(5)

5结果

我们首先分析数据集转移场景，其中在Challenge数据集上训练的模型在公开可用的Radiopedia和Mosmed上进行测试t3> 案例（第 5.1 节）。 然后，我们评估模型针对不同幅度的伪像和仿射变换的鲁棒性，并探索这些模型被正确检测到的程度(5.2 节）。作为第三种设置，我们将我们的方法应用于 5.3 节中包含 Covid-19 和非 Covid 患者的内部数据队列。

在5.4节中，我们进行了far-OOD研究，我们检查我们的方法是否检测到距离下雨分布很远的样本。然后，我们进行消融研究，测量不同网络层用于特征提取的使用情况(5.5 节），并在 HighResNet 模型上重复数据集转换 实验(5.6)。在所有这些实验中，我们探索我们的方法是否可以区分 ID 案例（来自挑战数据的测试对象）和 OOD 图像。我们在5.7节中定性地研究了示例性预测和相应的不确定性分数。

最后，在 5.8 节中，我们评估了我们的方法对 MR 数据的可移植性，其中我们研究了海马体和前列腺分割任务。

5.1 数据集移位

在表 7 中，我们报告了我们提出的方法和其他六种方法在识别 OOD 样本（即来自 Mosmed 或 Radiopedia 的样本方面的性能）模型产生不可靠预测的数据集（参见图5)。根据之前对 OOD 检测[37]的研究，我们发现覆盖 95% 分布内训练样本的不确定性边界，并将不确定性超过 ID 95% 阈值的情况视为 OOD。我们基于距离的方法是唯一能够成功标记远离训练分布的情况的方法，如较低的检测误差和 FPR 以及接近 1 的 AUC 所示。

Method ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ Max. Softmax .39 .43 .84 .61 MC Dropout .28 .41 .79 .75 KL .38 .44 .83 .69 TTA .36 .41 .77 .74 Temp. Scaling .02 .47 .89 .42 Energy Scoring .46 .51 .90 .31 Ours .15 .09 .04 .96

表 7：数据集移位结果。以估计分割校准误差 (ESCE)评估分割质量的能力，以及以检测误差 (误差)、误报率 (FPR) 和 ROC 下面积 (AUC) 将 Radiopedia 和 Mosmed 中的样本识别为 OOD 的能力。

我们在图 6 中绘制了三种表现最佳方法的 Dice 分数与归一化不确定性的关系。垂直线标记 95% TPR 边界。我们认为 Dice 分数低于 0.6 的预测是低质量，因为它们与真实情况[54]存在显着差异，并且对于 Covid-19 病变任务分段，对感染的传播提供误导性的评估。

左下（红色）象限对于分段模型的安全使用至关重要，因为它包含无声故障，针对这些故障进行了低质量预测，但未将其识别为这样的。只有我们的方法才能将足够大的不确定性估计分配给分割不良的 OOD 样本，并将它们排除在本节之外。然而，右上（黄色）象限表明我们的方法在估计不确定性方面过于保守，没有识别模型产生良好分割的样本。对于技术上 OOD 但病变非常明显且易于分割的病例，这种过于谨慎的行为可能会导致模型的利用不足；尽管任何数量的安全利用都是有利的。该方法的另一个局限性是，它无法识别由于病变太小或与训练数据中看到的不同而导致模型错误分割的 ID 样本，这凸显了 OOD 检测只是彻底 QA 过程的一部分这一事实。

关于分割质量的估计，Temp。缩放达到最低的ESCE（表7中的第一列），但仔细检查图6（左）表明这是由于大多数不确定性聚类造成的在第五个垃圾箱上。理想的分割校准将所有样本容纳在左上（绿色）和右下（蓝色）象限中。

5.2 伪影和仿射位移

上一节中观察到的数据集转移场景描述了现实的设置，即训练数据与部署期间遇到的情况之间是否存在多种潜在的变化程度。然而，很难评估模型性能是否由于（a）采集过程的变化、（b）另一个患者群体或仅仅（c）地面实况分割掩模的不同描绘过程而下降。随后，我们无法自信地评估为什么案例被标记为 OOD。因此，我们以两种不同的方式和三个级别人为地转换相同的 ID 测试用例。与任何其他探索过的场景相比，这些图像可以被视为接近 OOD[10]。然而，变换后的图像的性能会显着下降，并且随着扰动的大小而增加（图5)。

我们首先模拟常见图像伪影的存在。在图 7 中，我们可视化了我们方法的结果。

虽然未转换(原始)案例被正确分配了低不确定性分数，并且大多数经过严重转换的样本被识别为 OOD，但未识别产生不良分割的几个样本。其中大多数仅进行了弱变形（薄荷色方块）。另一方面，许多产生良好分割的弱变换案例尽管不是 ID，但却被正确分配了低不确定性。大多数经过大量变换的图像（绿松石十字）被正确地认为距训练分布太远，无法进行可靠的预测。

当我们应用仿射变换来模拟几何变化时，也会出现类似的情况（图9)。这些可能是由于人口模式的变化、针对不同范围采集的扫描或使用其他采集参数而引起的。我们的方法将许多弱变换的情况（黄色方块）视为 ID。这是积极的，因为大多数情况下都可以进行良好的细分。然而，一些失败案例没有得到充分识别。

表8比较了OOD检测和分割质量评估方面的几种方法。虽然我们的方法显示了可接受的校准误差和最佳的 OOD 检测性能，但事实证明，这个近 OOD 问题比数据集移位更困难。尤其是，可靠地检测图像伪影似乎非常困难。

Method ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ Max. Softmax .46/.44 .48/.46 .94/.89 .55/.56 MC Dropout .44/.44 .51/.51 1.0/.99 .22/.23 KL .46/.44 .48/.46 .91/.86 .58/.57 TTA .43/.41 .46/.38 .87/.72 .63/.61 Temp. Scaling .05/.04 .51/.35 .95/.62 .50/.76 Energy Scoring .52/.51 .53/.33 .92/.53 .49/.76 Ours .26/.21 .29/.18 .45/.24 .83/.89

表8：转型转变的结果。原始挑战图像与分别用合成伪像和仿射变换修改的案例之间的分割校准（如 ESCE）和 OOD 检测分数。

我们在图 8 中进一步可视化分配给每个偏移和幅度的不确定性范围。正如预期的那样，不确定性随着人工制品转移的转变程度而增加。对于仿射位移，中等变化会导致与强变化类似的不确定性。这可能是由于所选的转换序列过于相似（参见表4)，这导致中和强伪像的性能相似（图5)。

一般来说，我们可以得出结论，不确定性与变形程度正相关，与模型性能负相关。仿射变换对不确定性也有更明显的影响（图8)。这可能源于训练数据包含与较弱的人工制品转换引入的类似模式。

5.3诊断转变

我们尚未分析分割模型在不同疾病模式中的表现。为了探索这一点，我们对 50 个 Covid-19 病例和 50 个非 Covid 病例的内部队列以 GGO 和合并形式对肺部病变进行了分割。该模型在非 Covid 病例上的表现明显较差。表 9 总结了我们的发现，并在图 10 中绘制了我们的不确定性评估。

Method ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ Max. Softmax .29/.42 .22/.32 .42/.62 .86/.87 MC Dropout .22/.38 .30/.46 .58/.90 .84/.69 KL .29/.42 .23/.33 .40/.60 .88/.89 TTA .25/.32 .19/.17 .32/.28 .89/.95 Temp. Scaling .07/.05 .34/.54 .62/1.0 .78/.06 Energy Scoring .38/.54 .49/.56 .86/1.0 .61/.05 Ours .16/.26 .13/.15 .14/.18 .93/.92

表 9：诊断转变结果。测试 ID 挑战图像与内部案例（分别有和没有 Covid-19）之间的分割校准（如 ESCE）和 OOD 检测分数。

我们的方法可以可靠地检测出我们内部队列中的病例，但它无法区分 Covid-19 和非 Covid 病例。尽管理想情况下，能够产生良好预测的 Covid-19 病例应被视为不确定性较低，但分割错误的非 Covid 病例被标记为 OOD 的事实与临床使用更相关，因为不确定的良好预测优于有信心的错误预测。

5.4 Far-OOD 检查

我们广泛研究了性能意外恶化的接近 OOD[10] 情况。相比之下，远 OOD 情况发生在输入错误地输入到模型中时，人们无法期望模型能够产生合理的预测。

在表 10 中，我们检查了当我们将来自医学分割十项全能的 CT 脾脏和结肠癌检查输入到经过胸部 CT 分割肺部病变的模型中时会发生什么情况。我们的方法区分 ID 和远 OOD 病例，正确地将所有结肠检查识别为 OOD (FPR = 0)，并显示两种解剖结构的检测误差高达 0.1。

Method ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ Max. Softmax .58/.71 .44/.42 .85/.81 .89/.89 MC Dropout .50/.64 .37/.36 .68/.66 .88/.87 KL .59/.72 .44/.42 .85/.81 .88/.88 TTA .48/.58 .18/.22 .29/.37 .95/.95 Temp. Scaling .62/.71 .48/.42 .93/.81 .79/.89 Energy Scoring .31/.16 .49/.51 .93/1.0 .50/.50 Ours .34/.41 .10/.06 .07/.00 .96/.98

表 10：远 OOD 结果。分别针对脾脏和结肠检查的测试 ID Challenge 图像与 CT 扫描之间的分割校准（如 ESCE）和 OOD 检测分数。

5.5消融研究

我们评估了表 11 中哪些特征对于检测分布变化最具表现力。我们比较了网络中间激活的使用，更具体地说，是第六个编码块 (EB) 的卷积 (Conv) 参数与第一个解码块 的卷积 (Conv) 参数(DB)，以及架构开头（第 1 个 EB）和最终结尾（第 6 个 DB）的功能。此外，我们研究了批量标准化（BN）层的使用，因为这些标准化层输入因此包含域信息[23]。结果表明，网络中间的特征(6th EB Conv，其次是6th EB BN和1st DB Conv)是最多的适用于检测分布变化。

Features ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ 6th EB Conv .15/.23 .09/.24 .04/.35 .96/.86 6th EB BN .18/.23 .11/.25 .09/.37 .95/.85 1st EB Conv .42/.24 .56/.70 .13/.40 .81/.21 1st EB BN .52/.45 .50/.50 .00/.00 .51/.51 1st DB Conv .17/.25 .09/.25 .06/.38 .96/.84 6th DB Conv .52/.45 .50/.50 .00/.00 .50/.50

表 11：特征图可用性的消融研究。我们提出的方法在不同的编码 (EB) 和解码块 (DB) 下使用不同的卷积 (Conv) 和批量归一化 (BN) 进行 OOD 检测和分割校准。结果分别针对数据集偏移和转换（包括伪影和仿射偏移）场景。

5.6HighResNet模型

并非所有分割模型都遵循编码器-解码器结构。例如，HighResNet [36] 使用扩张卷积和残差块来产生准确的分割。这就提出了这样的问题：我们提出的方法在此架构上是否有效，以及哪些功能对检测分布变化最有帮助。我们在表 12 中报告了数据集转移场景的这些结果。上半部分总结了所有基线的结果，下半部分显示了我们提出的方法对于三个不同特征图的性能。

Method ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ Max. Softmax .35 .48 .94 .57 MC Dropout .35 .49 .96 .59 KL .34 .46 .90 .60 TTA .35 .48 .90 .61 Temp. Scaling .35 .48 .93 .54 Energy Scoring .58 .49 .97 .50 7th Conv Block .41 .47 .00 .94 6th Dil Conv Block .58 .50 .00 .50 12th Dil Conv Block .33 .37 .00 .84

表 12：高分辨率网络结果。 HighResNet 的测试 ID Challenge 图像与属于 Radiopedia 或 Mosmed 数据集的 OOD 样本之间的分割校准（如 ESCE）和 OOD 检测分数在挑战上训练的模型。表的底部显示了我们的方法的三种变体，具有不同的特征图：第七个转换。块，具有扩张卷积的第 6 个块，以及具有扩张卷积的第 12 个（最后一个）块。

HighResNet 架构分为四个部分：(1) 七个卷积块，(2) 六个使用扩张因子为 2 的扩张卷积块，(3) 六个扩张因子为 4 的扩张卷积块，以及 (4) 最终的卷积块。每两个块还包含具有身份映射的剩余连接，以连接不同级别的特征。我们测试了三个特征图的使用：最后一个（第 7 个）卷积块、最后一个（第 6 个）因子为 2 的扩张卷积块以及最后一个（第 12 个）扩张卷积块。

最好的结果是我们的方法的变体，它使用带有扩张卷积的最后一个块。尽管 FPR 和 AUC 令人鼓舞，但检测误差相对较高，这表明 TPR 较低，因为 ID 训练数据上的 95% TPR 并未覆盖 ID 测试样本的很大一部分（参见公式 4)。我们在图 11 中绘制了网络性能与最佳性能特征的归一化不确定性的关系。 ID（挑战）和 OOD（Radiopedia 和 Mosmed）之间的分离很明显，但不确定性边界（根据高检测误差假设）太低。这意味着 OOD 样本被正确检测到，但该模型并未得到充分利用。

5.7定性评价

现在我们详细了解图12中的一些案例。第一列显示了具有良好预测的分布内挑战案例。第二个和第三个案例分别来自Mosmed和Radiopedia。虽然 Mosmed 预测与真实情况显着不同（错误地将多个区域标记为病变），但对第三种情况产生了良好的分割。

我们首先注意到评估肺部病变分割掩模是否正确的复杂性。未经训练的观察者将无法检测到第二分割与真实情况如此不同，甚至训练有素的放射科医生也可能无法直接识别此错误，因为 GGO 可以表现为上叶并具有多个连接的组件[45] 。同样，除了我们基于距离的方法（分配不确定性为 0.61）之外，所有方法都无法检测到这种情况。

对第三种情况的预测过度分割了一些病变，尽管如果我们观察挑战和Radiopedia地面实况掩模之间的差异，我们注意到第一种情况的描绘更清晰病例（我们在第一张图片中看到病变周围的大片区域被标记为感染）。因此，模型学习模仿这种行为。除此之外，分割模型可以正确检测所有病变，并且只创建一个非常小的附加组件。在这里，我们的方法进行了过于谨慎的不确定性评估，将这种情况的不确定性指定为 0.43，超出了 95% TPR 边界。

5.8在 MRI 数据中的应用

磁共振成像 (MRI) 数据比 CT 更容易受到采集条件变化的影响，因为对于强度值的校准尚未达成共识。这导致在 MR 任务上训练的分割模型在 OOD 数据[57, 30]上的性能下降。

在本节中，我们评估我们提出的方法如何帮助检测使用 MSD 的海马和前列腺任务训练的 nnU-Net 模型上的这种分布变化。图 13 说明虽然模型的初始性能在分布测试数据(MSD H 和 MSD P)上超过 0.8 Dice，对于 OOD 数据集，它显着下降。

表 13 总结了我们在 OOD 检测方面的结果，并在图 14 中可视化了我们方法的不确定性。我们立即发现，对于这两种 MR 分割任务，检测 OOD 病例比胸部 CT 容易得多。在所有情况下，所提出的方法都能正确区分 ID 和 OOD 数据。这可能是由于 MRI 数据集在强度直方图和视场方面存在固有的可变性。最后一行包括一个 far-OOD 案例，我们希望在使用 MSD P 训练的模型上检测 MSD H 案例，反之亦然。这似乎也是一个简单的问题，我们的方法可以正确识别所有 OOD 情况。

Method ESCE $\downarrow$ Error $\downarrow$ FPR $\downarrow$ AUC $\uparrow$ Max. Softmax .20/.36 .05/.49 .00/.82 1.0/.74 MC Dropout $N=10$ .53/.08 .50/.01 1.0/.02 .40/1.0 MC Dropout $N=100$ .48/.14 .53/.00 1.0/.00 .12/1.0 KL .18/.15 .05/.16 .00/.16 1.0/.83 TTA .20/.40 .09/.25 .00/0.0 1.0/.83 Temp. Scaling .12/.36 .03/.49 .00/.82 1.0/.74 Energy Scoring .68/.53 .50/.49 1.0/.98 .50/.12 Ours .21/.19 .00/.00 .00/.00 1.0/1.0 Ours far-OOD .08/.01 .00/.00 .00/.00 1.0/1.0

表 13：核磁共振结果。分别针对海马和前列腺的测试 ID 和 OOD 病例之间的分割校准（如 ESCE）和 OOD 检测分数。网络分别使用 MSD H 和 MSD P 数据进行训练，因此这些情况是 ID。最后一行总结了在 MSD H 模型上检测 MSD P 案例的远 OOD 案例的结果，反之亦然。

6讨论

不确定性量化是在实际诊所中安全部署预测模型不可避免的基石。我们的结果表明，所提出的基于距离的方法为检测模型未准备好分割的图像提供了有价值的信息。

由于基于距离的 OOD 检测可以无缝地增强任何分割流程，因此没有理由反对执行此质量检查。然而，我们在分析中发现了一些有改进空间的领域。几乎我们所有的实验都表明我们的方法在不确定性估计方面过于谨慎。具体来说，模型确实产生足够分割的许多 OOD 案例被认为高度不确定。仅针对人工制品转变场景，每周对转换样本进行分段。

人工制品和仿射位移实验表明，对于这两种探索的合成场景，产生的距离随着变化程度线性增长，并且与分割质量成反比。这是不确定性度量的理想行为。但是，这不适用于数据集偏移和诊断偏移设置。特别是对于最后一种情况，我们的方法为 Covid-19 和非 Covid 病例分配了类似的不确定性，尽管最后一组的分割情况要差得多。进一步的研究应该探索哪些分布变化会对模型性能产生负面影响，以及如何将这些变化与无害的变化区分开来。

与 Covid-19 组相比，这种差异也可能与构成非 Covid-19 组的各种肺部疾病中存在的标签 GGO 和实变的肺部模式相对较多有关。然而，该组的设计目的是为了模仿广泛的非 Covid 相关肺部疾病模式，这些模式代表 Covid-19 模拟。此外，收集这些病例的较长时间范围，以及用于生成这些病例的三台 CT 扫描仪之间的不同分布，可能有助于这一发现。

我们的实验还表明，我们基于距离的方法不能充分检测分布数据中分割不良的情况。这一缺点强化了这样一种观念，即主要用于检测 ID 数据中的不确定预测的不确定性估计方法应该在实践中补充 OOD 检测。然而，MC Dropout 和 TTA 都未能成功评估分割质量。

我们的消融研究表明，中间网络层对于评估分布变化来说信息最丰富。 OOD 样本不会显示与模型输入或输出附近的特征图中的训练样本有足够不同的模式。相反，中间层中的激活允许区分 ID 和 OOD 情况。对于不遵循编码器-解码器结构的 HighResNet 模型，模型末尾附近的扩张卷积产生了最佳的不确定性估计。

最后，我们对 CT 和 MR 数据的 far-OOD 实验证实，我们提出的方法可以准确地检测远离训练分布的情况。当将错误的输入输入模型时，可能会出现这种远 OOD 情况，自动发出此类错误信号对于没有经验的用户可能会有所帮助。

7结论

尽管分割解决方案的开发取得了巨大进展，但这些解决方案尚未准备好在临床实践中部署。其背后的主要原因是预测模型会悄无声息地失败，再加上缺乏适当的质量控制来检测此类行为。当识别错误输出（例如 SARS-CoV-2 肺部病变的分割）并非易事时，尤其如此。

越来越多的机构参与收集大量带注释的异构数据并将其发布给公众的举措。这可以训练强大的模型，并有可能减轻放射科医生的负担。然而，即使是用异质群体训练的模型也容易受到分布变化的影响。

我们提出了一种基于距离的方法来检测低维特征空间中远离训练分布的图像，并发现这是一种轻量级且灵活的方法，可以在模型预测不可信时发出信号。

未来的工作应该探索如何通过识别高质量的预测来改进不确定性校准。目前，我们的工作增加了临床医生的信任，同时将训练有素的神经网络从挑战参与转化为真正的诊所。

致谢

这项工作得到了 RACOON 网络的 BMBF 资助号 [01KX2021] 的支持；和联邦部长 (BMG) 的拨款 [ZMVI1-2520DAT03A]。

参考

An et al. [2020] An, P., Xu, S., Harmon, S., Turkbey, E., Sanford, T., Amalou, A., Kassin, M., Varble, N., Blain, M., Anderson, V., et al., 2020. Ct images in covid-19. Cancer Imaging Archive .
Antonelli et al. [2022] Antonelli, M., Reinke, A., Bakas, S., Farahani, K., Kopp-Schneider, A., Landman, B.A., Litjens, G., Menze, B., Ronneberger, O., Summers, R.M., et al., 2022. The medical segmentation decathlon. Nat. Communications 13, 1–13.
Ashukha et al. [2019] Ashukha, A., Lyzhov, A., Molchanov, D., Vetrov, D., 2019. Pitfalls of in-domain uncertainty estimation and ensembling in deep learning, in: International Conference on Learning Representations.
Bevandić et al. [2019] Bevandić, P., Krešo, I., Oršić, M., Šegvić, S., 2019. Simultaneous semantic segmentation and outlier detection in presence of domain shift, in: German Conference on Pattern Recognition, Springer. pp. 33–47.
Bloch et al. [2015] Bloch, N., Madabhushi, A., Huisman, H., Freymann, J., Kirby, J., Grauer, M., Enquobahrie, A., Jaffe, C., Clarke, L., Farahani, K., 2015. NCI-ISBI 2013 challenge: automated segmentation of prostate structures. doi:http://doi.org/10.7937/K9/TCIA.2015.zF0vlOPv.
Blundell et al. [2015] Blundell, C., Cornebise, J., Kavukcuoglu, K., Wierstra, D., 2015. Weight uncertainty in neural network, in: International Conference on Machine Learning, PMLR. pp. 1613–1622.
Boccardi et al. [2015] Boccardi, M., Bocchetta, M., Morency, F.C., Collins, D.L., Nishikawa, M., Ganzola, R., Grothe, M.J., Wolf, D., Redolfi, A., Pievani, M., et al., 2015. Training labels for hippocampal segmentation based on the eadc-adni harmonized hippocampal protocol. Alzheimer’s & Dementia 11, 175–183.
Çallı et al. [2019] Çallı, E., Murphy, K., Sogancioglu, E., van Ginneken, B., 2019. Frodo: Free rejection of out-of-distribution samples: application to chest x-ray analysis, in: International Conference on Medical Imaging with Deep Learning–Extended Abstract Track.
Clark et al. [2013] Clark, K., Vendt, B., Smith, K., Freymann, J., Kirby, J., Koppel, P., Moore, S., Phillips, S., Maffitt, D., Pringle, M., et al., 2013. The cancer imaging archive (tcia): maintaining and operating a public information repository. J. of Digital Imaging 26, 1045–1057.
Fort et al. [2021] Fort, S., Ren, J., Lakshminarayanan, B., 2021. Exploring the limits of out-of-distribution detection. Advances in Neural Inf. Processing Systems 34.
Fuchs et al. [2021] Fuchs, M., Gonzalez, C., Mukhopadhyay, A., 2021. Practical uncertainty quantification for brain tumor segmentation, in: Medical Imaging with Deep Learning.
Gal and Ghahramani [2016] Gal, Y., Ghahramani, Z., 2016. Dropout as a bayesian approximation: Representing model uncertainty in deep learning, in: International Conference on Machine Learning, PMLR. pp. 1050–1059.
Golan and El-Yaniv [2018] Golan, I., El-Yaniv, R., 2018. Deep anomaly detection using geometric transformations. Advances in Neural Inf. Processing Systems 31.
Gonzalez et al. [2021] Gonzalez, C., Gotkowski, K., Bucher, A., Fischbach, R., Kaltenborn, I., Mukhopadhyay, A., 2021. Detecting when pre-trained nnu-net models fail silently for covid-19 lung lesion segmentation, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 304–314.
Gonzalez and Mukhopadhyay [2021] Gonzalez, C., Mukhopadhyay, A., 2021. Self-supervised out-of-distribution detection for cardiac CMR segmentation, in: Proceedings of the Fourth Conference on Medical Imaging with Deep Learning, PMLR. pp. 205–218. URL: https://proceedings.mlr.press/v143/gonzalez21a.html.
Guo et al. [2017] Guo, C., Pleiss, G., Sun, Y., Weinberger, K.Q., 2017. On calibration of modern neural networks, in: International Conference on Machine Learning, PMLR. pp. 1321–1330.
Hein et al. [2019] Hein, M., Andriushchenko, M., Bitterwolf, J., 2019. Why relu networks yield high-confidence predictions far away from the training data and how to mitigate the problem, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 41–50.
Henderson [2021] Henderson, E., 2021. Leading pediatric hospital reveals top ai models in covid-19 grand challenge. news-medical.net. Accessed: 2021-02-28.
Hendrycks and Gimpel [2017] Hendrycks, D., Gimpel, K., 2017. A baseline for detecting misclassified and out-of-distribution examples in neural networks, in: International Conference on Learning Representations.
Hendrycks et al. [2018] Hendrycks, D., Mazeika, M., Dietterich, T., 2018. Deep anomaly detection with outlier exposure, in: International Conference on Learning Representations.
Hendrycks et al. [2019] Hendrycks, D., Mazeika, M., Kadavath, S., Song, D., 2019. Using self-supervised learning can improve model robustness and uncertainty. Advances in Neural Inf. Processing Systems 32.
Hu et al. [2020] Hu, Y., Jacob, J., Parker, G.J., Hawkes, D.J., Hurst, J.R., Stoyanov, D., 2020. The challenges of deploying artificial intelligence models in a rapidly evolving pandemic. Nat. Machine Intelligence 2, 298–300.
Ioffe and Szegedy [2015] Ioffe, S., Szegedy, C., 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift, in: International Conference on Machine Learning, PMLR. pp. 448–456.
Isensee et al. [2021] Isensee, F., Jaeger, P.F., Kohl, S.A., Petersen, J., Maier-Hein, K.H., 2021. nnu-net: a self-configuring method for deep learning-based biomedical image segmentation. Nat. Methods 18, 203–211.
Jun et al. [2020] Jun, M., Cheng, G., Yixin, W., Xingle, A., Jiantao, G., Ziqi, Y., Minqing, Z., Xin, L., Xueyuan, D., Shucheng, C., Hao, W., Sen, M., Xiaoyu, Y., Ziwei, N., Chen, L., Lu, T., Yuntao, Z., Qiongjie, Z., Guoqiang, D., Jian, H., 2020. Covid-19 ct lung and infection segmentation dataset. URL: https://doi.org/10.5281/zenodo.3757476, doi:10.5281/zenodo.3757476.
Jungo et al. [2020] Jungo, A., Balsiger, F., Reyes, M., 2020. Analyzing the quality and challenges of uncertainty estimations for brain tumor segmentation. Frontiers in Neuroscience 14, 282.
Jungo and Reyes [2019] Jungo, A., Reyes, M., 2019. Assessing reliability and challenges of uncertainty estimations for medical image segmentation, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 48–56.
Kendall and Gal [2017] Kendall, A., Gal, Y., 2017. What uncertainties do we need in bayesian deep learning for computer vision? Advances in Neural Inf. Processing Systems 30.
Kohl et al. [2018] Kohl, S.A., Romera-Paredes, B., Meyer, C., Fauw, J.D., Ledsam, J.R., Maier-Hein, K.H., Eslami, S.A., Rezende, D.J., Ronneberger, O., 2018. A probabilistic u-net for segmentation of ambiguous images, in: Proceedings of the 32nd International Conference on Neural Information Processing Systems, pp. 6965–6975.
Kondrateva et al. [2021] Kondrateva, E., Pominova, M., Popova, E., Sharaev, M., Bernstein, A., Burnaev, E., 2021. Domain shift in computer vision models for mri data analysis: an overview, in: Thirteenth International Conference on Machine Vision, SPIE. pp. 126–133.
Kulaga-Yoskovitz et al. [2015] Kulaga-Yoskovitz, J., Bernhardt, B.C., Hong, S.J., Mansi, T., Liang, K.E., Van Der Kouwe, A.J., Smallwood, J., Bernasconi, A., Bernasconi, N., 2015. Multi-contrast submillimetric 3 tesla hippocampal subfield segmentation protocol and dataset. Scientific Data 2, 1–9.
Lakshminarayanan et al. [2017] Lakshminarayanan, B., Pritzel, A., Blundell, C., 2017. Simple and scalable predictive uncertainty estimation using deep ensembles. Advances in Neural Inf. Processing Systems 30, 6402–6413.
Lee et al. [2018a] Lee, K., Lee, H., Lee, K., Shin, J., 2018a. Training confidence-calibrated classifiers for detecting out-of-distribution samples, in: International Conference on Learning Representations.
Lee et al. [2018b] Lee, K., Lee, K., Lee, H., Shin, J., 2018b. A simple unified framework for detecting out-of-distribution samples and adversarial attacks, in: Advances in Neural Information Processing Systems, pp. 7167–7177.
Lemaître et al. [2015] Lemaître, G., Martí, R., Freixenet, J., Vilanova, J.C., Walker, P.M., Meriaudeau, F., 2015. Computer-aided detection and diagnosis for prostate cancer based on mono and multi-parametric MRI: a review. Computers in Biology and Medicine 60, 8–31.
Li et al. [2017] Li, W., Wang, G., Fidon, L., Ourselin, S., Cardoso, M.J., Vercauteren, T., 2017. On the compactness, efficiency, and representation of 3d convolutional networks: brain parcellation as a pretext task, in: International Conference on Information Processing in Medical Imaging, Springer. pp. 348–360.
Liang et al. [2018] Liang, S., Li, Y., Srikant, R., 2018. Enhancing the reliability of out-of-distribution image detection in neural networks, in: International Conference on Learning Representations.
Litjens et al. [2014] Litjens, G., Toth, R., van de Ven, W., Hoeks, C., Kerkstra, S., van Ginneken, B., Vincent, G., Guillard, G., Birbeck, N., Zhang, J., et al., 2014. Evaluation of prostate segmentation algorithms for MRI: the PROMISE12 challenge. Med. Image Analysis 18, 359–373.
Liu et al. [2020a] Liu, Q., Dou, Q., Yu, L., Heng, P.A., 2020a. Ms-net: multi-site network for improving prostate segmentation with heterogeneous mri data. IEEE Transactions on Med. Imaging 39, 2713–2724.
Liu et al. [2020b] Liu, W., Wang, X., Owens, J., Li, Y., 2020b. Energy-based out-of-distribution detection. Advances in Neural Inf. Processing Systems 33, 21464–21475.
Mehrtash et al. [2020] Mehrtash, A., Wells, W.M., Tempany, C.M., Abolmaesumi, P., Kapur, T., 2020. Confidence calibration and predictive uncertainty estimation for deep medical image segmentation. IEEE Transactions on Med. Imaging 39, 3868–3878.
Monteiro et al. [2020a] Monteiro, M., Le Folgoc, L., Coelho de Castro, D., Pawlowski, N., Marques, B., Kamnitsas, K., van der Wilk, M., Glocker, B., 2020a. Stochastic segmentation networks: modelling spatially correlated aleatoric uncertainty, in: Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M.F., Lin, H. (Eds.), Advances in Neural Information Processing Systems, Curran Associates, Inc.. pp. 12756–12767.
Monteiro et al. [2020b] Monteiro, M., Le Folgoc, L., Coelho de Castro, D., Pawlowski, N., Marques, B., Kamnitsas, K., van der Wilk, M., Glocker, B., 2020b. Stochastic segmentation networks: modelling spatially correlated aleatoric uncertainty. Advances in Neural Inf. Processing Systems 33, 12756–12767.
Morozov et al. [2020] Morozov, S., Andreychenko, A., Pavlov, N., Vladzymyrskyy, A., Ledikhova, N., Gombolevskiy, V., Blokhin, I.A., Gelezhe, P., Gonchar, A., Chernina, V.Y., 2020. Mosmeddata: Chest ct scans with covid-19 related findings dataset. arXiv preprint arXiv:2005.06465 .
Parekh et al. [2020] Parekh, M., Donuru, A., Balasubramanya, R., Kapur, S., 2020. Review of the chest ct differential diagnosis of ground-glass opacities in the covid era. Radiology 297, E289–E302.
Pedregosa et al. [2012] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E., Louppe, G., 2012. Scikit-learn: Machine learning in python. J. of Machine Learning Res. 12.
Pérez-García et al. [2021] Pérez-García, F., Sparks, R., Ourselin, S., 2021. Torchio: a python library for efficient loading, preprocessing, augmentation and patch-based sampling of medical images in deep learning. Computer Methods and Programs in Biomedicine , 106236URL: https://www.sciencedirect.com/science/article/pii/S0169260721003102, doi:https://doi.org/10.1016/j.cmpb.2021.106236.
Pidhorskyi et al. [2018] Pidhorskyi, S., Almohsen, R., Doretto, G., 2018. Generative probabilistic novelty detection with adversarial autoencoders. Advances in Neural Inf. Processing Systems 31.
Roefo [2022] Roefo, 2022. Racoon: das radiological cooperative network zur beantwortung der großen fragen in der radiologie. news-medical.net. doi:10.1055/a-1544-2240. accessed: 2022-03-08.
Ronneberger et al. [2015] Ronneberger, O., Fischer, P., Brox, T., 2015. U-net: convolutional networks for biomedical image segmentation, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 234–241.
Roth et al. [2021] Roth, H., Xu, Z., Diez, C.T., Jacob, R.S., Zember, J., Molto, J., Li, W., Xu, S., Turkbey, B., Turkbey, E., et al., 2021. Rapid artificial intelligence solutions in a pandemic-the covid-19-20 lung ct lesion segmentation challenge .
Simpson et al. [2019] Simpson, A.L., Antonelli, M., Bakas, S., Bilello, M., Farahani, K., Van Ginneken, B., Kopp-Schneider, A., Landman, B.A., Litjens, G., Menze, B., et al., 2019. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. arXiv preprint arXiv:1902.09063 .
Srivastava et al. [2021] Srivastava, S., Yaqub, M., Nandakumar, K., Ge, Z., Mahapatra, D., 2021. Continual domain incremental learning for chest x-ray classification in low-resource clinical settings, in: Domain Adaptation and Representation Transfer, and Affordable Healthcare and AI for Resource Diverse Global Health. Springer, pp. 226–238.
Valindria et al. [2017] Valindria, V.V., Lavdas, I., Bai, W., Kamnitsas, K., Aboagye, E.O., Rockall, A.G., Rueckert, D., Glocker, B., 2017. Reverse classification accuracy: predicting segmentation performance in the absence of ground truth. IEEE Transactions on Med. Imaging 36, 1597–1606.
Wang et al. [2019] Wang, G., Li, W., Aertsen, M., Deprest, J., Ourselin, S., Vercauteren, T., 2019. Aleatoric uncertainty estimation with test-time augmentation for medical image segmentation with convolutional neural networks. Neurocomputing 338, 34–45.
Wei et al. [2015] Wei, D., Zhou, B., Torrabla, A., Freeman, W., 2015. Understanding intra-class knowledge inside cnn. arXiv preprint arXiv:1507.02379 .
Zakazov et al. [2021] Zakazov, I., Shirokikh, B., Chernyavskiy, A., Belyaev, M., 2021. Anatomy of domain shift impact on u-net layers in mri segmentation, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 211–220.