^†^†脚注文本：^*Z。金和方宇——同等贡献。¹¹institutetext：英国伦敦帝国理工学院代谢、消化和生殖系 ²²institutetext：英国伦敦帝国理工学院国家心肺研究所 ³³institutetext：英国伦敦帝国理工学院生物工程系和 Imperial-X ⁴⁴institutetext：英国伦敦皇家布朗普顿医院心血管研究中心 ⁵⁵institutetext：英国伦敦国王学院生物医学工程与成像科学学院

⁵⁵email: {y.fang;g.yang}@imperial.ac.uk

Diff3Dformer：利用切片序列扩散通过 Transformer 网络增强 3D CT 分类

Zihao Jin^∗ 11 Yingying Fang^†∗ 22 Jiahao Huang 33 Caiwen Xu 33 Simon Walsh 22 Guang Yang^† 22334455

摘要

对于个体患者来说，与肺部疾病相关的症状表现可能在不同深度上有所不同，这凸显了 CT 扫描中 3D 信息对于医学图像分类的重要性。虽然 Vision Transformer 在图像分类任务中表现出优于卷积神经网络的性能，但它们的有效性通常在足够大的 2D 数据集上得到证明，并且很容易在小型医学图像数据集上遇到过拟合问题。为了解决这个限制，我们提出了一种基于扩散的 3D Vision Transformer (Diff3Dformer)，它利用扩散模型的潜在空间形成用于 3D 分析的切片序列，并将聚类注意力纳入 ViT 中以聚合 3D CT 扫描中的重复信息，从而在小型数据集的 3D 分类任务中利用高级 Transformer 的强大功能。我们的方法在 3D 肺部 CT 扫描的两个不同规模的小数据集上表现出改进的性能，超越了最先进的 3D 方法和 COVID-19 大流行期间出现的其他基于 Transformer 的方法，展示了其在不同规模上的稳健和卓越的性能数据的。实验结果强调了我们提出的方法的优越性，表明其在现实场景中增强医学图像分类任务的潜力。该代码将在 https://github.com/ayanglab/Diff3Dformer 上公开提供。

关键词：

聚类视觉 Transformer 扩散模型 3D CT 分析肺部疾病

1简介

3D 体积分析对于肺部疾病的诊断或预后至关重要，因为不同患者的 CT 扫描中病变可能表现在不同深度[18]，例如患有 COVID-19 或间质性肺病的患者。与2D分析相比，3D分析可以对整个体积的异常区域进行全面检查，从而更全面地了解患者的病情。此外，分析 3D 体积的模型消除了切片选择的需要，与依赖有限数量的预选切片进行患者级别决策的方法相比，可以实现更高效、更可靠的预测。

鉴于这些要求的迫切性，在 COVID-19 大流行期间，人工智能界出现了大量用于诊断和预测患者的 3D 分析方法[5]。这些方法可大致分为聚合（AG）方法[22, 14, 16]、2.5D方法[15, 7]和全扫描方法（WS ) [8,9,6,19]。 AG 方法通过聚合所有 2D 切片[22]的结果来分析 3D 扫描，其本质上限制于捕获切片内特征。为了克服这一限制，WS 方法将整个扫描输入到模型中，从而允许在整个 3D 体积中进行全面的特征探索。尽管 3D 方法已表现出卓越的性能，但它们很容易因过度拟合而崩溃，尤其是在处理小数据集时。作为多样化训练样本和 3D 特征之间的折衷方案，2.5D 方法从整个扫描中重新采样固定的较小数量的切片，将它们视为基于网络的患者级决策的统一输入实体。虽然重采样过程可以广泛增强小数据集，但对患者级决策的随机采样切片子集的依赖仍然引起了可能在高风险环境中使用这些模型的医生的担忧。因此，在小型数据集中进行 WS 分析仍然是一个紧迫且尚未解决的挑战。

Transformers 在视觉分类任务中优于传统的 CNN 方法，但需要大量数据和内存资源，这对小数据集构成了挑战。最近的研究阐明了先进的 Transformer 架构在有限数据集内的 3D 肺体积分类任务中的应用[7,10,23,22]。为了在处理高维 3D 体积时解决内存限制，[7] 采用 2.5D 技术，对 32 个切片进行重新采样作为 Timesformer 模型的输入。 [22]利用AG方法，使用2D Swin Transformer来处理具有不同切片计数的CT体积。 [10, 23] 采用基于 CNN 的预处理步骤，将 3D 体积转换为基于 CNN 的低维特征序列，随后输入 Transformer 进行分类。为了增强小型数据集的性能，[23] 采用了 Mixup [20] 数据增强，而 [7] 和 [23] 探索了迁移学习和自监督学习以实现更通用的表示。尽管这些方法带来了改进，但当前基于 Transformer 的 3D 分析仍然面临一些局限性：（1）基于 Transformer 的 WS 方法的性能仍然容易出现过拟合，并且受数据规模的影响显着； (2) 基于 Transformer 和基于 CNN 的模型在小型 3D 数据集上的有效性和鲁棒性缺乏全面的比较； (3) 在当前的研究中，对这些 3D 扫描用于患者层面决策的特征的解释仍未得到充分探索。

在先前工作[10, 23]的推动下，我们的目标是通过有效利用 Transformer 的全局特征学习能力来开发一个强大的 3D Transformer 模型，该模型超越现有方法。同时，我们努力减少数据需求并提高 3D 体积决策的可解释性。为了实现这一目标，我们引入了新颖的扩散增强型 3D 变换器 (Diff3Dformer)，它将扩散自动编码器的有利潜在空间学习与聚类视觉变换器 (ViT) 相结合。这种集成有助于在全局特征学习过程中进行有效的特征提取和信息缩减。这项工作的主要贡献总结如下：（1）．我们发现聚类 ViT 如何减轻过度拟合并有效管理小型数据集。 (2) 我们引入了用于自监督学习的扩散自动编码器，以提取语义上有意义的表示以增强 3D 分析。此外，我们提出了一种新颖的管道，可以使用高效的 3D 解算器 Clustering ViT 将数据密集型扩散应用于小规模 3D 分析。（3）。我们提出了一种可解释的切片融合策略，将模型的决策解码为来自不同集群的贡献，从而使 Diff3Dformer 的最终患者级决策具有可解释性。（4）。我们在两种不同规模的小数据集上进行了实验，展示了所提出的方法在不同医学图像数据集规模上相对于不同类型的 3D 分析方法的鲁棒性和一致的优越性。

2方法

Diff3Dformer 的概述如图1（A）所示。在 Diff3Dformer 对个体进行预测之前，我们使用预训练扩散自动编码器中的编码器从 CT 体积中提取每个切片的表示。通过聚合整个数据集中的切片表示，我们可以使用球形 K 均值方法学习特定于特定疾病的切片原型（每个簇的中心）。给定学习的原型，Diff3Dformer 首先将患者的 3D 体积转换为一系列表示及其所属的簇编号。该表示与指定的原型编号一起，通过 Transformer 中的自注意力图输入 Clustering ViT 进行全局信息学习。这里的簇数量有助于模型检测 3D 体积中的重复和相似模式，从而减少特征数量并提高传统 ViT 中的计算效率。修改切片表示后，DiffExplainer 的最后一层输出每个切片的分数以做出最终决定。 DiffExplainer 对训练期间学习的预定义集群采用全局关注，以融合来自不同集群的切片分数，从而生成可解释的患者分类结果。

Refer to caption — 图1： (A) Diff3Dformer 的概述框架。 (B) 利用扩散自动编码器通过学习从 512 维表示重建 2D 切片来学习语义上有意义的表示，并用于将 CT 体积表示为表示序列，作为聚类 ViT 模型的输入。 (C) 切片融合模块提供 Diff3Dformer 的最终患者决策和解释。

2.1 通过基于扩散的自动编码器进行表示学习

受 Diffusion 潜在空间 [13, 17, 1] 中特征操作和解缠最近取得的进步的推动，我们被迫利用这些语义上有意义的特征作为下游任务的各个切片的表示。为了获得每个切片的高度有意义的表示，我们利用了 Preechakul 等人[17]提出的基于去噪扩散隐式模型（DDIM）的自动编码器，从 CT 扫描中重建切片。该自动编码器架构由编码器 $\mathbf{E}$ 和表示为 $\mathbf{D}$ 的 DDIM 模型组成。为了在 $\mathbf{E}$ 的编码表示中保留有意义的信息，DDIM 被训练以使用该表示作为条件来重建原始切片。

通过针对 $\theta$ 和 $\phi$ 优化以下损失函数来同时训练模型 $\mathbf{E}$ 和 $\mathbf{D}$ ：

\min_{\phi,\theta}\mathcal{L}=\left\|\boldsymbol{\epsilon}-\mathbf{D}_{\theta}% \left(\mathbf{x}_{t},t,\mathbf{E}_{\phi}(\mathbf{x}_{0})\right)\right\|_{1},

(1)

其中 $\mathbf{x}_{0}$ 表示任何给定切片， $\mathbf{x}_{t}$ 是噪声注入切片（高斯噪声注入的 $t$ 迭代）。网络 $\mathbf{D}$ 采用由残差块层组成的UNet架构，如[2]中所述。同时，网络 $\mathbf{E}$ 采用 $\mathbf{D}$ 的编码器架构。

一旦自动编码器达到最佳重建质量，编码器就被单独用来提取每个切片的表示。然后，将每个患者的这些表示聚合起来，并使用球形 K 均值 [25] 聚类成 $K$ 簇。聚类步骤将了解特定数据集中切片的潜在原型。这些原型将通过将具有相似图案的切片分组在一起，进一步将整个扫描量化为原型切片的组合。此外，它将有助于减少后续引入的 Clustering ViT 模型中自注意力学习过程中的特征。

2.2 聚类ViT进行3D分类

经过表示学习后，每个 3D 体积都可以转换为一系列有意义的切片表示，每个表示都有其对应的分配簇。受[23, 24]的启发，我们基于获得的切片序列引入了用于3D诊断和预后任务的聚类ViT模型。

如图1（A）所示，从每个患者获得的切片序列被填充到固定长度 $N$ ，使用a映射到 $M$ 维度线性层，然后输入六层 Clustering Transformer Encoder。每层包含一个具有 8 个头的聚类注意力机制和一个前馈网络。值得注意的是，[24]中提出的聚类注意力块计算每个聚类中查询的原型，将查询数量从 $N$ 减少到 $K$ 。与传统的 ViT 架构[4]相比，这将注意力图的计算复杂度从 $O(N^{2})$ 降低到 $O(NK)$ 。对于我们的 3D 分类任务，模型中的聚类对应于分配给每个切片的聚类，从而将相似切片的查询简化为维度 $M$ 的单个特征。注意力和值的最终结果由 $K$ 更新向量组成，然后通过复制每个特征 $N$ 更新切片（表示为 $s^{*}$ ) $s_{k}^{*}$ 到分配给集群 $k$ 的切片中。除了计算效率之外，聚类机制还通过将原型复制到高维数据中，减少 $s^{*}$ 中最终更新的特征，有效地进行降维，从而缓解过拟合问题。

在 Clustering Transformer Encoder 之后，Diff3Dformer 通过线性层处理从全局学习获得的更新特征，以获得每个切片的风险评分，表示为 $r$ 。在最后一层切片融合之后，模型生成单个分数作为患者级别分数。对于我们的 3D 分类任务，聚类 ViT 模型是使用交叉熵损失进行训练的。

2.3 可解释的切片序列融合

切片序列的融合在整合信息以生成最终患者级决策方面发挥着关键作用。传统上，这种融合是使用传统 3D 分析技术中的各种合并方法或线性回归来完成的。为了避免密集层和补丁级别的直接平均导致的潜在过度拟合，这可能会忽略分类任务中各个切片的不同重要性，我们提出了一种可解释的 3D 决策方法，该方法考虑了不同原型的存在，各种簇的量化，以及切片模式对最终任务的不同贡献。这可以表述为：

R=\sum_{k=1}^{K}A_{k}\overline{r}_{k}q_{k}.

(2)

这里， $A_{k}$ 代表全局集群注意力，强调特定集群的存在对于最终任务的重要性，这在所有患者中保持一致。 $q_{k}$ 表示每个簇中的切片数量与患者切片总数的比率，模拟病变范围，而 $\overline{r}_{k}$ 表示簇内的平均切片风险 $k$ 对于每个人。

3实验

3.1数据集

为了验证所提出的方法在不同医疗任务的小数据集上的有效性，我们使用两个 3D 数据集：COVID-19 和纤维化肺病 (FLD) 评估了 Diff3Dformer 模型在诊断和预后任务中的性能。具体来说，我们在 CC-CCII [21] 数据集上验证了模型的性能，以解决新型冠状病毒肺炎 (NCP) 和普通肺炎 (CP) 的分类问题，并在 FLD 数据集上验证了模型的性能预测 FLD 患者 1 年死亡率的二元预后任务。

Clean-CC-CCII：Clean-CC-CCII数据集是一个公开的CT体积数据集，由三个不同类别组成：NCP、CP和正常患者，通过预处理和重组构建[8] 中的 CC-CCII 数据集 [21]。 Clean-CC-CCII 数据集包含来自 2,698 名患者的 3,993 次扫描。在本研究中，我们执行了 NCP 和 CP 类别的二元分类任务，包括来自 1047 名 NCP 患者的 1519 次扫描和来自 824 名 CP 患者的 1549 次扫描。在我们的实验中，我们将扫描随机分为训练数据（2455 次扫描）、验证数据（306 次扫描）和测试数据（307 次扫描）。

纤维化肺疾病：FLD数据集是OSIC的公共数据集¹¹1https://www.osicild.org/，其中包括 27 名在一年内死亡的患者和 704 名在住院期间存活超过一年的患者。我们保留 20% 的患者进行验证，剩余的用于训练。内部外部测试数据集来自澳大利亚，由 501 个 CT 扫描组成，其中 43 名患者在一年内死亡，458 名患者存活超过一年。

3.2实现细节

对于表示学习，使用批量大小为 64 的 Adam 优化器 [12] 来优化扩散自动编码器，学习率设置为 1 $e^{-4}$ 。扩散自动编码器的输入大小为256 $\times$ 256。它由 3D OSIC 数据集生成的 93967 个切片进行训练。我们使用 8 个 V100 GPU 训练模型 100 个周期。球形K-means方法中的簇数 $K$ 设置为64。聚类 ViT 模型使用 Adam 优化器 [12] 在两个 RTX3090 GPU 上进行训练，批量大小为 4，学习率为 $1e^{-4}$ ，历时 100 个周期。维度大小 $M$ 设置为512，dropout率设置为0.1。曲线下面积（AUC）、准确性、敏感性、特异性和 F1 评分被用作评估分类性能的指标。

3.3实验结果

在本研究中，我们将 Diff3Dformer 模型与其他具有开源代码的基于 3D CNN 的方法和基于 Transformer 的方法进行了比较。两个数据集的比较结果如图LABEL:result所示。基于 3D CNN 的方法包括 WS-DenseNet121 [8]、WS-ResNet101 [8]、WS-Contrastive 3D [9]、 2.5D-ResNet101 [6]，基于3D Transformer的方法包括AG-Swin Transformer [22]和ViT-patch [23]。这些方法的实验设置可以在补充表.2中找到。

3.3.1所提出的方法优于其他基于 Transformer 的方法。

与 AG-Swin Transformer 和 ViT-patch 方法相比，我们提出的模型在 CC-CCII 数据集上的 AUC、灵敏度和 F1 分数方面实现了卓越的性能，同时在其他指标上表现出可比的性能。在较小的 FLD 数据集上，所提出的方法显着提高了所有指标的性能，这与其他基于转换器的方法不同，其他基于转换器的方法对数据集大小很敏感，并且无法在较小的数据集上产生令人满意的结果。这些发现表明，我们的模型有效地减轻了基于 Transformer 的方法通常所需的大型数据集的要求，并在有限的数据下表现出更大的鲁棒性。

3.3.2所提出的方法始终优于不同类型的 3D 分类模型。

比较两个数据集上的 F1 分数，我们发现基于 CNN 的方法在极小的 FLD 数据集上也往往表现较差。具体来说，由于容易出现过度拟合问题，基于 WS 的方法表现最差。这些挑战可以通过对比学习技术学习更通用的表示来部分解决，如 2.5D 方法中的 WS-Contrastive 方法和重采样方法所示，其中 WS 方法通过更全面的分析优于 2.5D 方法。与 FLD 数据集上的这些方法相比，利用 Clustering ViT 架构的 patch-ViT 和 Diff3Dformer 都优于基于 CNN 的方法，表明它们在减少过度拟合问题方面的有效性。此外，Diff3Dformer 通过利用两个数据集上的切片序列分析，性能优于 patch-ViT。

3.3.3消融研究。

为了研究所提出模型中组件在小数据集上的有效性，我们对两个数据集进行了一些实验，如表 1 所示。对比学习[11]是另一种有用的自监督学习方法来学习图像表示，我们还删除了聚类ViT模型中的聚类注意力，并将其性能与所提出的模型进行了比较。没有聚类注意力的模型与原始 ViT [3] 相同。 No.1 和 No.2、No.3 和 No.4 之间的比较表明，与对比学习方法相比，扩散模型实现了更好的表示。当比较 No.1 与 No.3、No.2 与 No.4 时，很明显，聚类注意力显着提高了 ViT 在两个数据集上的性能，证实聚类注意力有效解决了基于 Transformer 的方法中的过拟合问题。

表1： CC-CCII 和 FLD 数据集的消融研究。

		CC-CCII					FLD
No.	Ablation Setting	AUC	Accuracy	Sensitivity	Specificity	F1 Score	AUC	Accuracy	Sensitivity	Specificity	F1 Score
1.	Contrastive + ViT	0.83	0.82	0.77	0.79	0.78	0.75	0.74	0.68	0.77	0.72
2.	Diffusion + ViT	0.84	0.84	0.78	0.81	0.79	0.76	0.76	0.68	0.79	0.73
3.	Contrastive + clustering ViT	0.88	0.84	0.81	0.83	0.82	0.78	0.75	0.75	0.74	0.74
4.	Diffusion + clustering ViT	0.91	0.85	0.86	0.83	0.84	0.79	0.77	0.77	0.75	0.76

3.3.4 可解释的结果。

基于方程式。 (2)，我们可以通过向量化每个簇的特征 $A_{k}\overline{r}_{k}$ 来识别对每个个体的最终得分 $R$ 贡献最大的簇。补充图中的热图2表示该群组对FLD数据集上最终患者级风险评分 $R$ 的贡献，其中从左到右的面板描述了按 $R$ 值递减顺序排列的患者 $A_{k}\overline{r}_{k}$ 向量。每个患者最终预测背后的基本原理：红色立方体突出显示导致高风险评分的集群，而蓝色表示风险较低。从这个可视化中，我们可以看到具有不同预测结果的患者高度分离，并且清楚地描绘了每个患者的贡献模式。通过比较具有不同预测的两个类之间的平均 $A_{k}\overline{r}_{k}$ 值来确定数据集中最有影响力的聚类。补充图 3 显示了 FLD 数据集上按对“一年死亡率”类别的贡献对簇进行的排名，补充图 4

4结论

在本文中，我们提出了 Diff3Dformer，专门用于克服使用小型医学图像数据集对 3D CT 扫描进行分类时遇到的挑战，其性能优于基于 CNN 和基于 Transformer 的方法。利用基于扩散的切片序列表示为高维 3D 体积数据提供 Transformer 架构，并通过其丰富且有意义的特征表示提高分类准确性。实验结果证明了我们提出的方法在各种规模的小数据集和医学图像分类任务中的优越性能。

4.0.1致谢

这项研究得到了 ERC IMI (101005122)、H2020 (952172)、MRC (MC/PC/21013)、英国皇家学会 (IEC/NSFC/211235)、NVIDIA 学术硬件资助计划、SABRE 的部分支持该项目由勃林格殷格翰有限公司、Wellcome Leap Dynamic Resilience、NIHR 帝国生物医学研究中心和 UKRI 未来领袖奖学金 (MR/V023799/1) 支持。

4.0.2

作者没有需要声明与本文内容相关的竞争利益。

参考

[1] Cho, W., Ravi, H., Harikumar, M., Khuc, V., Singh, K.K., Lu, J., Inouye, D.I., Kale, A.: Towards enhanced controllability of diffusion models. arXiv preprint arXiv:2302.14368 (2023)
[2] Dhariwal, P., Nichol, A.: Diffusion models beat gans on image synthesis. Advances in neural information processing systems 34, 8780–8794 (2021)
[3] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An image is worth 16x16 words: Transformers for image recognition at scale. CoRR abs/2010.11929 (2020), https://arxiv.org/abs/2010.11929
[4] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)
[5] Fang, Y., Xing, X., Wang, S., Walsh, S., Yang, G.: Post-covid highlights: Challenges and solutions of artificial intelligence techniques for swift identification of covid-19. Current Opinion in Structural Biology 85, 102778 (2024)
[6] Harmon, S.A., Sanford, T.H., Xu, S., Turkbey, E.B., Roth, H., Xu, Z., Yang, D., Myronenko, A., Anderson, V., Amalou, A., et al.: Artificial intelligence for the detection of covid-19 pneumonia on chest ct using multinational datasets. Nature communications 11(1), 4080 (2020)
[7] Hartmann, K., Hortal, E.: Covid-19 diagnosis in 3d chest ct scans with attention-based models. In: International Conference on Artificial Intelligence in Medicine. pp. 229–238. Springer (2023)
[8] He, X., Wang, S., Shi, S., Chu, X., Tang, J., Liu, X., Yan, C., Zhang, J., Ding, G.: Benchmarking deep learning models and automated model design for covid-19 detection with chest ct scans. MedRxiv pp. 2020–06 (2020)
[9] Hou, J., Xu, J., Feng, R., Zhang, Y., Shan, F., Shi, W.: Cmc-cov19d: Contrastive mixup classification for covid-19 diagnosis. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 454–461 (2021)
[10] Hsu, C.C., Chen, G.L., Wu, M.H.: Visual transformer with statistical test for covid-19 classification. arXiv preprint arXiv:2107.05334 (2021)
[11] Huang, J., Dong, Q., Gong, S., Zhu, X.: Unsupervised deep learning by neighbourhood discovery. In: Chaudhuri, K., Salakhutdinov, R. (eds.) Proceedings of the 36th International Conference on Machine Learning. Proceedings of Machine Learning Research, vol. 97, pp. 2849–2858. PMLR (09–15 Jun 2019), https://proceedings.mlr.press/v97/huang19b.html
[12] Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)
[13] Li, A.C., Prabhudesai, M., Duggal, S., Brown, E., Pathak, D.: Your diffusion model is secretly a zero-shot classifier. arXiv preprint arXiv:2303.16203 (2023)
[14] Mei, X., Lee, H.C., Diao, K.y., Huang, M., Lin, B., Liu, C., Xie, Z., Ma, Y., Robson, P.M., Chung, M., et al.: Artificial intelligence–enabled rapid diagnosis of patients with covid-19. Nature medicine 26(8), 1224–1228 (2020)
[15] Meng, Y., Bridge, J., Addison, C., Wang, M., Merritt, C., Franks, S., Mackey, M., Messenger, S., Sun, R., Fitzmaurice, T., et al.: Bilateral adaptive graph convolutional network on ct based covid-19 diagnosis with uncertainty-aware consensus-assisted multiple instance learning. Medical Image Analysis 84, 102722 (2023)
[16] Miron, R., Moisii, C., Dinu, S., Breaban, M.: Covid detection in chest cts: Improving the baseline on cov19-ct-db. arXiv preprint arXiv:2107.04808 (2021)
[17] Preechakul, K., Chatthee, N., Wizadwongsa, S., Suwajanakorn, S.: Diffusion autoencoders: Toward a meaningful and decodable representation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 10619–10629 (2022)
[18] Shamshad, F., Khan, S., Zamir, S.W., Khan, M.H., Hayat, M., Khan, F.S., Fu, H.: Transformers in medical imaging: A survey. Medical Image Analysis p. 102802 (2023)
[19] Wang, X., Deng, X., Fu, Q., Zhou, Q., Feng, J., Ma, H., Liu, W., Zheng, C.: A weakly-supervised framework for covid-19 classification and lesion localization from chest ct. IEEE transactions on medical imaging 39(8), 2615–2625 (2020)
[20] Zhang, H., Cisse, M., Dauphin, Y.N., Lopez-Paz, D.: mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412 (2017)
[21] Zhang, K., Liu, X., Shen, J., Li, Z., Sang, Y., Wu, X., Zha, Y., Liang, W., Wang, C., Wang, K., et al.: Clinically applicable ai system for accurate diagnosis, quantitative measurements, and prognosis of covid-19 pneumonia using computed tomography. Cell 181(6), 1423–1433 (2020)
[22] Zhang, L., Wen, Y.: Mia-cov19d: a transformer-based framework for covid19 classification in chest cts. In: Proceeding of the IEEE/CVF International Conference on Computer Vision Workshops. pp. 513–8 (2021)
[23] Zhao, A., Shahin, A.H., Zhou, Y., Gudmundsson, E., Szmul, A., Mogulkoc, N., van Beek, F., Brereton, C.J., van Es, H.W., Pontoppidan, K., et al.: Prognostic imaging biomarker discovery in survival analysis for idiopathic pulmonary fibrosis. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 223–233. Springer (2022)
[24] Zheng, M., Gao, P., Zhang, R., Li, K., Wang, X., Li, H., Dong, H.: End-to-end object detection with adaptive clustering transformer. arXiv preprint arXiv:2011.09315 (2020)
[25] Zhong, S.: Efficient online spherical k-means clustering. In: Proceedings. 2005 IEEE International Joint Conference on Neural Networks, 2005. vol. 5, pp. 3180–3185. IEEE (2005)

5补充材料

表2：论文中对比方法的实验设置。

z

是切片数，

p

是从整个 CT 扫描中裁剪的斑块数。

Model Name	Learning Rate	Batch Size	Optimizer	Hardware	Input Size
WS-DenseNet121	1e-3	32	Adam Optimizer	One RTX3090	64 × 128 × 128
WS-ResNet101	1e-3	32	Adam Optimizer	One RTX3090	64 × 128 × 128
WS-Contrastive 3d	1e-4	4	Adam Optimizer	Two RTX3090	64 × 256 × 256
2.5D-ResNet101	1e-4	8	Adam Optimizer	Two RTX3090	8 × 256 × 256
AG-Swin Transformer	1e-4	2	Adam Optimizer	Two RTX3090	$z$ × 224 × 224
ViT-patch	1e-5	4	Adam Optimizer	Two RTX3090	$p$ × 64 × 64