¹¹institutetext：¹阿里巴巴集团达摩院²罗切斯特大学

³ 湖畔实验室，310023，杭州，中国

CT-GLIP：利用 CT 扫描和全身场景放射学报告进行 3D 基础语言图像预训练

Jingyang Lin

{}^{(\textrm{\Letter})}

1Work was done during an internship at Alibaba DAMO Academy. Corresponding authors

{}^{(\textrm{\Letter})}

: jlin81@ur.rochester.edu, yingda.xia@alibaba-inc.com.1Work was done during an internship at Alibaba DAMO Academy. Corresponding authors

{}^{(\textrm{\Letter})}

: jlin81@ur.rochester.edu, yingda.xia@alibaba-inc.com.22 Yingda Xia

{}^{(\textrm{\Letter})}

11 Jianpeng Zhang 1133 Ke Yan 1133
Le Lu 11 Jiebo Luo 22 Ling Zhang 11

摘要

医学视觉语言预训练 (Med-VLP) 在医学图像的视觉内容与相关文本描述之间建立联系。现有的 Med-VLP 方法主要关注描绘单个身体部位的 2D 图像，特别是胸部 X 光检查。在本文中，我们通过使用 CT 图像和报告的多模态数据集，将 Med-VLP 的范围扩展到涵盖 3D 图像，特别是针对全身场景。与 2D 对应物相比，3D VLP 需要从 3D 成像中显着稀疏的表示中有效捕获基本语义。在本文中，我们介绍了 CT-GLIP（CT 扫描的接地语言图像预训练），这是一种构建器官级图像文本对以增强多模态对比学习、将接地视觉特征与精确诊断文本对齐的新方法。此外，我们开发了异常字典来增强不同对比对的对比学习。我们的方法在多模态 CT 数据集上进行训练，该数据集包含来自 104 个器官的 17,702 名患者的 44,011 个器官级视觉文本对，表明它可以使用自然语言以零样本的方式识别器官和异常。 CT-GLIP 的性能在 1,130 名患者的单独测试集上得到验证，重点关注 7 个器官中 16 种最常见的异常。实验结果表明，我们的模型在使用 CNN 和 ViT 架构的零样本和微调场景中比标准 CLIP 框架具有优越的性能。

关键词：

医学视觉语言预训练 CT 基础对比学习。

1简介

视觉语言预训练（VLP）已成为视觉语言（VL）研究的基本训练范式，使 VL 框架能够以弱监督的方式学习通用且可迁移的视觉语言表示[5, 9 ，17]。最近在医学VLP（Med-VLP）方面的尝试[4,7,12,14,23,25,27,28]已经证明了VLP范式在医学成像中的有效性。通过利用从常规临床实践中获得的大规模医学图像报告配对数据，这些方法减少了对昂贵的注释数据的依赖，并减轻了放射科医生的工作量。然而，由于数据缺乏，之前的工作主要集中在单个身体部位(i.e.、胸部）的二维医学图像。这一限制限制了 Med-VLP 在更广泛的医疗环境中的应用，特别是在处理 3D 医学图像时，这些图像不仅更加复杂，而且构成了放射科的主要工作量，提供了更丰富、更详细的患者解剖结构和异常视图。

Refer to caption — (a) Radiology report preprocessing

为此，我们的目标是扩展 Med-VLP 以合并 3D 图像，覆盖全身部位。与 2D VLP 相比，3D 图像的稀疏表示使文本描述与相应视觉概念的对齐变得复杂。因此，我们寻求针对全身 3D 成像场景设计一种高效的 3D Med-VLP 训练范例。

在本文中，我们提出了一种创新方法，名为 CT-GLIP（Grounded Language-Image 预训练与 CT 扫描），以重组接地 (i.e.organ- level) 视觉-文本对进行多模式对比学习，同时从基础视觉和文本端降低 3D 视觉-文本对齐的复杂性。对于 3D 图像，我们使用 Totalsegmentator [24] 生成分割掩模来识别 104 个器官的位置。对于放射学报告，我们采用LLaMA-2[20]，并手动检查将原始报告分解为每个器官的多个诊断描述，如图1a所示。简化的接地视觉和文本组件能够有效地将器官级视觉概念与简洁的诊断描述相关联。从技术上讲，CT-GLIP 包含两个目标，分别用于器官-文本和异常-文本对齐。器官文本对齐旨在理解基本的医学视觉概念。同时，异常文本对齐将异常视觉成分与相应的文本描述相关联，便于零样本异常检测，如图1b所示。此外，为了减轻在大规模 3D 模型中使用小批量大小进行对比学习的限制，这受益于大量不同的对比对 [3, 6, 16, 18, 21, 22]，我们开发了异常词典，包含各种异常文本描述。该词典大大增加了不同否定对的可用性，从而提高了对比学习的有效性。

我们的研究整理了一个多模态 CT 图像报告数据集，其中包含来自 17,702 名患者的 44,011 对，覆盖 104 个器官，并开发了分别包含 643 名和 1,130 名患者的验证和测试数据集，针对 7 个器官的 16 种常见异常。在第3节中，所提出的CT-GLIP在3D成像中优于整个图像报告对齐[17]。它在器官分类和异常检测方面实现了显着的零样本性能，并增强了基于 CNN 和 ViT 模型的肿瘤分割和检测。

CT-GLIP的主要贡献总结如下：（1）我们提出了一种新的机制来重组基础视觉文本对，以实现高效的3D Med-VLP；（2）我们建立了一个异常字典，扩大了对比对的数量和多样性； (3) 零样本和微调设置的实证结果表明，在 3D 成像场景中，接地图像报告对齐机制优于整个图像报告对齐。

2相关工作

通用VLP。视觉语言预训练旨在开发多模式基础模型，以提高涉及视觉和语言的各种任务的性能。 CLIP [17] 和 ALIGN [9] 代表了 VLP 领域的重要里程碑。这些模型强调了语言监督在增强计算机视觉和自然语言处理任务方面的关键作用。 BLIP [10] 致力于在预训练过程中统一视觉语言理解和生成。 GLIP [11] 寻求通过本地视觉语言对齐来学习对象级、语言感知和语义丰富的视觉表示。

医疗VLP。来自常规临床实践的医学图像-报告配对数据促进了 Med-VLP 的发展。 ConVIRT [4] 将 CLIP 方法应用于医学成像，使胸部 X 射线图像与其相应的报告相匹配。在此基础上，MedCLIP [23] 通过分别处理图像和文本来完善该方法，从而以较低的成本有效地扩展可用的训练数据。 CheXzero [19] 通过创建能够以零样本方式检测病理的系统，进一步推进了该领域的发展。 MedKLIP [25] 结合了额外的医学知识来增强图像和语言的联合分析。 LoVT [15] 和 GLoRIA [7] 引入了本地化视觉语言对齐，与我们的工作有着相似的动机。然而，我们的研究通过专注于 3D 医学成像而脱颖而出，这因其显着稀疏的表示而带来了挑战。此外，我们强调不仅扎根的视觉表示至关重要，而且高质量的器官级文本描述也至关重要。

2.0.1方法论

在本节中，我们将深入研究我们提出的器官级视觉语言关联机制的设计。我们的相关方法包括器官-文本对齐和异常-文本对齐。这些对接是我们综合目标的基础，将进一步完成零样本器官分类和零样本异常检测的任务。

问题表述多模态对比损失的基本动机是通过训练图像编码器 $f$ 和文本编码器 $g$ 来从文本中学习视觉概念，以最大化相似性对应的图像和文本特征嵌入之间的比较，同时最小化非对应对的特征嵌入。对于一批 $N$ 图像-文本对( $V_{n}$ , $T_{n}$ )，我们首先获得第 $i$ 标准化视觉特征 $\mbox{\boldmath$v$}_{i}=f(V_{i})$ 和第 $i$ 个标准化文本特征 $\mbox{\boldmath$t$}_{i}=f(T_{i})$ 。那么，单个对的损失如下所示：

\displaystyle\mathcal{L}_{i}=-\log\frac{\exp(\mbox{\boldmath$v$}_{i}^{T}\mbox{% \boldmath$t$}_{i})/\tau}{\sum^{N}_{k=1}\exp(\mbox{\boldmath$v$}_{i}^{T}\mbox{% \boldmath$t$}_{k})/\tau}-\log\frac{\exp(\mbox{\boldmath$v$}_{i}^{T}\mbox{% \boldmath$t$}_{i})/\tau}{\sum^{N}_{k=1}\exp(\mbox{\boldmath$v$}_{k}^{T}\mbox{% \boldmath$t$}_{i})/\tau},

(1)

其中 $\tau$ 是温度参数。总损失为 $\mathcal{L}=\frac{1}{N}\sum_{i=1}^{N}\mathcal{L}_{i}$ 。

器官文本对齐。器官文本对齐的动机是从专家语言模型中包含的监督中学习视觉概念，这使我们的模型能够理解基本的医学视觉概念。继之前的工作[23]之后，我们采用ClinicalBERT [1]作为专家文本编码器来计算文本描述的嵌入。为了实现器官-文本对齐，我们获得器官级视觉嵌入和相应的文本嵌入。具体来说，给定 CT 图像 $V_{i}$ ，视觉编码器将 CT 图像投影到表示空间中并生成特征图 $\mbox{\boldmath$v$}_{i}$ 。基于多器官分割伪标签，我们对每个分割的器官掩模应用器官级平均池化，以获得一组器官级特征 $\{\mbox{\boldmath$z$}_{ij}\}^{M}_{j=1}$ ，其中 $M$ 指的是给定 CT 图像中的器官数量。对于每个器官，我们通过将指定器官集成到预定义模板中来生成其文本描述 $T_{ij}$ ，例如“这是 CT 扫描中的{器官}”。然后，我们将器官描述输入专家文本编码器以生成器官级文本嵌入 $\{\mbox{\boldmath$t$}_{ij}\}^{M}_{j=1}$ 。之后，我们的训练目标 $\mathcal{L}_{\text{OT}}$ 是对齐器官文本特征，如下所示：

{\mathcal{L}_{\text{OT}}}_{i}=\frac{1}{M}\sum^{M}_{j=1}\left(-\log\frac{\exp(% \mbox{\boldmath$z$}_{ij}^{T}\mbox{\boldmath$t$}_{ij})/\tau}{\sum^{M}_{k=1}\exp% (\mbox{\boldmath$z$}_{ij}^{T}\mbox{\boldmath$t$}_{ik})/\tau}-\log\frac{\exp(% \mbox{\boldmath$z$}_{ij}^{T}\mbox{\boldmath$t$}_{ij})/\tau}{\sum^{M}_{k=1}\exp% (\mbox{\boldmath$z$}_{ik}^{T}\mbox{\boldmath$t$}_{ij})/\tau}\right),

(2)

其中温度参数 $\tau$ 设置为0.07。此外，为了增强给定伪分割标签 $\tilde{y}$ 的利用率，我们引入了一个额外的分割头来预测像素级别的器官。分割目标 $\mathcal{L}_{\text{segm}}$ 是交叉熵损失和骰子损失的混合。

异常-文本对齐。异常-文本对齐的目标是将异常的知识整合到多模态模型中。异常文本对齐的训练流程如图2所示。与器官文本对齐类似，我们首先从给定的 CT 图像 $V_{i}$ 中提取器官级视觉特征嵌入 $\{\mbox{\boldmath$z$}_{ij}\}^{M}_{j=1}$ 。与器官文本对齐不同，我们组织 $M$ 诊断描述，包括 $M^{\prime}$ 异常器官的器官级真实诊断描述和 $M-M^{\prime}$ 使用预定义模板生成的描述(e.g.,“{器官}无明显异常”)对于正常器官。此外，为了扩大异常文本对齐 [6, 16] 的负对数量，我们引入了异常字典，存储 104 个器官异常的不同文本描述。具体来说，对于每个正常器官，我们从异常字典中查找 $T$ 个异常描述，并将 $B=(M-M^{\prime})\times T$ 个异常描述总共整合起来。这些 $B$ 异常描述为多模态对比学习提供了额外的负对来区分疾病。之后，所有 $M+B$ 文本描述都被输入专家语言模型，生成文本嵌入 $\{t_{ij}\}_{j=1}^{M+B}$ 。给定器官级配对视觉和文本嵌入，异常文本对齐的训练目标如下所示：

{\mathcal{L}_{\text{AT}}}_{i}=\frac{1}{M}\sum^{M}_{j=1}\left(-\log\frac{\exp(% \mbox{\boldmath$z$}_{ij}^{T}\mbox{\boldmath$t$}_{ij})/\tau}{\sum^{M+B}_{k=1}% \exp(\mbox{\boldmath$z$}_{ij}^{T}\mbox{\boldmath$t$}_{ik})/\tau}-\log\frac{% \exp(\mbox{\boldmath$z$}_{ij}^{T}\mbox{\boldmath$t$}_{ij})/\tau}{\sum^{M}_{k=1% }\exp(\mbox{\boldmath$z$}_{ik}^{T}\mbox{\boldmath$t$}_{ij})/\tau}\right),

(3)

总体目标。我们器官级视觉-语言对齐的总体目标计算为器官-文本对比损失 $\mathcal{L}_{\text{OT}}$ 、异常-文本对比损失 $\mathcal{L}_{\text{AT}}$ 和辅助交叉熵损失的整合 $\mathcal{L}_{segm}$ （由伪器官分割掩模监督的骰子损失）：

\mathcal{L}=\lambda_{1}\mathcal{L}_{\text{OT}}+\lambda_{2}\mathcal{L}_{\text{% AT}}+\lambda_{3}\mathcal{L}_{\text{segm}},

(4)

其中权重 $\lambda_{1}$ 、 $\lambda_{2}$ 和 $\lambda_{3}$ 分别设置为 0.5、0.5 和 1.0。

3实验

预训练数据集。对于提出的 CT-GLIP，我们收集了 CT 图像和报告的多模态数据集，其中包含 17,702 名连续患者以及 44,011 个器官级视觉文本对。

预训练详细信息。对于视觉部分，我们采用了具有代表性的基于 CNN 和基于 ViT 的视觉编码器，特别是 nnUNet [8] 和 MiT [26]。为了保持低级语义，我们将最高分辨率的特征图输入器官级平均池化。在器官级平均池化的基础上，添加了一个额外的两层 MLP（带有 ReLU 的隐藏层 768- $d$ )。对于语言部分，我们采用 BioClinicalBERT [1] 作为专家文本编码器。我们将专家文本编码器冻结[13]，以避免 CT 特定域数据造成灾难性遗忘。批量大小为 8，分布在 4 个 V100 GPU 上。我们训练 CT-GLIP 20 个训练周期，因为此时损失已收敛。我们采用 Adam 优化器，根据余弦衰减规则，权重衰减为 3e-5，初始学习率为 1e-3，最终学习率为 1e-6。

3.1零样本评估

零样本评估数据集。为了评估零样本能力，我们进一步构建了额外的数据集，包括 643 名患者进行验证和 1,130 名患者进行测试，特别关注 16 种最常见的异常情况。有关器官-文本和异常-文本对齐的评估数据集和零样本推断的更多详细信息，请参阅补充材料。

基线模型。我们采用普通 CLIP [17] 作为我们的基线模型，它采用标准图像级对比对。

异常文本 (AT) 对齐的影响。在零样本异常检测中，与表 1 中不同架构的普通 CLIP 相比，AT 对齐大大提高了性能。结果表明，图像级对比学习很难从 3D CT 报告对中学习有用的信息。它强调 CT-GLIP 可以有效地促进 3D 图像稀疏表示上的有效 VL 对齐。特别是，使用 nnUNet 主干网络，F1 分数提高了 15.0%，AUC 提高了 16.4%。 MiT 主干网的提升更为明显，F1 分数提高了 15.6%，AUC 提高了 19.5%。

器官文本 (OT) 对齐的影响。表1显示OT对齐使我们的模型具有强大的零样本器官分类能力。特别是，nnUNet 和 MiT 的 top-1 准确率性能分别达到 86.9% 和 85.4%。此外，表1显示OT对齐进一步提高了零样本异常检测的性能，表明基本视觉概念理解的能力是更好的异常检测的基础。特别是，对于 nnUNet 和 MiT，OT 对齐在 F1 分数和 AUC 方面实现了超过 2% 的提升。

异常词典的影响。异常字典的目的是扩展多样化的负样本，因为大规模负样本有利于对比学习[16]。异常字典的规模为512，因为更大的规模将不再有利于性能。基于 AT 和 OT 对齐，异常字典提高了 nnUNet 和 MiT 零样本异常检测的性能。

表格1：零样本器官分类和病理学检测的性能。 OTalign表示器官-文本对齐，ATalign表示异常-文本对齐，A-Dict表示异常字典。 Top-1 准确度、PPV（阳性预测值）、灵敏度、F1 分数和 AUC 以% 形式显示。

Method Zero-shot Zero-shot Organ Classification Abnormality Detection Top-1 Acc $\uparrow$ PPV $\uparrow$ Sensitivity $\uparrow$ F1 $\uparrow$ AUC $\uparrow$ CNN-based architecture: nnUNet Vanilla CLIP [17] 0.00 32.75 35.19 33.93 52.23 CT-GLIP +AT align 0.03 35.24 70.66 47.02 66.00 +AT align +OT align 86.92 39.07 64.11 48.60 66.76 +AT align +OT align +A-Dict 86.24 39.24 72.85 49.02 68.63 ViT-based architecture: MiT Vanilla CLIP [17] 0.00 34.01 40.43 36.94 52.37 CT-GLIP +AT align 0.07 37.65 74.24 49.96 69.27 +AT align +OT align 85.46 38.24 77.43 51.19 70.12 +AT align +OT align +A-Dict 84.93 39.47 78.59 52.55 71.90

3.2癌症筛查的微调评估

数据集和评估。为了在下游微调环境中评估拟议的 CT-GLIP，我们准备了一个内部数据集，其中包含 700 名患者的 700 次非对比 CT 扫描，特别针对七种最常见的癌症类型，包括肺癌、乳腺癌、肝癌、食道癌、胃癌、结直肠癌和胰腺癌，每种类型100名患者。该数据集旨在验证我们的预训练模型在非对比 CT 扫描上分割和检测这些类型癌症的适应性和性能，这是一项新兴且具有挑战性的临床任务[2]。七名经过委员会认证的放射科医生手动注释了肿瘤的像素级掩模，所有这些均经过组织病理学证实。我们将数据集随机分为 448、112 和 140 个案例，分别用于训练、验证和测试集。通过肿瘤分割的 Dice 评分来评估性能。对于患者层面的各类肿瘤（每种肿瘤是否存在）的检测，我们使用相应肿瘤的3D体积作为计算AUC[29]的分数。

微调策略。我们采用相同的两个骨干架构，即 nnUNet [8] 和 MiT [26] 网络。对于 nnUNet 主干网，我们使用原始训练计划和自配置架构，仅使用预训练模型作为初始化。批量大小为 8，我们训练所有实验进行 125k 次迭代。对于 MiT 主干网，我们为分割任务添加了一个 UNet 风格的解码器，修复了最初 25k 次迭代的 MiT 编码器，并为另外 100k 次迭代调整了整个编码器-解码器网络。用于微调 MiT 的优化器是 RAdam，初始学习率为 0.001，多项式学习率衰减。

表2：下游微调在胰腺（Pan）、乳腺癌（Bre）、胃（Sto）、结直肠（Col）、肺癌、食道（Eso）和肝癌（liv）癌症筛查任务中的表现。通过 DSC (%) 评估肿瘤分割，通过 AUC (%) 评估癌症筛查的表现。

Metric Method Pan Bre Sto Col Lung Eso Liv Mean DSC $\uparrow$ CNN-based architecture: nnUNet Scratch 38.77 13.20 20.36 24.18 40.45 52.94 19.25 29.88 Vanilla CLIP [17] 50.58 19.28 19.98 24.31 47.15 56.45 16.43 33.45 CT-GLIP (ours) 52.42 20.59 23.13 26.16 48.89 53.25 18.44 34.70 ViT-based architecture: MiT Scratch 35.18 19.13 0.00 18.56 11.12 40.32 34.41 22.68 Vanilla CLIP [17] 36.02 19.96 17.47 28.78 33.39 50.19 28.75 30.65 CT-GLIP (ours) 39.85 22.84 27.23 34.15 42.32 46.60 37.39 35.77 AUC $\uparrow$ CNN-based architecture: nnUNet Scratch 92.19 70.23 83.48 90.72 74.91 100.00 63.31 82.12 Vanilla CLIP [17] 96.69 80.97 83.17 86.99 92.05 100.00 71.39 87.32 CT-GLIP (ours) 97.73 81.49 90.64 90.54 92.43 93.70 80.35 89.55 ViT-based architecture: MiT Scratch 97.63 77.91 50.00 90.26 74.05 98.74 77.99 80.94 Vanilla CLIP [17] 90.10 85.83 78.40 95.65 78.45 99.55 81.03 87.00 CT-GLIP (ours) 91.48 81.31 87.79 95.03 85.76 96.35 82.46 88.60

结果。对于这两个主干网，我们的 CT-GLIP 优于从头开始训练的基线模型以及使用普通 CLIP 训练进行微调的模型，如表 2 所示。例如，对于 nnUNet 主干网，CT-GLIP 的平均肿瘤分割骰子得分优于从头开始训练并从普通 CLIP 微调的模型，分别高出 4.8% 和 1.3%，癌症检测 AUC 得分分别高出 7.4% 和 2.2%。对于 MiT 主干网，肿瘤分割的改进分别为 13.1% 和 5.1%，癌症检测的改进分别为 7.7% 和 1.6%。一般来说，使用 CLIP 或 CT-GLIP 进行预训练都可以大幅提高性能，这说明了预学习表示对于这项具有临床意义的任务的重要性。我们相对于普通 CLIP 的优越性进一步说明了我们的方法在利用视觉文本关联来增强肿瘤相关图像表示方面的有效性。

4结论

在这项研究中，我们通过生成接地（器官级）图像文本对并使用异常字典增强学习对多样性，将 VLP 扩展到 3D 医学成像，特别是全身 CT 扫描。我们提出的 CT-GLIP 克服了数据稀疏的挑战，并在零样本识别器官和异常方面显示出前景，对改善多癌症筛查的下游任务具有重要意义。这项研究为评估 3D VLP 在医疗诊断方面的潜力建立了新的基准。

参考

[1] Alsentzer, E., Murphy, J.R., Boag, W., Weng, W.H., Jin, D., Naumann, T., McDermott, M.: Publicly available clinical bert embeddings. In: NAACL. pp. 72–78 (2019)
[2] Cao, K., Xia, Y., Yao, J., Han, X., Lambert, L., Zhang, T., Tang, W., Jin, G., Jiang, H., Fang, X., et al.: Large-scale pancreatic cancer detection via non-contrast ct and deep learning. Nature Medicine pp. 3033–3043 (2023)
[3] Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., Joulin, A.: Unsupervised learning of visual features by contrasting cluster assignments. In: NeurIPS. pp. 9912–9924 (2020)
[4] Chauhan, G., Liao, R., Wells, W., Andreas, J., Wang, X., Berkowitz, S., Horng, S., Szolovits, P., Golland, P.: Joint modeling of chest radiographs and radiology reports for pulmonary edema assessment. In: MICCAI. pp. 529–539 (2020)
[5] Gan, Z., Li, L., Li, C., Wang, L., Liu, Z., Gao, J., et al.: Vision-language pre-training: Basics, recent advances, and future trends. Foundations and Trends® in Computer Graphics and Vision pp. 163–352 (2022)
[6] He, K., Fan, H., Wu, Y., Xie, S., Girshick, R.: Momentum contrast for unsupervised visual representation learning. In: CVPR. pp. 9729–9738 (2020)
[7] Huang, S.C., Shen, L., Lungren, M.P., Yeung, S.: Gloria: A multimodal global-local representation learning framework for label-efficient medical image recognition. In: ICCV. pp. 3942–3951 (2021)
[8] Isensee, F., Jaeger, P.F., Kohl, S., Wasserthal, J., Koehler, G., Norajitra, T., Wirkert, S., Maier-Hein, K.H.: nnu-net: a self-configuring method for deep learning-based biomedical image segmentation. Nature Methods pp. 1–9 (2020)
[9] Jia, C., Yang, Y., Xia, Y., Chen, Y.T., Parekh, Z., Pham, H., Le, Q., Sung, Y.H., Li, Z., Duerig, T.: Scaling up visual and vision-language representation learning with noisy text supervision. In: ICML. pp. 4904–4916 (2021)
[10] Li, J., Li, D., Xiong, C., Hoi, S.: Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In: ICML. pp. 12888–12900 (2022)
[11] Li, L.H., Zhang, P., Zhang, H., Yang, J., Li, C., Zhong, Y., Wang, L., Yuan, L., Zhang, L., Hwang, J.N., et al.: Grounded language-image pre-training. In: CVPR. pp. 10965–10975 (2022)
[12] Lin, W., Zhao, Z., Zhang, X., Wu, C., Zhang, Y., Wang, Y., Xie, W.: Pmc-clip: Contrastive language-image pre-training using biomedical documents. In: MICCAI. pp. 525–536 (2023)
[13] Liu, C., Cheng, S., Chen, C., Qiao, M., Zhang, W., Shah, A., Bai, W., Arcucci, R.: M-flag: Medical vision-language pre-training with frozen language models and latent space geometry optimization. In: MICCAI (2023)
[14] Lu, M.Y., Chen, B., Zhang, A., Williamson, D.F., Chen, R.J., Ding, T., Le, L.P., Chuang, Y.S., Mahmood, F.: Visual language pretrained multiple instance zero-shot transfer for histopathology images. In: CVPR. pp. 19764–19775 (2023)
[15] Müller, P., Kaissis, G., Zou, C., Rueckert, D.: Joint learning of localized representations from medical images and reports. In: ECCV. pp. 685–701 (2022)
[16] Oord, A.v.d., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. arXiv:1807.03748 (2018)
[17] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: ICML. pp. 8748–8763 (2021)
[18] Tian, Y., Krishnan, D., Isola, P.: Contrastive multiview coding. In: ECCV. pp. 776–794 (2020)
[19] Tiu, E., Talius, E., Patel, P., Langlotz, C.P., Ng, A.Y., Rajpurkar, P.: Expert-level detection of pathologies from unannotated chest x-ray images via self-supervised learning. Nature Biomedical Engineering pp. 1399–1406 (2022)
[20] Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., et al.: Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288 (2023)
[21] Wang, Y., Lin, J., Cai, Q., Pan, Y., Yao, T., Chao, H., Mei, T.: A low rank promoting prior for unsupervised contrastive learning. IEEE TPAMI pp. 2667–2681 (2022)
[22] Wang, Y., Lin, J., Zou, J., Pan, Y., Yao, T., Mei, T.: Improving self-supervised learning with automated unsupervised outlier arbitration. In: NeurIPS. pp. 27617–27630 (2021)
[23] Wang, Z., Wu, Z., Agarwal, D., Sun, J.: Medclip: Contrastive learning from unpaired medical images and text. In: EMNLP. pp. 3876–3887 (2022)
[24] Wasserthal, J., Breit, H.C., Meyer, M.T., Pradella, M., Hinck, D., Sauter, A.W., Heye, T., Boll, D.T., Cyriac, J., Yang, S., et al.: Totalsegmentator: Robust segmentation of 104 anatomic structures in ct images. Radiology: Artificial Intelligence (2023)
[25] Wu, C., Zhang, X., Zhang, Y., Wang, Y., Xie, W.: Medklip: Medical knowledge enhanced language-image pre-training. In: ICCV. pp. 21372–21383 (2023)
[26] Xie, Y., Zhang, J., Xia, Y., Wu, Q.: Unimiss: Universal medical self-supervised learning via breaking dimensionality barrier. In: ECCV. pp. 558–575 (2022)
[27] You, K., Gu, J., Ham, J., Park, B., Kim, J., Hong, E.K., Baek, W., Roh, B.: Cxr-clip: Toward large scale chest x-ray language-image pre-training. In: MICCAI. pp. 101–111 (2023)
[28] Zhang, Y., Jiang, H., Miura, Y., Manning, C.D., Langlotz, C.P.: Contrastive learning of medical visual representations from paired images and text. In: MLHC. pp. 2–25 (2022)
[29] Zhu, Z., Xia, Y., Xie, L., Fishman, E.K., Yuille, A.L.: Multi-scale coarse-to-fine segmentation for screening pancreatic ductal adenocarcinoma. In: MICCAI. pp. 3–12 (2019)

附录0.A补充材料

0.A.1 零样本评估详情

7个常见器官的16种代表性异常。零样本异常检测的评估需要模型识别给定的器官是否异常。如图3a所示，我们首先选择7个最常见的器官，包括脾、胰腺、主动脉、胆囊、肾、肝和肺。然后，我们从这 7 个器官中选择 1-3 个最常见的异常。图 3b 说明了我们数据集上的放射学报告的词云。在表 3 中，我们呈现了来自 7 个常见器官的 16 种异常。图4显示了MiT骨干上16个异常的零样本异常检测的AUC。结果证明了我们提出的 CT-GLIP 的优越性。

表3： 7 个器官的 16 种代表性异常。

Organ Abnormalities Spleen splenomegaly, spleen calcification Pancreas acute pancreatitis, chronic pancreatitis, pancreatic duct stones Aorta arteriosclerosis of aorta Kidney kidney stone, renal cyst Liver fatty liver, hepatic cyst, hepatic calcification Lung old lesions in lung, pulmonary nodules, pulmonary fibrous lesion

零样本器官分类推断。图5说明了零样本器官分类的推理过程。具体来说，我们首先通过给定的模板生成所有 104 个器官的器官描述。然后，我们使用专家文本编码器将这些描述转换为文本嵌入。同时，相应的 CT 扫描和多器官分割被输入 3D 图像编码器，以产生器官级的视觉嵌入。然后，将文本嵌入最接近图像嵌入的类标签预测为最有可能的器官类。这种方法允许 CT-GLIP 仅使用可能结果的器官描述，在 CT 扫描上执行 104 路器官分类任务，从而实现准确、灵活的分类，而无需直接训练任务的特定类别。零样本器官分类top-1准确率结果如表1所示。

零样本异常检测推断。在图1b中，我们展示了零样本异常检测的推理过程。对于每张测试 CT 图像，我们提供一对正常和异常文本描述以及相应的器官分割。我们评估每个目标异常的器官级基础视觉特征与正常和异常文本嵌入之间的相似性。预测是根据较高的相似度分数进行的。显然，零样本异常检测作为二元分类任务运行。