¹ ¹institutetext: ¹苏黎世大学 ²伊斯坦布尔梅迪波尔大学

CT2Rep：用于3D医学影像的自动放射学报告生成

Ibrahim Ethem Hamamci 11 Sezgin Er 22 Bjoern Menze 11 {ibrahim.hamamci@uzh.ch}

摘要

医学影像在诊断中起着至关重要的作用，放射学报告是重要的文件。自动生成报告已成为缓解放射科医生工作量的迫切需求。虽然机器学习促进了 2D 医学影像的报告生成，但由于计算复杂性和数据稀缺，将其扩展到 3D 尚未得到探索。我们介绍了第一个为 3D 医学影像生成放射学报告的方法，专门针对胸部 CT 体积。鉴于缺乏可比方法，我们使用医学影像中先进的 3D 视觉编码器建立了一个基线，以证明我们方法的有效性，该方法利用了一种新颖的自回归因果 Transformer。此外，认识到利用先前访问信息的好处，我们通过基于交叉注意力的多模态融合模块和层次记忆增强 CT2Rep，从而能够合并纵向多模态数据。访问我们的代码：https://github.com/ibrahimethemhamamci/CT2Rep。

关键词：

3D 医学影像，胸部 CT 体积，放射学报告，CT-RATE 数据集，报告生成，纵向，Transformer

1 引言

由于大量公共数据集[28, 14, 12]的推动，机器学习在放射学中的整合显著增强了疾病分类和分割[30, 25, 10, 6]。此外，最近的进展已经能够开发出许多利用公共数据集[16, 23]为 2D 医学影像生成放射学报告的方法[4, 26, 20, 15, 27]。然而，由于计算复杂性[8]以及缺乏与放射学报告配对的数据集[3]，报告生成方面的这一进展尚未扩展到 3D 医学影像。

与二维成像相比，三维医学成像，如计算机断层扫描 (CT) 和磁共振成像，提供了对患者病情的更详细的视角 [22]. 因此，手动报告生成对于传达诊断结果至关重要，变得更加耗时且容易出错，这突出了自动化的必要性。开发此类框架的挑战之一在于三维医学成像数据集与报告配对的稀缺性 [19]. 此外，三维图像的性质涉及体积数据，这需要更复杂的算法来解释额外的维度。这种复杂性为生成描述性且临床相关的报告提出了独特的障碍，这些报告有效地捕捉了三维图像的细节。

认识到这一差距，我们的工作引入了 CT2Rep，这是第一个针对三维医学成像，特别是针对胸部 CT 体积进行自动放射学报告生成的方案。 CT2Rep 利用了一种新颖的三维自回归因果视觉特征提取器，该提取器针对处理体积数据进行了优化。我们还整合了关系记忆，以利用来自先前报告生成的的信息，使用记忆驱动的条件层归一化将此数据整合到我们的框架中。为了训练我们的框架，我们利用了 CT-RATE 数据集 [9]，该数据集包含 25,692 个非对比度胸部 CT 体积，通过各种重建扩展到 50,188 个，来自 21,304 个独特的患者，以及相应的放射学报告。 CT2Rep 的独特性在于，它是三维医学成像领域中首屈一指的，这意味着不存在直接可比的方法。尽管如此，为了证明我们框架的有效性，我们合理地设计了一个基线，使用最先进的用于三维胸部 CT 体积解释的视觉编码器 CT-Net [6] 进行报告生成。 CT2Rep 优于这种设计精良的基线方法，展示了我们新方法的有效性。

放射科医师通常会评估三维胸部 CT 体积以及同一患者之前的所有体积和报告，因为在临床实践中多次访问很常见。纵向体积及其报告包含有价值的信息，利用这种多模式数据可以潜在地增强报告生成。因此，我们通过结合基于交叉注意力的多模式融合模块以及分层记忆驱动的解码器扩展了 CT2Rep。这种扩展不仅解决了与三维图像分析相关的计算挑战，而且促进了纵向多模式患者数据的纳入，丰富了生成的报告的上下文和准确性。我们对这个扩展版本（名为 CT2RepLong）进行了全面的消融研究，以强调历史影像和报告在为当前诊断解释提供信息方面的重要性。我们的贡献可以概括如下：

•

我们提出了 CT2Rep，这是第一个用于 3D 医学影像的放射学报告生成框架，它采用了一种新颖的自回归因果 Transformer。
•

由于 CT2Rep 是同类中的第一个，并且没有可比方法存在，因此我们设计了一个基线，该基线采用胸部 CT 分类中使用的最先进的 3D 视觉编码器来对我们的方法进行基准测试，并证明其有效性。
•

我们使用基于交叉注意的多模态融合模块和分层记忆驱动的解码器来增强 CT2Rep，以利用常见的纵向数据，并辅以全面的消融研究，展示了将纵向数据纳入报告生成中的有效性。
•

我们公开发布了我们训练的模型和源代码，以促进 3D 胸部 CT 体积的开箱即用报告生成。

2 方法

尽管 3D 医学影像（例如 3D 胸部 CT 体积）比其 2D 对应物（如胸部 X 光片）提供更全面的信息，但目前尚无针对 3D 影像生成放射学报告的解决方案，因为数据稀缺且计算复杂。为了解决这一差距，我们开发了一个 3D 序列到序列生成模型，详细介绍见第 2.1 节，利用第 2.3 节概述的数据。此外，我们还增强了我们的方法，以纳入来自先前访问的纵向多模态数据，如第 2.2 节所述。

2.1 所提出的方法

该模型 ( $\Phi_{\text{CT2Rep}}$ ) 接受输入 3D 体积 $x\in{\mathbb{R}^{(240)\times 480\times 480}}$ 作为一系列 CT 补丁 $x=\{x_{1},x_{2},x_{3},...,x_{N}\},x_{n}\in\mathbb{R}^{(12)\times 24\times 24}$ 来预测目标序列 $r_{out}=\{r_{1}^{\text{out}},r_{2}^{\text{out}},...,r_{T}^{\text{out}}\},r_{t}% ^{\text{out}}\in\mathbb{V}$ 。这里， $N$ 表示 CT 特征数量， $T$ 表示符元数量， $\mathbb{V}$ 表示可能的符元词汇表。图 1 中描述的 CT2Rep 包含三个关键组件，下面将分别详细说明。

Refer to caption — 图 1: CT2Rep 采用了一种新颖的自回归因果 Transformer 来提取 3D 视觉特征，并辅以 RM 和 MCLN 增强的基于 Transformer 的编码器和解码器网络，用于生成临床准确的报告。

3D 视觉特征提取器。作为我们框架的一个关键组件和主要贡献，这个网络 ( $\Phi^{\text{visual}}_{\text{enc}}$ ) 通过将数据分割成不同的块并将它们转换为低维潜在空间，从而促进从 3D 胸部 CT 体积中提取嵌入式 CT 符元，其灵感来自 [1]。这些符元捕获了基本信息，促进了后续的分析。

该网络接收一个 3D CT 体积 ( $x$ ) 并生成嵌入式 CT 符元 $z_{x}\in{\mathbb{R}^{20\times 20\times 20\times 512}}$ ，首先从 $x$ 中提取 $(12)\times 24\times 24$ 个不重叠的块。然后将每个块映射到 $D$ 维空间， $D$ 设置为 $512$ 。然后，根据之前的一项工作 [11]，将这些块重新整形并线性转换为 $B\times T\times\frac{H}{p_{1}}\times\frac{W}{p_{2}}\times D$ 。这里， $p_{t}$ 表示时间块大小， $T$ 表示时间块的数量， $B$ 是批次大小， $H$ 和 $W$ 分别是切片的宽度和高度， $p_{1}$ 和 $p_{2}$ 表示空间块大小。在块嵌入之后，结果张量大小为 $B\times(T)\times\frac{H}{p_{1}}\times\frac{W}{p_{2}}\times D$ 。然后，这个张量被连续地由两个 Transformer 网络处理。首先，空间 Transformer 对大小为 $(B\cdot(T))\times(\frac{H}{p_{1}}\cdot\frac{W}{p_{2}})\times D$ 的重新整形张量进行操作，生成具有相同维度的张量。随后，因果 Transformer 处理这个重新整形为 $(\frac{H}{p_{1}}\cdot\frac{W}{p_{2}})\times(B\cdot(T))\times D$ 的输出，并生成一个保持这些维度的输出。这种方法确保在每一层之后都保留空间和潜在维度，从而在整个网络的处理阶段中保留 3D 体积信息。整个 3D 胸部 CT 体积特征提取过程，正式定义为 $z_{x}=\Phi^{\text{visual}}_{\text{enc}}(x)$ ，确保 3D 体积信息被保留，便于有效构建用于报告生成的序列到序列模型。

Transformer 编码器。我们使用一个传统的 Transformer ( $\Phi^{\text{transformer}}_{\text{enc}}$ ) 来编码由 $\Phi^{\text{visual}}_{\text{enc}}$ 提取的 CT 特征。这个网络通过注意力机制处理这些特征，以生成编码的隐藏状态，这对于捕获特征的相互依赖性至关重要。编码的隐藏状态表示为：

h_{x}=\{h_{1},h_{2},\ldots,h_{N}\}=\Phi^{\text{transformer}}_{\text{enc}}(z_{x% })=\Phi^{\text{transformer}}_{\text{enc}}(z_{1},z_{2},\ldots,z_{N}),

其中每个 $h_{n}\in\mathbb{R}^{512}$ 代表一个 patch 的编码状态， $N$ 为总的 patch 数量。 Transformer 中的注意力机制定义为 $\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^{T}}{\sqrt{d_{k}}}\right)V$ ，其中 $Q$ 、 $K$ 和 $V$ 分别代表查询、键和值矩阵， $d_{k}$ 是键的维度。

Transformer 解码器。我们将传统的 Transformer 网络作为解码器 ( $\Phi^{\text{transformer}}_{\text{dec}}$ )，并进行了两个显著的改进。首先，我们集成了关系记忆 (RM) [4]，它需要利用矩阵来封装和传播跨生成步骤的模式信息。此矩阵中的每一行存储特定模式的详细信息，这些信息通过更新迭代地细化，更新包括来自先前步骤的输出。更新机制涉及使用先前步骤的矩阵作为查询，并将它与先前输出连接起来，作为 Transformer 多头注意力模块的键和值。从数学上讲，这个过程是通过多头注意力实现的，其中 $Q=M_{t-1}\cdot W_{q}$ 、 $K=[M_{t-1};y_{t-1}]\cdot W_{k}$ 和 $V=[M_{t-1};y_{t-1}]\cdot W_{v}$ 。这里， $y_{t-1}$ 表示先前步骤输出的嵌入，而 $W_{q}$ 、 $W_{k}$ 和 $W_{v}$ 分别代表查询、键和值变换的可训练权重。因此，模型有效地学习了保守的报告模式，例如 "Trachea, both main bronchi are open."，在相似的 CT 体积内。其次，我们采用了基于记忆的条件层归一化 (MCLN) [17]，将 RM 直接集成到解码器的缩放 ( $\gamma$ ) 和移位 ( $\beta$ ) 参数中。这使得模型更能感知上下文，并且更擅长生成准确的文本输出。解码过程定义为：

r^{\text{out}}_{T}=\Phi^{\text{transformer}}_{\text{dec}}(h_{1},h_{2},\ldots,h% _{N},MCLN(RM(r^{\text{out}}_{1},r^{\text{out}}_{2},\ldots,r^{\text{out}}_{T-2}% ,r^{\text{out}}_{T-1}))).

推断。训练后，CT2Rep ( $\Phi_{\text{CT2Rep}}$ ) 能够为给定的 3D 胸部 CT 体积 ( $x$ ) 生成放射学报告 ( $r_{\text{out}}$ )，正式定义如下：

r_{\text{out}}=\Phi_{\text{CT2Rep}}(x)=\Phi^{\text{transformer}}_{\text{dec}}(% \Phi^{\text{transformer}}_{\text{enc}}(\Phi^{\text{visual}}_{\text{enc}}(x))).

2.2 纵向数据利用

为了利用来自先前访问的多模态数据，我们使用基于交叉注意力的融合模块 [31] 对 CT2Rep 进行了增强，该模块允许通过整合先前 CT 体积 ( $x^{old}$ ) 及其相应先前报告 ( $r_{in}^{old}$ ) 的表征，来预测给定新的 3D 胸部 CT 体积 ( $x^{new}$ ) 的结果序列 $r_{out}^{new}=\{r_{1},r_{2},...,r_{T}\},r_{t}\in\mathbb{V}$ 。通过 $R^{*}=\text{softmax}\left(\frac{q(H_{RP})k(H_{IP})^{\top}}{\sqrt{d_{k}}}\right)$ 和 $I^{*}=\text{softmax}\left(\frac{q(H_{IP})k(H_{RP})^{\top}}{\sqrt{d_{k}}}\right)$ 计算先前卷和报告表示之间的交叉注意力来促进融合过程，其中 $H_{IP}$ 和 $H_{RP}$ 是分别涉及纵向卷和报告的特征。这些特征被连接起来，以创建一个全面的多模态纵向表示 $H_{L}$ 。这种集成方法通过利用先前访问的时空信息，显著增强了纵向框架 $\Phi_{\text{CT2RepLong}}$ 的性能，如 Fig. 2 中所述。

2.2.1 多模态 Transformer 解码器。

$\Phi_{\text{CT2RepLong}}$ 的解码器与 $\Phi_{\text{CT2Rep}}$ 的解码器非常相似。但是， $\Phi_{\text{CT2RepLong}}$ 采用另外两种交叉注意力机制，共同定义为 $\Phi^{\text{attn}}_{\text{long}}$ ，来分析先前报告 ( $r^{\text{old}}$ ) 和体积 ( $x^{\text{old}}$ ) 之间的关系，反之亦然。输出被连接起来，然后根据 Sec. 2.1 中描述的过程，将 RM 应用于新的报告。随后，另一个交叉注意力 ( $\Phi^{\text{attn}}_{\text{mem}}$ ) 用于 RM 与来自先前体积和报告的交叉注意力输出之间。然后，将得到的交叉注意力输出用于 MCLN，其形式化为：

$r^{\text{out}}_{T}=\Phi^{\text{transformer}}_{\text{dec}}(h_{1},...,h_{N},MCLN% (\Phi^{\text{attn}}_{\text{mem}}(RM(r^{\text{out}}_{1},...,r^{\text{out}}_{T-1% }),\Phi^{\text{attn}}_{\text{long}}(r^{\text{old}},x^{\text{old}})))).$

2.2.2 推断。

训练后， $\Phi_{\text{CT2RepLong}}$ 可以为给定的新体积 ( $x^{\text{new}}$ ) 生成报告 ( $r_{\text{out}}^{\text{new}}$ )，以及先前体积及其相应的报告：

	$\displaystyle r_{\text{out}}^{\text{new}}$	$\displaystyle=\Phi_{\text{CT2RepLong}}(x^{\text{new}},x^{\text{old}},r^{\text{% old}})$
		$\displaystyle=\Phi^{\text{transformer}}_{\text{dec}}(\Phi^{\text{transformer}}% _{\text{enc}}(\Phi^{\text{visual}}_{\text{enc}}(x^{\text{new}})),\Phi^{\text{% attn}}_{\text{long}}(r^{\text{old}},x^{\text{old}})).$

2.3 数据集准备。

我们利用公开的 CT-RATE 数据集 [9] 中的 3D 胸部 CT 体积以及相应的放射学报告。为了开发 CT2Rep，我们使用了 CT-RATE 初始版本的所有体积和报告。我们的数据集包含来自 21,314 个独特患者的 25,701 个非对比 3D 胸部 CT 体积，在应用针对不同窗口设置的多个重建后，该数据集扩展到 49,138 个体积 [29]。每个体积在轴向平面上的分辨率为 $512\times 512$ 像素，切片数量范围从 100 到 600。与每个体积相关的放射学报告被分成四个部分：临床信息、技术、发现和印象；然而，只有发现部分被用于报告生成训练。同一个放射学报告被用于单个 CT 体积的每个重建体积。数据集被分成一个包含 20,000 个患者的训练集和一个包含 1,314 个患者的验证集，确保两者之间没有重叠。使用元数据中的斜率和截距值，将 CT 体积转换为豪斯菲尔德单位 (HU)，并裁剪到 $[-1000~{}\text{HU},+200~{}\text{HU}]$ 以表示 HU 量表的实际诊断极限 [5]。随后，每个体积被调整大小以在 x 和 y 轴上实现 0.75 mm 的均匀间距，在 z 轴上实现 1.5 mm 的均匀间距。体积被中心裁剪或填充以实现 $(240)\times 480\times 480$ 的一致分辨率。

创建纵向数据集。我们针对访问次数超过两次的患者，分别从 2,638 个和 169 个独特患者中获得了 6,766 个和 429 个 3D 胸部 CT 体积，用于训练集和验证集。在应用各种重建后，这些体积分别增加到训练集的 13,354 个和验证集的 849 个。我们使用 StudyTime 元数据属性按时间顺序排列每个患者的体积，并将每个患者的两个可能的纵向体积配对，从而产生 28,441 个训练对和 1,689 个验证对。

3 实验和结果

表 1: 定量评估展示了我们的 CT2Rep 模型与精心设计的基线相比的有效性，并强调了我们的增强方法 CT2RepLong 如何利用纵向数据来提高性能。

	NLG Metrics						CE Metrics
Method	BL-1	BL-2	BL-3	BL-4	M	R ${}_{\textbf{L}}$	P	R	F1
Base w/ CT-Net	0.443	0.399	0.375	0.354	0.286	0.442	0.513	0.531	0.456
mycolor CT2Rep (Ours)	0.460	0.415	0.390	0.369	0.295	0.459	0.749	0.548	0.534
methods below utilize longitudinal data
Baseline	0.372	0.317	0.282	0.251	0.238	0.353	0.666	0.465	0.525
$+$ report	0.330	0.284	0.260	0.241	0.213	0.313	0.623	0.410	0.524
$+$ volume	0.305	0.261	0.238	0.220	0.204	0.291	0.662	0.434	0.530
$+$ report $+$ volume	0.365	0.319	0.292	0.271	0.239	0.351	0.658	0.410	0.533
mycolor CT2RepLong (Ours)	0.374	0.327	0.304	0.401	0.285	0.263	0.727	0.511	0.536

为了评估模型在生成放射学报告方面的有效性，我们采用了自然语言生成 (NLG) 和临床疗效 (CE) 指标。 NLG 指标包括 BLEU (BL) [24]、METEOR (M) [18] 和 ROUGE-L (R ${}_{\textbf{L}}$ ) [21]，分别评估词语重叠、同义词使用和词语顺序以及序列匹配。对于 CE 指标，我们对 CXR-Bert 模型 [2] 进行了微调，用于对 18 种异常的报告进行多标签分类，如补充材料中所述。然后，我们预测了真实数据和生成的报告的异常标签，并计算了包括精确度 (P)、召回率 (R) 和 F1 分数在内的分类分数，以衡量生成的报告的临床准确性。

3.1 与基线方法的比较

鉴于缺乏直接可比较的方法，进一步突出了我们方法的新颖性，我们通过实现最先进的视觉编码器 CT-Net [7] 为放射学报告生成建立了一个基准，该编码器用于 3D 医学影像。 CT-Net 是第一个也是唯一一个为分类 3D 胸部 CT 体积而开发的模型。它的架构包括一个 ResNet-18 特征提取器 [13]，由旨在简化 ResNet 特征的 3D 卷积块增强，然后是最终的分类层。在我们的方法中，我们利用了 CT-Net 的特征提取能力，将这些特征作为我们 3D 体积转换器的输入，将其确立为我们研究的基准。表格 1 表明，由于我们作为 3D 视觉特征提取器使用的新的自回归因果转换器，我们的 CT2Rep 明显优于该基线。

案例研究。我们通过对测试集中随机选择的案例进行定性分析，比较生成的报告与真实情况，来评估我们模型的性能。图 3 说明了 CT2Rep 准确地生成了内容流畅、医学术语与放射科医生撰写的报告非常相似的报告，明显超过了使用 CT-Net 建立的基线。

3.2 纵向数据利用的消融研究

我们通过消融研究评估了CT2RepLong的性能以及整合先前数据的影響。首先，我们仅在纵向数据集上训练CT2Rep，而没有使用任何先验数据，从而建立了基线。然后，我们通过三种策略增强了该基线：利用来自先前报告的嵌入、先前体积嵌入，以及通过简单融合（不包括我们的纵向交叉注意力机制）的组合。表1展示了先验多模态数据的优势以及我们独特的交叉注意力机制。 R ${}_{\textbf{L}}$ 的例外可以归因于它对序列长度的重视，而不是对来自纵向数据集成的丰富内容和多样性的重视。此外，尽管纵向数据量有限——只有13%的患者（参见第2.3节）——CT2RepLong的性能与原始CT2Rep相当，证明了它的有效性，即使在数据集受限的情况下也是如此。

案例研究。对一个随机测试案例的定性分析（图4）表明，CT2RepLong显著受益于整合纵向数据。诸如“心肌肥大”和“钙化性动脉粥样硬化斑块”之类的关键词出现在当前和先前报告中，从而提高了生成报告的准确性。值得注意的是，基线模型遗漏的术语，例如“心肌肥大”，被CT2RepLong包含在内，与真实情况一致，并证明了利用纵向数据的扩展方法在提高报告生成可靠性方面的有效性。

3.3 实现细节

CT2Rep和基线方法（参见第3.1节）在49,138个3D CT体积及其相应的报告（第2.3节）上进行了训练。我们使用Adam优化器， $\beta_{1}$ 和 $\beta_{2}$ 超参数分别设置为0.9和0.99。视觉提取器的学习率设置为 0.00005，其他参数的学习率设置为 0.0001。使用了带伽马值为 0.1 的 StepLR 调度器，批次大小为 1，调度器的最大符元计数为 300。 CT2RepLong 和消融方法（3.2 节）在 28,441 对（2.3 节）上训练，使用了与 CT2Rep 相同的超参数。所有模型的训练时间为一周，在一个 NVIDIA A100 GPU 上进行，共训练了 20 个 epochs。 CT2Rep 的推断时间约为 35 秒，CT2RepLong 的推断时间约为 50 秒。

4 讨论与结论

总之，我们介绍了 CT2Rep，这是一个用于自动生成 3D 医学影像报告的第一个框架，重点是胸部 CT 卷。 CT2Rep 利用创新的自回归因果 Transformer 架构并整合关系记忆，提高了报告生成的准确性。作为同类产品中的第一个，我们使用 3D 胸部 CT 卷解释中最先进的视觉编码器建立了一个基准，以展示 CT2Rep 的有效性。此外，我们通过纵向数据集成扩展了它的功能，从而产生了 CT2RepLong，进一步增强了上下文和准确性。我们将我们训练好的模型和代码完全开源，为进一步研究打下坚实的基础。

4.0.1 致谢

我们感谢海尔穆特·霍顿基金会对我们研究的大力支持。此外，我们还要感谢伊斯坦布尔梅迪波尔大学提供 CT-RATE 数据集。

4.0.2

作者声明没有与本文内容相关的竞争利益。

参考文献

[1] Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lučić, M., Schmid, C.: Vivit: A video vision transformer. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 6836–6846 (2021)
[2] Boecking, B., Usuyama, N., Bannur, S., Castro, D.C., Schwaighofer, A., Hyland, S., Wetscherek, M., Naumann, T., Nori, A., Alvarez-Valle, J., et al.: Making the most of text semantics to improve biomedical vision–language processing. In: European conference on computer vision. pp. 1–21. Springer (2022)
[3] Chen, X., Wang, X., Zhang, K., Fung, K.M., Thai, T.C., Moore, K., Mannel, R.S., Liu, H., Zheng, B., Qiu, Y.: Recent advances and clinical applications of deep learning in medical image analysis. Medical Image Analysis 79, 102444 (2022)
[4] Chen, Z., Song, Y., Chang, T.H., Wan, X.: Generating radiology reports via memory-driven transformer. arXiv preprint arXiv:2010.16056 (2020)
[5] DenOtter, T.D., Schubert, J.: Hounsfield unit (2019)
[6] Draelos, R.L., Dov, D., Mazurowski, M.A., Lo, J.Y., Henao, R., Rubin, G.D., Carin, L.: Machine-learning-based multiple abnormality prediction with large-scale chest computed tomography volumes. Medical image analysis 67, 101857 (2021)
[7] Draelos, R.L., Dov, D., Mazurowski, M.A., Lo, J.Y., Henao, R., Rubin, G.D., Carin, L.: Machine-learning-based multiple abnormality prediction with large-scale chest computed tomography volumes. Medical image analysis 67, 101857 (2021)
[8] Gao, J., Shen, T., Wang, Z., Chen, W., Yin, K., Li, D., Litany, O., Gojcic, Z., Fidler, S.: Get3d: A generative model of high quality 3d textured shapes learned from images. Advances In Neural Information Processing Systems 35, 31841–31854 (2022)
[9] Hamamci, I.E., Er, S., Almas, F., Simsek, A.G., Esirgun, S.N., Dogan, I., Dasdelen, M.F., Wittmann, B., Simsar, E., Simsar, M., et al.: A foundation model utilizing chest ct volumes and radiology reports for supervised-level zero-shot detection of abnormalities. arXiv preprint arXiv:2403.17834 (2024)
[10] Hamamci, I.E., Er, S., Simsar, E., Sekuboyina, A., Gundogar, M., Stadlinger, B., Mehl, A., Menze, B.: Diffusion-based hierarchical multi-label object detection to analyze panoramic dental x-rays. In: Greenspan, H., Madabhushi, A., Mousavi, P., Salcudean, S., Duncan, J., Syeda-Mahmood, T., Taylor, R. (eds.) Medical Image Computing and Computer Assisted Intervention – MICCAI 2023. pp. 389–399. Springer Nature Switzerland, Cham (2023)
[11] Hamamci, I.E., Er, S., Simsar, E., Tezcan, A., Simsek, A.G., Almas, F., Esirgun, S.N., Reynaud, H., Pati, S., Bluethgen, C., et al.: Generatect: Text-guided 3d chest ct generation. arXiv preprint arXiv:2305.16037 (2023)
[12] Hamamci, I.E., Er, S., Simsar, E., Yuksel, A.E., Gultekin, S., Ozdemir, S.D., Yang, K., Li, H.B., Pati, S., Stadlinger, B., et al.: Dentex: An abnormal tooth detection with dental enumeration and diagnosis benchmark for panoramic x-rays. arXiv preprint arXiv:2305.19112 (2023)
[13] He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 770–778 (2016)
[14] Irvin, J., Rajpurkar, P., Ko, M., Yu, Y., Ciurea-Ilcus, S., Chute, C., Marklund, H., Haghgoo, B., Ball, R., Shpanskaya, K., et al.: Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In: Proceedings of the AAAI conference on artificial intelligence. vol. 33, pp. 590–597 (2019)
[15] Jing, B., Xie, P., Xing, E.: On the automatic generation of medical imaging reports. arXiv preprint arXiv:1711.08195 (2017)
[16] Johnson, A.E., Pollard, T.J., Berkowitz, S.J., Greenbaum, N.R., Lungren, M.P., Deng, C.y., Mark, R.G., Horng, S.: Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific data 6(1), 317 (2019)
[17] Lample, G., Sablayrolles, A., Ranzato, M., Denoyer, L., Jégou, H.: Large memory layers with product keys. Advances in Neural Information Processing Systems 32 (2019)
[18] Lavie, A., Denkowski, M.J.: The meteor metric for automatic evaluation of machine translation. Machine translation 23, 105–115 (2009)
[19] Li, J., Zhu, G., Hua, C., Feng, M., Bennamoun, B., Li, P., Lu, X., Song, J., Shen, P., Xu, X., et al.: A systematic collection of medical image datasets for deep learning. ACM Computing Surveys 56(5), 1–51 (2023)
[20] Li, M., Lin, B., Chen, Z., Lin, H., Liang, X., Chang, X.: Dynamic graph enhanced contrastive learning for chest x-ray report generation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 3334–3343 (2023)
[21] Lin, C.Y.: Rouge: A package for automatic evaluation of summaries. In: Text summarization branches out. pp. 74–81 (2004)
[22] Müller, N.: Computed tomography and magnetic resonance imaging: past, present and future. European Respiratory Journal 19(35 suppl), 3s–12s (2002)
[23] Nguyen, H.Q., Lam, K., Le, L.T., Pham, H.H., Tran, D.Q., Nguyen, D.B., Le, D.D., Pham, C.M., Tong, H.T., Dinh, D.H., et al.: Vindr-cxr: An open dataset of chest x-rays with radiologist’s annotations. Scientific Data 9(1), 429 (2022)
[24] Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: Bleu: a method for automatic evaluation of machine translation. In: Proceedings of the 40th annual meeting of the Association for Computational Linguistics. pp. 311–318 (2002)
[25] Pati, S., Thakur, S.P., Hamamcı, İ.E., Baid, U., Baheti, B., Bhalerao, M., Güley, O., Mouchtaris, S., Lang, D., Thermos, S., et al.: Gandlf: the generally nuanced deep learning framework for scalable end-to-end clinical workflows. Communications Engineering 2(1), 23 (2023)
[26] Thirunavukarasu, A.J., Ting, D.S.J., Elangovan, K., Gutierrez, L., Tan, T.F., Ting, D.S.W.: Large language models in medicine. Nature medicine 29(8), 1930–1940 (2023)
[27] Wang, J., Bhalerao, A., He, Y.: Cross-modal prototype driven network for radiology report generation. In: European Conference on Computer Vision. pp. 563–579. Springer (2022)
[28] Wang, X., Peng, Y., Lu, L., Lu, Z., Bagheri, M., Summers, R.M.: Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 2097–2106 (2017)
[29] Willemink, M.J., Noël, P.B.: The evolution of image reconstruction for ct—from filtered back projection to artificial intelligence. European radiology 29, 2185–2195 (2019)
[30] Yüksel, A.E., Gültekin, S., Simsar, E., Özdemir, S.D., Gündogar, M., Tokgöz, S.B., Hamamci, I.E.: Dental enumeration and multiple treatment detection on panoramic X-rays using deep learning. Scientific Reports (2021). https://doi.org/10.1038/s41598-021-90386-1
[31] Zhu, Q., Mathai, T.S., Mukherjee, P., Peng, Y., Summers, R.M., Lu, Z.: Utilizing longitudinal chest x-rays and reports to pre-fill radiology reports. arXiv preprint arXiv:2306.08749 (2023)

补充材料

Abnormality	P	R	F1	P	R	F1	Test Set
	Base w/ CT-Net			CT2Rep (Ours)
Medical material	$0.117$	$0.400$	$0.180$	$0.736$	$0.752$	$0.308$	$0.114$
Arterial wall calcification	$0.795$	$0.635$	$0.706$	$0.928$	$0.356$	$0.675$	$0.267$
Cardiomegaly	$0.088$	$0.336$	$0.139$	$0.657$	$0.686$	$0.555$	$0.108$
Pericardial effusion	$0.996$	$0.820$	$0.899$	$0.769$	$0.920$	$0.786$	$0.074$
Coronary artery wall calcification	$0.173$	$0.163$	$0.168$	$0.405$	$0.705$	$0.223$	$0.244$
Hiatal hernia	$0.110$	$0.666$	$0.188$	$0.998$	$0.214$	$0.890$	$0.134$
Lymphadenopathy	$0.932$	$0.380$	$0.540$	$0.641$	$0.645$	$0.555$	$0.266$
Emphysema	$0.660$	$0.870$	$0.750$	$0.436$	$0.864$	$0.310$	$0.195$
Atelectasis	$0.052$	$0.122$	$0.073$	$0.998$	$0.638$	$0.778$	$0.232$
Lung nodule	$0.713$	$0.381$	$0.496$	$0.818$	$0.502$	$0.596$	$0.425$
Lung opacity	$0.994$	$0.588$	$0.741$	$0.579$	$0.234$	$0.320$	$0.374$
Pulmonary fibrotic sequela	$0.948$	$0.465$	$0.624$	$0.569$	$0.669$	$0.443$	$0.267$
Pleural effusion	$0.137$	$0.649$	$0.226$	$0.570$	$0.396$	$0.443$	$0.126$
Mosaic attenuation pattern	$0.289$	$0.230$	$0.256$	$0.984$	$0.242$	$0.386$	$0.078$
Peribronchial thickening	$0.194$	$0.749$	$0.308$	$0.888$	$0.660$	$0.624$	$0.098$
Consolidation	$0.293$	$0.795$	$0.428$	$0.804$	$0.417$	$0.526$	$0.172$
Bronchiectasis	$0.782$	$0.502$	$0.601$	$0.756$	$0.425$	$0.516$	$0.099$
Interlobular septal thickening	$0.969$	$0.811$	$0.883$	$0.953$	$0.547$	$0.684$	$0.071$
Mean	$0.513$	$0.531$	$0.456$	$0.749$	$0.548$	$0.534$	$0.186$

表 2: 基于异常的临床疗效指标，包括精度 (P)、召回率 (R) 和 F1 分数，展示了基于 CT-Net 的基线和我们的 CT2Rep 方法生成的报告。 CT2Rep 的优越性能强调了利用我们新颖的自回归因果 Transformer 进行 3D 特征提取的好处，再加上关系记忆和记忆驱动的条件层归一化，从而为 3D 胸部 CT 体积生成临床精确的报告。此外，还提供了测试集中异常的比率。

Abnormality	P	R	F1	P	R	F1	Test Set
	Baseline			CT2RepLong
Medical material	$0.490$	$0.593$	$0.492$	$0.910$	$0.617$	$0.555$	$0.233$
Arterial wall calcification	$0.390$	$0.417$	$0.389$	$0.613$	$0.476$	$0.472$	$0.330$
Cardiomegaly	$0.806$	$0.120$	$0.478$	$0.993$	$0.690$	$0.886$	$0.153$
Pericardial effusion	$0.851$	$0.718$	$0.448$	$0.711$	$0.467$	$0.553$	$0.145$
Coronary artery wall calcification	$0.947$	$0.250$	$0.569$	$0.750$	$0.657$	$0.664$	$0.296$
Hiatal hernia	$0.486$	$0.316$	$0.472$	$0.943$	$0.805$	$0.472$	$0.148$
Lymphadenopathy	$0.683$	$0.414$	$0.498$	$0.926$	$0.857$	$0.435$	$0.333$
Emphysema	$0.658$	$0.396$	$0.567$	$1.000$	$0.635$	$0.777$	$0.300$
Atelectasis	$0.577$	$0.416$	$0.572$	$0.454$	$0.287$	$0.457$	$0.258$
Lung nodule	$0.864$	$0.347$	$0.740$	$0.703$	$0.348$	$0.585$	$0.453$
Lung opacity	$0.563$	$0.894$	$0.490$	$0.480$	$0.153$	$0.315$	$0.535$
Pulmonary fibrotic sequela	$0.640$	$0.570$	$0.539$	$0.541$	$0.766$	$0.548$	$0.295$
Pleural effusion	$0.502$	$0.667$	$0.509$	$0.698$	$0.618$	$0.391$	$0.286$
Mosaic attenuation pattern	$0.655$	$0.375$	$0.527$	$0.729$	$0.501$	$0.574$	$0.024$
Peribronchial thickening	$0.695$	$0.536$	$0.569$	$0.974$	$0.955$	$0.958$	$0.168$
Consolidation	$0.445$	$0.569$	$0.439$	$0.413$	$0.181$	$0.304$	$0.378$
Bronchiectasis	$0.986$	$0.211$	$0.562$	$0.514$	$0.713$	$0.440$	$0.165$
Interlobular septal thickening	$0.740$	$0.570$	$0.605$	$0.737$	$0.098$	$0.266$	$0.117$
Mean	$0.666$	$0.465$	$0.525$	$0.727$	$0.511$	$0.536$	$0.257$

表 3: 展示了基线和我们增强的 CT2RepLong 方法生成的报告中，每个异常的临床疗效指标（精度、召回率和 F1）。增强 CT2Rep，CT2RepLong 集成了跨注意力多模态融合模块和纵向记忆，有效地利用了先前访问的历史报告和体积。该方法优于基线的性能突出了在生成 3D 胸部 CT 体积的临床精确放射学报告中使用纵向多模态数据的好处。还详细说明了测试集中异常的分布。