3D 医学成像计算研究的一个主要挑战是缺乏全面的数据集。为了解决这个问题,我们的研究引入了 CT-RATE,这是第一个将图像与文本报告配对的 3D 医学成像数据集。 CT-RATE 由 21,304 名独特患者的 25,692 个非对比胸部 CT 卷组成,通过各种重建扩展到 50,188 个卷,以及相应的放射学文本报告 ...

0 0 0 0 2024/07/17 arXiv:2403.17834v1 ko440124

对于个体患者来说,与肺部疾病相关的症状表现可能在不同深度上有所不同,这凸显了 CT 扫描中 3D 信息对于医学图像分类的重要性。虽然 Vision Transformer 在图像分类任务中表现出优于卷积神经网络的性能,但它们的有效性通常在足够大的 2D 数据集上得到证明,并且很容易在小型医学图像数据集上遇到过拟合问题。为了解决这个限制,我们提出了一种基于扩散的 3D Vision Transformer (Diff3Dformer),它利用扩散模型的潜在空间形成用于 3D 分析的切片序列,并将聚类注意力纳入 ViT 中以聚合 3D CT 扫描中的重复信息,从而在小型数据集的 3D 分类任务中利用高级转换器的强大功能 ...

0 0 0 0 2024/07/09 arXiv:2406.17173v2 ko440124

在过去的几年里,扩大图像或文本的表示已经得到了广泛的研究,并引发了学习视觉和语言的革命。然而,3D 对象和场景的可扩展表示相对尚未被探索。在这项工作中,我们提出了 Uni3D,这是一个 3D 基础模型,用于探索大规模的统一 3D 表示 ...

0 0 0 0 2024/07/09 arXiv:2310.06773v1 ko440124

多模态大语言模型 (MLLM) 已被允许自由探索令人兴奋的医疗应用,主要关注放射学报告生成。然而,2D 放射学字幕的初步成功不足以反映现实世界中体积 3D 解剖学的诊断挑战。为了缓解现有文献中的三个关键限制方面,包括 (1) 数据复杂性、(2) 模型容量和 (3) 评估指标保真度,我们收集了 18,885 个文本扫描对 3D-BrainCT 数据集并应用了临床视觉指令调整(CVIT) 训练 BrainGPT 模型以生成符合放射学的 3D 脑部 CT 报告 ...

0 0 0 0 2024/07/08 arXiv:2407.02235v1 ko440124

人们对在医疗领域开发人工智能应用程序的兴趣日益浓厚,但由于缺乏高质量的数据集,这主要是由于隐私相关问题。此外,最近多模态大语言模型(MLLM)的兴起导致了对多模态医疗数据集的需求,其中临床报告和结果附加到相应的 CT 或 MR 扫描中。本文阐述了构建 MedPix 2 数据集的整个工作流程 ...

0 0 0 0 2024/07/08 arXiv:2407.02994v1 ko440124

人工智能 (AI) 的最新进展在医疗保健领域带来了重大突破,特别是在改进诊断程序方面。然而,以前的研究往往仅限于有限的功能。本研究介绍了 MiniGPT-Med,这是一种源自大规模语言模型并为医疗应用量身定制的视觉语言模型 ...

0 0 0 0 2024/07/08 arXiv:2407.04106v1 ko440124

医学视觉语言预训练 (Med-VLP) 在医学图像的视觉内容与相关文本描述之间建立联系。现有的 Med-VLP 方法主要关注描绘单个身体部位的 2D 图像,特别是胸部 X 光检查。在本文中,我们通过使用 CT 图像和报告的多模态数据集,将 Med-VLP 的范围扩展到涵盖 3D 图像,特别是针对全身场景 ...

0 0 0 0 2024/07/05 arXiv:2404.15272v3 ko440124

大规模视觉和语言表示学习在各种视觉语言任务上显示出有希望的改进。大多数现有方法采用基于 Transformer 的多模态编码器来联合建模视觉标记(基于区域的图像特征)和单词标记。由于视觉标记和单词标记未对齐,因此多模态编码器学习图像文本交互具有挑战性 ...

0 0 0 0 2024/06/19 arXiv:2107.07651v2 ko440124

模型预训练是现代视觉识别系统的基石。尽管对 ImageNet 等数据集的完全监督预训练仍然是事实上的标准,但最近的研究表明,大规模弱监督预训练可以优于完全监督方法。本文重新审视了使用主题标签监督、现代版本的残差网络以及有史以来最大的图像数据集和相应主题标签的弱监督模型预训练 ...

0 0 0 0 2024/06/17 arXiv:2201.08371v2 ko440124

深度学习领域正在趋向于使用可以轻松适应不同任务的通用基础模型。虽然这种范式转变已成为自然语言处理领域的常见做法,但计算机视觉领域的进展却较慢。在本文中,我们试图通过研究各种最先进的基础模型到医学图像分类任务的可迁移性来解决这个问题 ...

0 0 0 0 2024/06/07 arXiv:2310.19522v2 ko440124

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)