人工智能 (AI) 的最新进展在医疗保健领域带来了重大突破,特别是在改进诊断程序方面。然而,以前的研究往往仅限于有限的功能。本研究介绍了 MiniGPT-Med,这是一种源自大规模语言模型并为医疗应用量身定制的视觉语言模型 ...

0 0 0 0 2024/07/08 arXiv:2407.04106v1 ko440124

医学视觉语言预训练 (Med-VLP) 在医学图像的视觉内容与相关文本描述之间建立联系。现有的 Med-VLP 方法主要关注描绘单个身体部位的 2D 图像,特别是胸部 X 光检查。在本文中,我们通过使用 CT 图像和报告的多模态数据集,将 Med-VLP 的范围扩展到涵盖 3D 图像,特别是针对全身场景 ...

0 0 0 0 2024/07/05 arXiv:2404.15272v3 ko440124

大规模视觉和语言表示学习在各种视觉任务上显示出了希望的语言改进。大多数现有方法采用基于 Transformer 的多模态编码器来建模联合视觉标记(基于区域的图像特征)和单词由于视觉标记和单词标记未配对,因此多模态编码器学习图像文本交互具有认知... ...

0 0 0 0 2024/10/11 arXiv:2107.07651v2 ko440124

模型预训练是现代视觉识别系统的基石。尽管对 ImageNet 等数据集的完全监督预训练仍然是事实上的标准,但最近的研究表明,大规模弱监督预训练可以优于完全监督方法。本文重新审视了使用主题标签监督、现代版本的残差网络以及有史以来最大的图像数据集和相应主题标签的弱监督模型预训练 ...

0 0 0 0 2024/06/17 arXiv:2201.08371v2 ko440124

深度学习领域正在趋向于使用可以轻松适应不同任务的通用基础模型。虽然这种范式转变已成为自然语言处理领域的常见做法,但计算机视觉领域的进展却较慢。在本文中,我们试图通过研究各种最先进的基础模型到医学图像分类任务的可迁移性来解决这个问题 ...

0 0 0 0 2024/06/07 arXiv:2310.19522v2 ko440124

在大规模噪声数据上进行对比学习训练的视觉语言模型在零样本识别问题中变得越来越受欢迎。在本文中,我们改进了对比预训练流程的以下三个方面:数据集噪声、模型初始化和训练目标。首先,我们提出了一种名为复杂性、动作和文本识别(CAT)的简单过滤策略,该策略可显着减小数据集大小,同时提高零样本视觉语言任务的性能 ...

0 0 0 0 2024/06/06 arXiv:2301.02280v2 ko440124

多模态融合中心集成多种模态的信息,以实现更准确的预测,在自动驾驶、医疗诊断等多个场景中取得了显着的进展。然而,多模态融合的可靠性在很大积分完美探索,特别是在低质量得到数据设置下。本文调查了国外多模态融合的常见挑战和最新进展,并以综合分类法表示它们... ...

0 0 0 0 2024/10/10 arXiv:2404.18947v2 ko440124

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)