ko440124的文档

ko440124

个性签名 ...

MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis

人工智能 (AI) 的最新进展在医疗保健领域带来了重大突破，特别是在改进诊断程序方面。然而，以前的研究往往仅限于有限的功能。本研究介绍了 MiniGPT-Med，这是一种源自大规模语言模型并为医疗应用量身定制的视觉语言模型 ...

0 0 0 0 2024/07/08 arXiv:2407.04106v1 ko440124

CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios

医学视觉语言预训练 (Med-VLP) 在医学图像的视觉内容与相关文本描述之间建立联系。现有的 Med-VLP 方法主要关注描绘单个身体部位的 2D 图像，特别是胸部 X 光检查。在本文中，我们通过使用 CT 图像和报告的多模态数据集，将 Med-VLP 的范围扩展到涵盖 3D 图像，特别是针对全身场景 ...

0 0 0 0 2024/07/05 arXiv:2404.15272v3 ko440124

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

大规模视觉和语言表示学习在各种视觉任务上显示出了希望的语言改进。大多数现有方法采用基于 Transformer 的多模态编码器来建模联合视觉标记（基于区域的图像特征）和单词由于视觉标记和单词标记未配对，因此多模态编码器学习图像文本交互具有认知... ...

0 2 0 0 2024/10/11 arXiv:2107.07651v2 ko440124

Revisiting Weakly Supervised Pre-Training of Visual Perception Models

模型预训练是现代视觉识别系统的基石。尽管对 ImageNet 等数据集的完全监督预训练仍然是事实上的标准，但最近的研究表明，大规模弱监督预训练可以优于完全监督方法。本文重新审视了使用主题标签监督、现代版本的残差网络以及有史以来最大的图像数据集和相应主题标签的弱监督模型预训练 ...

0 0 0 0 2024/06/17 arXiv:2201.08371v2 ko440124

Are Natural Domain Foundation Models Useful for Medical Image Classification?

深度学习领域正在趋向于使用可以轻松适应不同任务的通用基础模型。虽然这种范式转变已成为自然语言处理领域的常见做法，但计算机视觉领域的进展却较慢。在本文中，我们试图通过研究各种最先进的基础模型到医学图像分类任务的可迁移性来解决这个问题 ...

0 0 0 0 2024/06/07 arXiv:2310.19522v2 ko440124

Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training

在大规模噪声数据上进行对比学习训练的视觉语言模型在零样本识别问题中变得越来越受欢迎。在本文中，我们改进了对比预训练流程的以下三个方面：数据集噪声、模型初始化和训练目标。首先，我们提出了一种名为复杂性、动作和文本识别（CAT）的简单过滤策略，该策略可显着减小数据集大小，同时提高零样本视觉语言任务的性能 ...

0 0 0 0 2024/06/06 arXiv:2301.02280v2 ko440124

Multimodal Fusion on Low-quality Data: A Comprehensive Survey

多模态融合中心集成多种模态的信息，以实现更准确的预测，在自动驾驶、医疗诊断等多个场景中取得了显着的进展。然而，多模态融合的可靠性在很大积分完美探索，特别是在低质量得到数据设置下。本文调查了国外多模态融合的常见挑战和最新进展，并以综合分类法表示它们... ...

0 0 0 0 2024/10/10 arXiv:2404.18947v2 ko440124