ko440124的文档

ko440124

个性签名 ...

RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

语言监督的预训练已被证明是一种从图像中提取语义上有意义的特征的有价值的方法，可以作为计算机视觉和医学成像领域多模态系统的基础元素。然而，所得到的特征受到文本中包含的信息的限制。这在医学成像中尤其成问题，因为放射科医生的书面结果集中于特定的观察结果；由于担心个人健康信息泄露，配对图像-文本数据的稀缺加剧了这一挑战 ...

0 0 0 0 2024/10/18 arXiv:2401.10815v1 ko440124

RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis

开发通才基础模型最近引起了医学人工智能（AI4Medicine）领域研究人员的极大关注。开发这些模型的一个关键见解是它们对数据集缩放的依赖，这强调了开发开源医学图像数据集的要求，这些数据集包含跨各种成像模式的不同监督信号。在本文中，我们介绍了 RadGenome-Chest CT，这是一个基于 CT-RATE 的综合性、大规模、区域引导的 3D 胸部 CT 判读数据集 ...

0 0 0 0 2024/10/16 arXiv:2404.16754v1 ko440124

Visual Grounding of Whole Radiology Reports for 3D CT Images

构建大规模训练数据集是医学图像识别系统开发中的一个重要问题。视觉基础技术可以自动将图像中的对象与相应的描述相关联，可以方便对大量图像进行标记。然而，CT 图像放射学报告的视觉基础仍然具有挑战性，因为通过 CT 成像可以检测到多种异常，并且生成的报告描述又长又复杂 ...

0 0 0 0 2024/10/15 arXiv:2312.04794v1 ko440124

PCRLv2: A Unified Visual Information Preservation Framework for Self-supervised Pre-training in Medical Image Analysis

计算机视觉中自监督学习（SSL）的最新进展主要是比较性的，其目标是通过比较连体图像视图来保留潜在表示中的不变和判别语义。然而，保留的高级语义不包含足够的局部信息，这在医学图像分析中至关重要（例如， ...

0 0 0 0 2024/10/15 arXiv:2301.00772v1 ko440124

GenerateCT: Text-Conditional Generation of 3D Chest CT Volumes

GenerateCT 是第一种以自由格式医学文本提示为条件生成 3D 医学成像的方法，它包含一个文本编码器和三个关键组件：用于编码 3D CT 体积的新型因果视觉转换器、用于对齐 CT 和文本标记的文本图像转换器，以及文本条件超分辨率扩散模型。由于 3D 医学成像中没有直接可比较的方法，我们将GenerateCT 与尖端方法进行了基准测试，证明了其在所有关键指标上的优越性。重要的是，我们评估了GenerateCT在多异常分类任务中的临床应用 ...

0 0 0 0 2024/10/14 arXiv:2305.16037v5 ko440124

CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging

医学成像在诊断中发挥着至关重要的作用，放射学报告是重要的文件。自动生成报告已成为减轻放射科医生工作量的关键需求。虽然机器学习促进了 2D 医学成像报告的生成，但由于计算复杂性和数据稀缺，尚未探索将其扩展到 3D ...

0 0 0 0 2024/10/14 arXiv:2403.06801v2 ko440124

BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs

生物医学数据本质上是多模式的，包括物理测量和自然语言叙述。通用生物医学人工智能模型需要同时处理不同模式的数据，包括文本和图像。因此，训练有效的通用生物医学模型需要高质量的多模态数据，例如并行图像文本对 ...

0 0 0 0 2024/10/12 arXiv:2303.00915v2 ko440124

Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models

理解 3D 医学图像体积是医学领域的一项关键任务。然而，现有的 3D 卷积和基于 Transformer 的方法对图像体积的语义理解有限，并且还需要大量的体积进行训练。多模态大语言模型（MLLM）的最新进展提供了一种借助文本描述来理解图像的新的、有前景的方法 ...

0 0 0 0 2024/10/11 arXiv:2403.05141v1 ko440124

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives

人类使用多种感官来理解环境。视觉和语言是最重要的两种感官，因为它们使我们能够轻松地交流思想并感知周围的世界。人们对创建具有类人感官的视频语言理解系统非常感兴趣，因为视频语言对可以通过时间动态来模仿我们的语言媒介和视觉环境 ...

0 1 0 0 2024/10/08 arXiv:2406.05615v2 ko440124

LLaVA-OneVision: Easy Visual Task Transfer

我们推出了 LLaVA-OneVision，这是一个开放式大型多模态模型 (LMM) 系列，通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明，LLaVA-OneVision 是第一个能够在三个重要的计算机视觉场景（单图像、多图像和视频场景）中同时突破开放式 LMM 性能极限的单一模型。重要的是，LLaVA-OneVision 的设计允许跨不同模式/场景进行强大的迁移学习，从而产生新的能力 ...

0 0 0 0 2024/09/27 arXiv:2408.03326v2 ko440124