基本信息 - RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training

arxiv RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training

阅读

Star 0

名称: RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training

首页: https://yiyibooks.cn/arxiv/2303.00534v1/index.html

原始地址: https://arxiv.org/pdf/2303.00534.pdf

描述

视觉和语言多模态预训练和微调在视觉问答（VQA）方面取得了巨大成功。与一般领域 VQA 相比，生物医学 VQA 的性能受到数据有限的影响。在本文中，我们提出了一种用于生物医学 VQA 的检索增强预训练和微调范例 RAMM，以克服数据限制问题 ...