arxiv RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training

名称
RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training
首页
https://yiyibooks.cn/arxiv/2303.00534v1/index.html
原始地址
https://arxiv.org/pdf/2303.00534.pdf
描述
视觉和语言多模态预训练和微调在视觉问答(VQA)方面取得了巨大成功。与一般领域 VQA 相比,生物医学 VQA 的性能受到数据有限的影响。在本文中,我们提出了一种用于生物医学 VQA 的检索增强预训练和微调范例 RAMM,以克服数据限制问题 ...