- 名称
- RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training
- 描述
视觉和语言多模态预训练和微调在视觉问答(VQA)方面取得了巨大成功。与一般领域 VQA 相比,生物医学 VQA 的性能受到数据有限的影响。在本文中,我们提出了一种用于生物医学 VQA 的检索增强预训练和微调范例 RAMM,以克服数据限制问题 ...
视觉和语言多模态预训练和微调在视觉问答(VQA)方面取得了巨大成功。与一般领域 VQA 相比,生物医学 VQA 的性能受到数据有限的影响。在本文中,我们提出了一种用于生物医学 VQA 的检索增强预训练和微调范例 RAMM,以克服数据限制问题 ...