arxiv Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

/documents/76390/

基本信息

文件基本信息

名称
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
描述
GPT-4 等通用基础模型在各种领域和任务中展现了令人惊讶的能力。然而,人们普遍认为它们无法与微调模型的专业能力相匹配。例如,迄今为止,大多数关于医疗能力基准的探索都利用了特定领域的培训,BioGPT 和 Med-PaLM 的努力就是例证。我们之前对 GPT-4 在没有接受特殊培训的情况下在医疗挑战基准方面的能力进行了研究。我们没有使用简单的提示来突出模型的开箱即用功能,而是对提示工程进行了系统的探索。我们发现,促进创新可以释放更深层次的专业能力,并表明 GPT-4 轻松超越之前的医疗基准领先结果。我们探索的提示方法是通用的,没有具体利用领域专业知识,无需专家策划的内容。我们的实验设计在快速工程过程中仔细控制过度拟合。我们引入了 Medprompt,它基于多种提示策略的组合。借助 Medprompt,GPT-4 在 MultiMedQA 套件中的所有九个基准数据集上取得了最先进的结果。该方法的性能显着优于 Med-PaLM 2 等领先的专业模型,并且对模型的调用要少一个数量级。与迄今为止使用专业模型实现的最佳方法相比,使用 Medprompt 引导 GPT-4 在 MedQA 数据集上的错误率降低了 27%,并且首次超过了 90% 的分数。除了医学问题之外,我们还通过对电气工程、机器学习、哲学、会计​​、法律、护理和临床心理学考试策略的研究,展示了 Medprompt 推广到其他领域的能力,并为该方法的广泛适用性提供了证据 ...