/documents/74450/
基本信息
文件基本信息
名称
A Survey on Mixture of Experts in Large Language Models
描述
大型语言模型 (LLM) 在从自然语言处理到计算机视觉等各个领域取得了前所未有的进步。 LLM 的强大之处在于其庞大的模型规模、广泛且多样化的数据集以及训练过程中利用的巨大计算能力,所有这些都有助于 LLM 的新兴能力(例如,上下文学习),而这些能力在小型模型中是不存在的。在此背景下,专家混合(MoE)已成为一种以最小的计算开销大幅扩展模型容量的有效方法,受到学术界和工业界的广泛关注。尽管其日益流行,但仍缺乏对教育部文献的系统和全面的回顾。这项调查旨在弥合这一差距,为研究人员深入研究教育部的复杂性提供重要资源。我们首先简要介绍 MoE 层的结构,然后提出一种新的 MoE 分类法。接下来,我们概述了各种 MoE 模型的核心设计,包括算法和系统方面,以及可用的开源实现、超参数配置和实证评估的集合。此外,我们描述了教育部在实践中的多方面应用,并概述了未来研究的一些潜在方向。为了促进教育部研究的持续更新和前沿进展的共享,我们在此 https URL 建立了一个资源库 ...