基本信息

文件基本信息

名称

A Survey on Mixture of Experts in Large Language Models

首页

https://yiyibooks.cn/arxiv/2407.06204v3/index.html

原始地址

https://arxiv.org/abs/2407.06204

描述

大型语言模型 (LLM) 在从自然语言处理到计算机视觉等各个领域取得了前所未有的进步。 LLM 的强大之处在于其庞大的模型规模、广泛且多样化的数据集以及训练过程中利用的巨大计算能力，所有这些都有助于 LLM 的新兴能力（例如，上下文学习），而这些能力在小型模型中是不存在的。在此背景下，专家混合（MoE）已成为一种以最小的计算开销大幅扩展模型容量的有效方法，受到学术界和工业界的广泛关注。尽管其日益流行，但仍缺乏对教育部文献的系统和全面的回顾。这项调查旨在弥合这一差距，为研究人员深入研究教育部的复杂性提供重要资源。我们首先简要介绍 MoE 层的结构，然后提出一种新的 MoE 分类法。接下来，我们概述了各种 MoE 模型的核心设计，包括算法和系统方面，以及可用的开源实现、超参数配置和实证评估的集合。此外，我们描述了教育部在实践中的多方面应用，并概述了未来研究的一些潜在方向。为了促进教育部研究的持续更新和前沿进展的共享，我们在此 https URL 建立了一个资源库 ...