arxiv Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

/documents/77339/

基本信息

文件基本信息

名称
Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts
描述
对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损失来促进负载平衡,但较大的辅助损失会在训练中引入不可忽略的干扰梯度,从而损害模型性能。为了控制负载平衡,同时在训练过程中不产生不需要的梯度,我们提出了无损平衡,其特点是辅助无损负载平衡策略。具体来说,在做出top-K路由决策之前,Loss-Free Balancing会首先对每个专家的路由分数应用专家明智的偏差。通过根据每个专家最近的负载动态更新其偏差,无损平衡可以始终保持专家负载的平衡分布。此外,由于无损平衡不会产生任何干扰梯度,因此它还提高了从 MoE 训练中获得的模型性能的上限。我们在 MoE 模型上验证了无损平衡的性能,该模型具有在最多 200B  Token 上训练的最多 3B 参数。实验结果表明,与传统的辅助丢包控制负载均衡策略相比,无损均衡实现了更好的性能和更好的负载均衡 ...