- 名称
- U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF
- 描述
规模化开辟了自然语言处理的新领域,但成本很高。作为回应,通过学习仅激活训练和推理中的参数子集,专家混合 (MoE) 已被提议作为通往更大、能力更强的语言模型的节能途径,并且这种向新一代基础的转变模型正在获得发展势头,特别是在自动语音识别(ASR)领域。最近将 MoE 纳入 ASR 模型的工作具有复杂的设计,例如通过补充嵌入网络路由框架、提高专家的多语言能力,以及利用专用辅助损失来进行专家负载平衡或特定语言处理 ...