基本信息 - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

arxiv U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

阅读

Star 0

名称: U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

首页: https://yiyibooks.cn/arxiv/2404.16407v1/index.html

原始地址: https://arxiv.org/pdf/2404.16407

描述

规模化开辟了自然语言处理的新领域，但成本很高。作为回应，通过学习仅激活训练和推理中的参数子集，专家混合 (MoE) 已被提议作为通往更大、能力更强的语言模型的节能途径，并且这种向新一代基础的转变模型正在获得发展势头，特别是在自动语音识别（ASR）领域。最近将 MoE 纳入 ASR 模型的工作具有复杂的设计，例如通过补充嵌入网络路由框架、提高专家的多语言能力，以及利用专用辅助损失来进行专家负载平衡或特定语言处理 ...

文件上传进度

0%

上传成功 0 个文件