- 名称
- Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models
- 描述
端到端 (E2E) 自动语音识别 (ASR) 模型的准确性随着规模的扩大而不断提高,有些模型现在已达到数十亿个参数。然而,这些模型的广泛部署和采用需要计算高效的解码策略。在目前的工作中,我们研究了一种这样的策略:在编码器中应用多个帧缩减层将编码器输出压缩为少量输出帧 ...
端到端 (E2E) 自动语音识别 (ASR) 模型的准确性随着规模的扩大而不断提高,有些模型现在已达到数十亿个参数。然而,这些模型的广泛部署和采用需要计算高效的解码策略。在目前的工作中,我们研究了一种这样的策略:在编码器中应用多个帧缩减层将编码器输出压缩为少量输出帧 ...