基本信息

文件基本信息

名称

SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation

首页

https://yiyibooks.cn/arxiv/2310.09424v1/index.html

原始地址

https://arxiv.org/pdf/2310.09424

描述

我们提出了一种新颖的语音增强语言模型（SALM），具有{\em多任务}和{\em上下文}学习功能。 SALM 包括冻结文本 LLM、音频编码器、模态适配器模块和 LoRA 层，以容纳语音输入和相关任务指令。统一的 SALM 不仅实现了与自动语音识别 (ASR) 和语音翻译 (AST) 的特定任务 Conformer 基线相当的性能，而且还展示了零样本上下文学习功能，这通过 ASR 和 AST 的关键字增强任务得到了证明。此外，提出了{\em语音监督上下文训练}来弥合LLM训练和下游语音任务之间的差距，从而进一步提高语音到文本模型的上下文学习能力。提议的模型通过 NeMo 工具包开源 ...