/documents/73585/
基本信息
文件基本信息
名称
SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation
描述
我们提出了一种新颖的语音增强语言模型(SALM),具有{\em多任务}和{\em上下文}学习功能。 SALM 包括冻结文本 LLM、音频编码器、模态适配器模块和 LoRA 层,以容纳语音输入和相关任务指令。统一的 SALM 不仅实现了与自动语音识别 (ASR) 和语音翻译 (AST) 的特定任务 Conformer 基线相当的性能,而且还展示了零样本上下文学习功能,这通过 ASR 和 AST 的关键字增强任务得到了证明。此外,提出了{\em语音监督上下文训练}来弥合LLM训练和下游语音任务之间的差距,从而进一步提高语音到文本模型的上下文学习能力。提议的模型通过 NeMo 工具包开源 ...