尽管音频分类取得了进展,但语音和其他声音领域(例如环境声音和音乐)之间仍然存在泛化差距。针对语音任务训练的模型通常无法在环境或音乐音频任务上表现良好,反之亦然。虽然自(监督 SSL)音频表示提供了一种替代方案,但对于缩放基于 SSL 的通用音频分类的模型和数据集大小的探索有限... ...
在本文中,我们提出了MooER,一种基于LLM的Moore Threads大规模自动语音识别(ASR)/自动语音翻译(AST)模型。使用包含开源和自行收集的语音数据的 5000h 伪标记数据集进行训练。我们获得的性能可与使用长达数十万小时的标记语音数据训练的其他开源模型相媲美 ...
参数高效的微调 (PEFT) 对于在资源有限的情况下定制大型语言模型 (LLM) 至关重要。尽管针对密集架构 LLM 已有多种 PEFT 方法,但针对稀疏架构 LLM 的 PEFT 仍处于探索之中。在这项工作中,我们研究了具有专家混合(MoE)架构的 LLM 的PEFT方法,这项工作的内容主要有三个:(1)我们研究了定制任务中激活专家的分散程度,发现特定任务的路由分布往往高度集中,而不同任务的激活专家的分布差异很大 ...
基于大型语言模型 (LLM) 的应用程序由 LLM 和非 LLM 组件组成,每个组件都会导致端到端延迟。尽管在优化 LLM 推理方面付出了巨大努力,但端到端工作流程优化却被忽视了。现有框架采用任务模块的粗粒度编排,这将优化限制在每个模块内,并产生次优的调度决策 ...
我们提出了 Prompt Cache,这是一种通过跨不同 LLM 提示重用注意力状态来加速大型语言模型 (LLM) 推理的方法。许多输入提示具有重叠的文本段,例如系统消息、提示模板和为上下文提供的文档。我们的主要见解是,通过在推理服务器上预先计算和存储这些频繁出现的文本片段的注意力状态,当这些片段出现在用户提示中时,我们可以有效地重用它们 ...
开放生成模型对于社区来说至关重要,它允许进行微调并在呈现新模型时作为基线。然而,当前大多数文本到音频模型都是私有的,艺术家和研究人员无法在其基础上进行构建。在这里,我们描述了使用知识共享数据训练的新的开放权重文本到音频模型的架构和训练过程 ...
本文介绍了 Embarrassingly Easy Text-to-Speech (E2 TTS),这是一种完全非自回归的零样本文本转语音系统,可提供人类水平的自然度以及最先进的说话者相似度和清晰度。在 E2 TTS 框架中,文本输入被转换为带有填充标记的字符序列。然后基于音频填充任务训练基于流匹配的梅尔频谱图生成器 ...
在本文中,我们重点解决将 LLM 应用于 ASR 时面临的限制。最近的工作利用了 prefixLM 类型的模型,直接将语音作为 ASR 的 LLM 的前缀。我们发现优化语音前缀可以带来更好的 ASR 性能,并建议应用 RNNT 损失来执行语音前缀调整 ...
我们引入了 Speech ReaLLM,这是一种新的 ASR 架构,它将“仅解码器”ASR 与 RNN-T 结合起来,使多模态 LLM 架构能够进行实时流处理。这是第一个“仅解码器”ASR 架构,旨在处理连续音频,无需明确的端点。语音 ReaLLM 是更通用的 ReaLLM(“实时 LLM”)方法的特例,也是首次在此介绍 ...
作为一种鲁棒且大规模的多语言语音识别模型,Whisper 在许多资源匮乏和分布外的场景中展示了令人印象深刻的结果。然而,其编码器-解码器结构阻碍了其在流式语音识别中的应用。在本文中,我们介绍了 Simul-Whisper,它使用 Whisper 交叉注意力中嵌入的时间对齐来指导自回归解码并实现基于块的流式 ASR,而无需对预训练模型进行任何微调 ...