我们提出 WHISPER-GPT:一种用于语音和音乐的生成大语言模型 (LLM),它允许我们作为单一架构的一部分同时处理连续音频表示和离散标记。利用神经压缩算法派生的离散音频标记的生成音频、语音和音乐模型出现了巨大的增长 ...
大型语言模型 (LLM) 在各种 NLP 任务中展示了卓越的性能,并且它们与语音编码器的集成正在迅速成为自动语音识别 (ASR) 领域的主导趋势。之前的工作主要集中在利用 LLM 进行英语和中文语音识别。然而,它们在资源匮乏的环境中解决语音识别挑战的潜力仍未得到充分开发 ...
基于注意力的编码器-解码器,例如Transformer 及其变体以自回归 (AR) 方式生成输出序列 ...
连接主义时间分类 (CTC) 是一种广泛使用的自动语音识别 (ASR) 方法,以其简单性和计算效率而闻名。然而,与结合 CTC 和基于注意力的编码器-解码器 (CTC/AED) 的传感器或系统相比,它的识别性能通常较差。在这项工作中,我们提出了一致性正则化 CTC (CR-CTC),它强制从输入语音梅尔频谱图的不同增强视图获得的两个 CTC 分布之间的一致性 ...
生成错误校正 (GEC) 已成为一种强大的后处理方法,可增强自动语音识别 (ASR) 系统的性能。然而,我们发现 GEC 模型很难泛化到训练期间遇到的特定类型的错误之外,从而限制了它们在测试时纠正新的、未见过的错误的能力,特别是在域外 (OOD) 场景中。这种现象随着命名实体(NE)而放大,除了关于 NE 的上下文信息或知识不足之外,新的 NE 不断出现 ...
神经音频编解码器 Token 是基于语音语言模型 (SLM) 的语音生成的基本构建块。然而,对于编解码系统如何影响SLM的语音生成性能还没有系统的了解。在这项工作中,我们检查 SLM 框架内用于语音生成的编解码器 Token ,为有效的编解码器设计提供见解 ...
自监督学习已被证明有益于广泛的语音处理任务,例如语音识别/翻译、说话人验证和二值化等。然而,由于缺乏子采样或使用聚类,当前的大多数方法在计算上是昂贵的基于语音量化。在本文中,我们提出了一种简化且更高效的自监督学习框架,称为 NeMo 语音任务编码器(NEST) ...
这项工作提出了 FireRedTTS,一种基础文本转语音框架,以满足对个性化和多样化生成语音应用不断增长的需求。该框架由数据处理、基础系统、下游应用三部分组成。首先,我们全面介绍我们的数据处理流程,将大量原始音频转换为大规模高质量 TTS 数据集,该数据集具有丰富的注释以及内容、说话风格和音色的广泛覆盖 ...
将语音表示为离散标记提供了一个框架,用于将语音转换为与文本非常相似的格式,从而能够使用语音作为广泛成功的大型语言模型 (LLM) 的输入。目前,虽然已经提出了几种语音分词器,但对于特定下游任务的分词器所需的属性及其整体通用性仍存在模糊性。评估不同下游任务中分词器的性能是一项计算密集型工作,对可扩展性提出了挑战 ...
语言模型的最新进展取得了重大进展。 GPT-4o作为一个新的里程碑,实现了与人类的实时对话,展现出接近人类自然的流畅性。这种人机交互需要模型能够直接使用音频模态进行推理并生成流式输出 ...