大多数零样本多扬声器 TTS (ZS-TTS) 系统仅支持单一语言。虽然 YourTTS、VALL-E X、Mega-TTS 2 和 Voicebox 等模型探索了多语言 ZS-TTS,但它们仅限于少数高/中资源语言,限制了这些模型在大多数低/中资源语言中的应用。在本文中,我们旨在通过提出并公开 XTTS 系统来缓解这个问题 ...
本文介绍了 VALL-E 2,这是神经编解码器语言模型的最新进展,标志着零样本文本到语音合成 (TTS) 的里程碑,首次实现了与人类同等的水平。基于其前身 VALL-E,新迭代引入了两项重要的增强功能: 重复感知采样通过考虑解码历史中的标记重复来改进原始核心采样过程。它不仅稳定了解码,还避免了无限循环问题 ...
规模化开辟了自然语言处理的新领域,但成本很高。作为回应,通过学习仅激活训练和推理中的参数子集,专家混合 (MoE) 已被提议作为通往更大、能力更强的语言模型的节能途径,并且这种向新一代基础的转变模型正在获得发展势头,特别是在自动语音识别(ASR)领域。最近将 MoE 纳入 ASR 模型的工作具有复杂的设计,例如通过补充嵌入网络路由框架、提高专家的多语言能力,以及利用专用辅助损失来进行专家负载平衡或特定语言处理 ...
随着大规模通用语音模型 (USM) 的最新发展,端到端自动语音识别 (ASR) 模型的质量得到了革命性的提升。然而,由于巨大的内存使用和计算成本,部署这些大规模 USM 的成本极其昂贵。因此,模型压缩是在现实场景中在预算范围内适应基于 USM 的 ASR 的一个重要研究课题 ...
端到端 (E2E) 自动语音识别 (ASR) 模型的准确性随着规模的扩大而不断提高,有些模型现在已达到数十亿个参数。然而,这些模型的广泛部署和采用需要计算高效的解码策略。在目前的工作中,我们研究了一种这样的策略:在编码器中应用多个帧缩减层将编码器输出压缩为少量输出帧 ...
随着神经音频编解码器(对音频中的多个离散标记流进行编码)的出现,大型语言模型最近作为零样本文本到语音 (TTS) 合成的一种有前景的方法而受到关注。尽管人们一直在热衷于扩展范式,但音频标记化却讽刺地放大了可扩展性挑战,这是由于其较长的序列长度和多个序列建模的复杂性。为了缓解这些问题,我们提出了 CLaM-TTS,它采用概率残差向量量化来 (1) 实现 Token 长度的出色压缩,以及 (2) 允许语言模型一次生成多个 Token ,从而消除级联的需要建模来处理 Token 流的数量 ...
语言模型和扩散模型极大地推进了大规模零样本语音合成的最新进展。然而,这两种方法的生成过程都很慢并且计算量大。使用较低的计算预算实现高效的语音合成以达到与以前的工作相当的质量仍然是一个重大挑战 ...
最近具有仅解码器 Transformer 架构的 TTS 模型(例如 SPEAR-TTS 和 VALL-E)实现了令人印象深刻的自然度,并展示了在给定语音提示的情况下零样本适应的能力。然而,此类仅解码器的 TTS 模型缺乏单调对齐约束,有时会导致发音错误、跳词和重复等幻觉问题。为了解决这个限制,我们提出了 VALL-T,一种生成 Transducer 模型,它引入了输入音素序列的移动相对位置嵌入,明确指示单调生成过程,同时保持仅解码器 Transformer 的架构 ...
流式解混和识别传感器 (SURT) 最近已成为连续、流式、多说话者语音识别 (ASR) 的流行框架。随着架构、目标和混合模拟方法的进步,事实证明 SURT 可以成为一种有效的流媒体方法,用于与发言者无关的真实会议转录。在这项工作中,我们提出了使用 SURT 执行说话者归因转录的方法,以进一步推动这一框架,无论是短混音还是长录音 ...
热词定制是ASR领域仍然关注的问题之一——让ASR系统的用户能够定制实体、人名和其他短语以获得更好的体验是有价值的。在过去的几年里,我们已经开发出有效的 ASR 情境化建模策略,但它们在训练稳定性和隐形激活过程方面仍然存在改进的空间。在本文中,我们提出了语义增强上下文参数化器(SeACo-Paraformer),一种新颖的基于 NAR 的 ASR 系统,具有灵活有效的热词定制能力 ...