随着自动语音识别 (ASR) 模型变得越来越普遍,确保它们在物理和数字世界中存在的损坏情况下做出可靠的预测非常重要。我们提出了语音鲁棒基准(SRB),这是一个用于评估 ASR 模型对各种损坏的鲁棒性的综合基准。 SRB 由 69 个输入扰动组成,旨在模拟 ASR 模型在物理和数字世界中可能遇到的各种损坏 ...
基于标记的文本转语音 (TTS) 模型已成为生成自然和真实语音的有前景的途径,但它们面临着发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求等问题。为此,我们引入了一种新颖的分层声学建模方法,辅以定制的数据增强策略,并结合真实数据和合成数据对其进行训练,将数据大小扩展到 65 万小时,从而形成 0.8B 的零样本 TTS 模型参数 ...