随着自动语音识别 (ASR) 模型变得越来越普遍,确保它们在物理和数字世界中存在的损坏情况下做出可靠的预测非常重要。我们提出了语音鲁棒基准(SRB),这是一个用于评估 ASR 模型对各种损坏的鲁棒性的综合基准。 SRB 由 69 个输入扰动组成,旨在模拟 ASR 模型在物理和数字世界中可能遇到的各种损坏 ...

0 1 1 5 2024/03/14 arXiv:2403.07937v1 luffy

基于标记的文本转语音 (TTS) 模型已成为生成自然和真实语音的有前景的途径,但它们面临着发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求等问题。为此,我们引入了一种新颖的分层声学建模方法,辅以定制的数据增强策略,并结合真实数据和合成数据对其进行训练,将数据大小扩展到 65 万小时,从而形成 0.8B 的零样本 TTS 模型参数 ...

0 0 0 0 2024/03/12 arXiv:2403.05989v1 luffy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)