热词定制是ASR领域仍然关注的问题之一——让ASR系统的用户能够定制实体、人名和其他短语以获得更好的体验是有价值的。在过去的几年里,我们已经开发出有效的 ASR 情境化建模策略,但它们在训练稳定性和隐形激活过程方面仍然存在改进的空间。在本文中,我们提出了语义增强上下文参数化器(SeACo-Paraformer),一种新颖的基于 NAR 的 ASR 系统,具有灵活有效的热词定制能力 ...

0 0 0 0 2024/04/22 arXiv:2308.03266v4 luffy

随着自动语音识别 (ASR) 模型变得越来越普遍,确保它们在物理和数字世界中存在的损坏情况下做出可靠的预测非常重要。我们提出了语音鲁棒基准(SRB),这是一个用于评估 ASR 模型对各种损坏的鲁棒性的综合基准。 SRB 由 69 个输入扰动组成,旨在模拟 ASR 模型在物理和数字世界中可能遇到的各种损坏 ...

0 1 1 5 2024/03/14 arXiv:2403.07937v1 luffy

基于标记的文本转语音(tts)模型已成为生成自然和真实语音的有前景的途径,但它们面临着发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求等问题。为此,我们引入了一种新颖的分层声学建模方法,辅以定制的数据增强策略,并结合真实数据和合成数据对其进行训练 ...

0 0 0 0 2025/07/09 arXiv:2403.05989v1 luffy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)