热词定制是ASR领域仍然关注的问题之一——让ASR系统的用户能够定制实体、人名和其他短语以获得更好的体验是有价值的。在过去的几年里,我们已经开发出有效的 ASR 情境化建模策略,但它们在训练稳定性和隐形激活过程方面仍然存在改进的空间。在本文中,我们提出了语义增强上下文参数化器(SeACo-Paraformer),一种新颖的基于 NAR 的 ASR 系统,具有灵活有效的热词定制能力 ...
随着自动语音识别 (ASR) 模型变得越来越普遍,确保它们在物理和数字世界中存在的损坏情况下做出可靠的预测非常重要。我们提出了语音鲁棒基准(SRB),这是一个用于评估 ASR 模型对各种损坏的鲁棒性的综合基准。 SRB 由 69 个输入扰动组成,旨在模拟 ASR 模型在物理和数字世界中可能遇到的各种损坏 ...
基于标记的文本转语音(tts)模型已成为生成自然和真实语音的有前景的途径,但它们面临着发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求等问题。为此,我们引入了一种新颖的分层声学建模方法,辅以定制的数据增强策略,并结合真实数据和合成数据对其进行训练 ...