端到端 (E2E) 自动语音识别 (ASR) 模型的准确性随着规模的扩大而不断提高,有些模型现在已达到数十亿个参数。然而,这些模型的广泛部署和采用需要计算高效的解码策略。在目前的工作中,我们研究了一种这样的策略:在编码器中应用多个帧缩减层将编码器输出压缩为少量输出帧 ...

0 0 0 0 2024/04/29 arXiv:2402.17184v1 luffy

随着神经音频编解码器(对音频中的多个离散标记流进行编码)的出现,大型语言模型最近作为零样本文本到语音 (TTS) 合成的一种有前景的方法而受到关注。尽管人们一直在热衷于扩展范式,但音频标记化却讽刺地放大了可扩展性挑战,这是由于其较长的序列长度和多个序列建模的复杂性。为了缓解这些问题,我们提出了 CLaM-TTS,它采用概率残差向量量化来 (1) 实现 Token 长度的出色压缩,以及 (2) 允许语言模型一次生成多个 Token ,从而消除级联的需要建模来处理 Token 流的数量 ...

0 0 0 0 2024/04/28 arXiv:2404.02781v1 luffy

语言模型和扩散模型极大地推进了大规模零样本语音合成的最新进展。然而,这两种方法的生成过程都很慢并且计算量大。使用较低的计算预算实现高效的语音合成以达到与以前的工作相当的质量仍然是一个重大挑战 ...

0 0 0 0 2024/04/28 arXiv:2404.14700v3 luffy

最近具有仅解码器 Transformer 架构的 TTS 模型(例如 SPEAR-TTS 和 VALL-E)实现了令人印象深刻的自然度,并展示了在给定语音提示的情况下零样本适应的能力。然而,此类仅解码器的 TTS 模型缺乏单调对齐约束,有时会导致发音错误、跳词和重复等幻觉问题。为了解决这个限制,我们提出了 VALL-T,一种生成 Transducer 模型,它引入了输入音素序列的移动相对位置嵌入,明确指示单调生成过程,同时保持仅解码器 Transformer 的架构 ...

0 0 0 0 2024/04/23 arXiv:2401.14321v4 luffy

流式解混和识别传感器 (SURT) 最近已成为连续、流式、多说话者语音识别 (ASR) 的流行框架。随着架构、目标和混合模拟方法的进步,事实证明 SURT 可以成为一种有效的流媒体方法,用于与发言者无关的真实会议转录。在这项工作中,我们提出了使用 SURT 执行说话者归因转录的方法,以进一步推动这一框架,无论是短混音还是长录音 ...

0 0 0 0 2024/04/22 arXiv:2401.15676v1 luffy

热词定制是ASR领域仍然关注的问题之一——让ASR系统的用户能够定制实体、人名和其他短语以获得更好的体验是有价值的。在过去的几年里,我们已经开发出有效的 ASR 情境化建模策略,但它们在训练稳定性和隐形激活过程方面仍然存在改进的空间。在本文中,我们提出了语义增强上下文参数化器(SeACo-Paraformer),一种新颖的基于 NAR 的 ASR 系统,具有灵活有效的热词定制能力 ...

0 0 0 0 2024/04/22 arXiv:2308.03266v4 luffy

随着自动语音识别 (ASR) 模型变得越来越普遍,确保它们在物理和数字世界中存在的损坏情况下做出可靠的预测非常重要。我们提出了语音鲁棒基准(SRB),这是一个用于评估 ASR 模型对各种损坏的鲁棒性的综合基准。 SRB 由 69 个输入扰动组成,旨在模拟 ASR 模型在物理和数字世界中可能遇到的各种损坏 ...

0 1 1 5 2024/03/14 arXiv:2403.07937v1 luffy

基于标记的文本转语音 (TTS) 模型已成为生成自然和真实语音的有前景的途径,但它们面临着发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求等问题。为此,我们引入了一种新颖的分层声学建模方法,辅以定制的数据增强策略,并结合真实数据和合成数据对其进行训练,将数据大小扩展到 65 万小时,从而形成 0.8B 的零样本 TTS 模型参数 ...

0 0 0 0 2024/03/12 arXiv:2403.05989v1 luffy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)