基于文本的大语言模型(LLM)的最新进展,尤其是在GPT系列和O1模型中,已经证明了扩展训练时间和推理时间计算的有效性。但是,利用LLM的当前最新TTS系统通常是多阶段,需要单独的模型(例如, ...

0 0 0 0 2025/03/03 arXiv:2502.04128v2 rosyclouds

扩散模型和流程匹配模型通过学习将噪声传输到数据来生成多样化和逼真的图像。但是,这些模型的采样涉及在许多神经网络通行证上进行迭代性降解,从而使产生缓慢而昂贵。以前的加速采样方法需要复杂的培训方案,例如多个培训阶段,多个网络或脆弱的时间表 ...

0 0 1 1 2025/02/21 arXiv:2410.12557v1 rosyclouds

声学背景在自然对话中起着至关重要的作用。它提供了上下文并帮助听众理解环境,但是强大的背景使听众很难理解口语。这些背景的适当处理与情况有关:尽管有必要删除背景以确保语音清晰度,但保留背景有时对于维持语音的上下文完整性至关重要 ...

0 0 0 0 2025/02/17 arXiv:2502.07345v1 rosyclouds

语音合成模型将书面文本转换为自然听起来的音频。虽然较早的模型仅限于单个演讲者,但最近的进步导致了零击系统的发展,这些系统以其他声音作为附加提示,从广泛的扬声器中产生逼真的语音。但是,他们仍然在模仿与培训数据集有很大差异的非阶段质量样本方面挣扎 ...

0 0 0 0 2025/02/15 arXiv:2502.07562v1 rosyclouds

说话人自适应文本转语音(TTS)合成因其广泛的应用(例如个性化语音助理服务)而引起了广泛的关注。虽然已经提出了几种方法,但它们通常对目标语音样本的数量或质量表现出高度敏感性。为了解决这些限制,我们引入了 Stable-TTS,这是一种新颖的说话人自适应 TTS 框架,它利用高质量预训练数据集的一小部分(称为先验样本) ...

0 0 0 0 2025/01/21 arXiv:2412.20155v1 rosyclouds

尽管最近的大量研究提出了使用大规模真实世界数据的零样本 TTS 的新框架,但关注零样本 TTS 清晰度的研究相对较少。零样本 TTS 需要付出额外的努力来确保清晰的发音和语音质量,因为它在推理阶段需要用新参数替换核心参数(扬声器嵌入或声音提示)。在本研究中,我们提出了一种专注于清晰度的零样本 TTS 模型,我们将其称为 Intelli-Z ...

0 0 0 0 2025/01/20 arXiv:2401.13921v1 rosyclouds

TTS 中跨说话者风格迁移的目标是将具有表达性数据的源说话者的语音风格迁移到仅具有中性数据的目标说话者。在这种情况下,我们建议使用预先训练的歌声转换(SVC)模型将表达数据转换为目标说话者的声音。在转换过程中,我们应用基频 (F0) 匹配技术来减轻具有显着音色差异的扬声器之间的音调差异 ...

0 0 0 0 2025/01/20 arXiv:2410.05620v1 rosyclouds

零样本文本转语音 (TTS) 合成显示出通过语音克隆实现个性化语音定制的巨大前景。然而,当前实现零样本 TTS 的方法严重依赖于大型模型规模和广泛的训练数据集,以确保在不同说话者之间获得令人满意的性能和通用性。这引起了对部署成本和数据安全的担忧 ...

0 0 0 0 2025/01/20 arXiv:2501.08566v1 rosyclouds

由于需要解开音频中的说话者和风格信息,因此将跨说话者风格迁移纳入文本转语音 (TTS) 模型具有挑战性。在表达数据资源匮乏的场景下,语音转换(VC)可以为目标说话人生成表达性语音,然后用于训练 TTS 模型。然而,VC 模型的质量和风格迁移能力对于 TTS 模型的整体质量至关重要 ...

0 0 0 0 2025/01/15 arXiv:2409.17364v1 rosyclouds

使用参考语音的表达性文本转语音(TTS)已被广泛研究以合成自然语音,但在获得良好表征的风格和提高模型泛化能力方面存在局限性。在这项研究中,我们提出了基于扩散的表达 TTS (DEX-TTS),这是一种声学模型,专为基于参考的语音合成而设计,具有增强的风格表示。基于通用扩散 TTS 框架,DEX-TTS 包括编码器和适配器来处理从参考语音中提取的风格 ...

0 0 0 0 2025/01/15 arXiv:2406.19135v1 rosyclouds

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)