扩大训练数据量的文本转语音 (TTS) 系统在零样本语音合成方面取得了显着改进。然而,这些系统有一定的局限性:它们需要大量的训练数据,这增加了成本,并且经常忽略韵律相似性。为了解决这些问题,我们提出了 MultiVerse,这是一种零样本多任务 TTS 系统,能够在零样本和跨语言条件下执行 TTS 或语音风格转换 ...
文本转语音 (TTS) 领域的最新进展表明,基于语言模型 (LM) 的系统可提供与其同行相比具有竞争力的性能。进一步的优化可以通过偏好对齐算法来实现,该算法调整 LM 以与奖励模型的偏好保持一致,从而提高生成内容的可取性。本研究对偏好对齐算法(特别是直接偏好优化 (DPO))如何增强基于 LM 的 TTS 进行了全面的实证评估 ...
最近,去噪扩散概率模型和生成分数匹配在复杂数据分布建模方面显示出巨大潜力,而随机微积分则为这些技术提供了统一的观点,允许灵活的推理方案。在本文中,我们介绍了 Grad-TTS,这是一种新颖的文本转语音模型,具有基于分数的解码器,通过逐渐变换编码器预测的噪声并通过单调对齐搜索与文本输入对齐来生成梅尔谱图。随机微分方程的框架帮助我们将传统的扩散概率模型推广到从具有不同参数的噪声中重建数据的情况,并允许通过明确控制声音质量和推理速度之间的权衡来使这种重建变得灵活 ...
大规模训练数据的使用极大地推动了语音生成模型的最新进展。然而,由于缺乏大型、多样化和自发的语音数据集,产生高度自发的、类人的语音仍然是一个挑战。为此,我们推出了 Emilia,这是第一个大规模、多语言、多样化的语音生成数据集 ...
近年来,自回归 Transformer 和 DDPM 的应用彻底改变了图像生成领域。这些方法将图像生成过程建模为逐步概率过程,并利用大量计算和数据来学习图像分布。这种提高性能的方法不必局限于图像 ...
多码本语音编解码器支持在 TTS 中应用大型语言模型 (LLM),但由于多序列预测而成为效率和鲁棒性的瓶颈。为了避免这个障碍,我们提出了 Single-Codec,一种单码本单序列编解码器,它采用解耦的 VQ-VAE 将语音解耦为时不变嵌入和语音丰富的离散序列。此外,编码器还通过以下方式得到增强:1) 使用 BLSTM 模块进行上下文建模,以利用时间信息;2) 混合采样模块,以减轻上采样和下采样带来的失真;3) 重采样模块,以鼓励离散单元携带更多语音信息 ...