arxiv Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

名称
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
首页
https://yiyibooks.cn/arxiv/2106.06103v1/index.html
原始地址
https://arxiv.org/pdf/2106.06103.pdf
描述
最近提出了几种支持单阶段训练和并行采样的端到端文本转语音 (TTS) 模型,但它们的样本质量无法与两阶段 TTS 系统相媲美。在这项工作中,我们提出了一种并行的端到端 TTS 方法,它可以生成比当前两阶段模型更自然的音频。我们的方法采用通过归一化流程和对抗性训练过程增强的变分推理,提高了生成模型的表达能力 ...