ShortSpeech:学习短离散语音表示用于高质量和高效的基于语言模型的零样本文本到语音合成
摘要
语言模型 (LM) 在语音生成方面展现出巨大潜力,尤其是在零样本文本到语音 (TTS) 合成方面。 然而,这种自回归序列模型也受到语音序列长度比文本长度更长的困扰,严重影响了训练和推理效率,从而阻碍了其在语音领域的开发。 本文旨在将语音压缩成更短的离散表示,以实现高质量和高效的基于语言模型的 TTS。 我们首先提出了 SoCodec,一种语义排序语音编解码器:它将语音压缩成一个多流离散语义序列,即每个帧由多个语义符元和一个话语级全局声学嵌入组成。 同时,这种多流表示被约束成有序表示,可以沿着流轴递归地进行更好的预测。 基于这种表示,我们将延迟预测 LLM 应用于 TTS,它可以使用一个自回归模型预测所提出的有序多流序列。 最后,我们实现了基于 240 毫秒帧移位的这种 LM-TTS 系统,这是目前 TTS 最短的语音表示,但它在自然度、说话人相似度和效率方面明显优于基线。111The code and checkpoint of our work are available at: https://github.com/hhguo/shortspeech
1 引言
语言模型 (LM) 在语音生成方面展现出巨大潜力,尤其是在零样本文本到语音 (TTS) 合成方面。 然而,这种自回归序列模型也受到语音序列长度比文本长度更长的困扰,严重影响了训练和推理效率,从而阻碍了其在语音领域的开发。 本文旨在将语音压缩成更短的离散表示,以实现高质量和高效的基于语言模型的 TTS。
2 相关工作
3 方法
在这项工作中,TTS 框架由两个模型组成:一个语音编解码器和一个基于语言模型的声学模型,它们将在下面分别介绍。
3.1 语义排序语音编解码器
语音编解码器作为 LM-TTS 的核心组件,负责将语音信号压缩成离散的语音符元供语言模型使用,并以最小的重建损失将它们解码回信号。