ShortSpeech：学习短离散语音表示用于高质量和高效的基于语言模型的零样本文本到语音合成

¹Haohan Guo ²Fenglong Xie ²Kun Xie ²Dake Guo
¹Dongchao Yang ¹Xixin Wu ¹Helen Meng

¹The Chinese University of Hong Kong ²Xiaohongshu Inc.

摘要

语言模型 (LM) 在语音生成方面展现出巨大潜力，尤其是在零样本文本到语音 (TTS) 合成方面。然而，这种自回归序列模型也受到语音序列长度比文本长度更长的困扰，严重影响了训练和推理效率，从而阻碍了其在语音领域的开发。本文旨在将语音压缩成更短的离散表示，以实现高质量和高效的基于语言模型的 TTS。我们首先提出了 SoCodec，一种语义排序语音编解码器：它将语音压缩成一个多流离散语义序列，即每个帧由多个语义符元和一个话语级全局声学嵌入组成。同时，这种多流表示被约束成有序表示，可以沿着流轴递归地进行更好的预测。基于这种表示，我们将延迟预测 LLM 应用于 TTS，它可以使用一个自回归模型预测所提出的有序多流序列。最后，我们实现了基于 240 毫秒帧移位的这种 LM-TTS 系统，这是目前 TTS 最短的语音表示，但它在自然度、说话人相似度和效率方面明显优于基线。¹¹1The code and checkpoint of our work are available at: https://github.com/hhguo/shortspeech

1 引言

语言模型 (LM) 在语音生成方面展现出巨大潜力，尤其是在零样本文本到语音 (TTS) 合成方面。然而，这种自回归序列模型也受到语音序列长度比文本长度更长的困扰，严重影响了训练和推理效率，从而阻碍了其在语音领域的开发。本文旨在将语音压缩成更短的离散表示，以实现高质量和高效的基于语言模型的 TTS。

2 相关工作

3 方法

在这项工作中，TTS 框架由两个模型组成：一个语音编解码器和一个基于语言模型的声学模型，它们将在下面分别介绍。

3.1 语义排序语音编解码器

语音编解码器作为 LM-TTS 的核心组件，负责将语音信号压缩成离散的语音符元供语言模型使用，并以最小的重建损失将它们解码回信号。

ShortSpeech：学习短离散语音表示用于高质量和高效的基于语言模型的零样本文本到语音合成

摘要

1 引言

2 相关工作

3 方法

3.1 语义排序语音编解码器

3.1.1 模型架构

3.1.2 有序乘积量化

3.1.3 损失函数

3.2短期 LLM

3.2.1 思维链生成

3.2.2 延迟预测

3.2.3 损失函数

4 实验

4.1 实验方案

4.1.1 数据集

4.1.2 模型训练和推理

4.1.3 评估指标

4.2 系统比较

4.2.1 TTS 质量

4.2.2 推断效率

4.3 语音编解码器

4.4 多码本矢量量化

4.5 多流 LLM

5 结论