arxiv CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech

名称
CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech
首页
https://yiyibooks.cn/arxiv/2404.02781v1/index.html
原始地址
https://arxiv.org/pdf/2404.02781
描述
随着神经音频编解码器(对音频中的多个离散标记流进行编码)的出现,大型语言模型最近作为零样本文本到语音 (TTS) 合成的一种有前景的方法而受到关注。尽管人们一直在热衷于扩展范式,但音频标记化却讽刺地放大了可扩展性挑战,这是由于其较长的序列长度和多个序列建模的复杂性。为了缓解这些问题,我们提出了 CLaM-TTS,它采用概率残差向量量化来 (1) 实现 Token 长度的出色压缩,以及 (2) 允许语言模型一次生成多个 Token ,从而消除级联的需要建模来处理 Token 流的数量 ...