基本信息 - CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech

arxiv CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech

阅读

Star 0

名称: CLaM-TTS: Improving Neural Codec Language Model for Zero-Shot Text-to-Speech

首页: https://yiyibooks.cn/arxiv/2404.02781v1/index.html

原始地址: https://arxiv.org/pdf/2404.02781

描述

随着神经音频编解码器（对音频中的多个离散标记流进行编码）的出现，大型语言模型最近作为零样本文本到语音 (TTS) 合成的一种有前景的方法而受到关注。尽管人们一直在热衷于扩展范式，但音频标记化却讽刺地放大了可扩展性挑战，这是由于其较长的序列长度和多个序列建模的复杂性。为了缓解这些问题，我们提出了 CLaM-TTS，它采用概率残差向量量化来 (1) 实现 Token 长度的出色压缩，以及 (2) 允许语言模型一次生成多个 Token ，从而消除级联的需要建模来处理 Token 流的数量 ...

0%

上传成功 0 个文件