arxiv XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

名称
XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
首页
https://yiyibooks.cn/arxiv/2406.04904v1/index.html
原始地址
https://arxiv.org/pdf/2406.04904
描述
大多数零样本多扬声器 TTS (ZS-TTS) 系统仅支持单一语言。虽然 YourTTS、VALL-E X、Mega-TTS 2 和 Voicebox 等模型探索了多语言 ZS-TTS,但它们仅限于少数高/中资源语言,限制了这些模型在大多数低/中资源语言中的应用。在本文中,我们旨在通过提出并公开 XTTS 系统来缓解这个问题 ...